論文の概要: The AI Definition and a Program Which Satisfies this Definition
- arxiv url: http://arxiv.org/abs/2212.03184v1
- Date: Mon, 28 Nov 2022 19:05:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-11 12:52:01.613658
- Title: The AI Definition and a Program Which Satisfies this Definition
- Title(参考訳): AIの定義とこの定義を満たすプログラム
- Authors: Dimiter Dobrev
- Abstract要約: 我々はエージェントのすべてのポリシーを検討し、それらのうちの1つが最高の実行ポリシーであることを証明します。
そのポリシーは計算可能であるわけではないが、計算可能なポリシーはその近傍に存在する。
私たちは、AIを、最高のパフォーマンスポリシーに十分な計算可能なポリシーとして定義します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We will consider all policies of the agent and will prove that one of them is
the best performing policy. While that policy is not computable, computable
policies do exist in its proximity. We will define AI as a computable policy
which is sufficiently proximal to the best performing policy. Before we can
define the agent's best performing policy, we need a language for description
of the world. We will also use this language to develop a program which
satisfies the AI definition. The program will first understand the world by
describing it in the selected language. The program will then use the
description in order to predict the future and select the best possible move.
While this program is extremely inefficient and practically unusable, it can be
improved by refining both the language for description of the world and the
algorithm used to predict the future. This can yield a program which is both
efficient and consistent with the AI definition.
- Abstract(参考訳): 我々はエージェントのすべてのポリシーを検討し、その1つが最良の実行方針であることを証明します。
このポリシーは計算可能ではないが、計算可能なポリシーはその近傍に存在する。
私たちはAIを、最高のパフォーマンスポリシーに十分近い計算可能なポリシーとして定義します。
エージェントの最高の実行ポリシーを定義する前に、世界を記述するための言語が必要です。
AIの定義を満たすプログラムを開発するためにも、この言語を使用します。
プログラムはまず、選択した言語で記述することで世界を理解する。
プログラムは、将来を予測するために記述を使用し、可能な限り最良の行動を選択する。
このプログラムは非常に非効率で実用的には使用できないが、世界の記述のための言語と未来を予測するアルゴリズムの両方を精製することで改善することができる。
これにより、AI定義の効率的かつ一貫性のあるプログラムが得られる。
関連論文リスト
- Evolution of Natural Language Processing Technology: Not Just Language
Processing Towards General Purpose AI [0.0]
本報告は,最先端NLPがいかにして「実践が完璧である」原理を実現するかの技術的説明を提供する。
深層学習を用いて大量のテキストデータを学習した結果,初期予測を超える成果が報告されている。
大量のテキストデータを用いて「実践は完璧」という概念を具現化した学習者の正確な例である。
論文 参考訳(メタデータ) (2023-10-10T00:41:38Z) - Goal Representations for Instruction Following: A Semi-Supervised
Language Interface to Control [58.06223121654735]
本稿では,少数の言語データのみを用いて,共同画像と目標条件のポリシーを言語と併用する手法を提案する。
本手法は,言語を目標画像と一致させないラベル付きデータから埋め込みを学習することにより,実世界のロバストな性能を実現する。
ラベル付きデータの外部の言語命令に一般化して,様々な操作タスクをさまざまな場面で追従する命令を示す。
論文 参考訳(メタデータ) (2023-06-30T20:09:39Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Natural Language to Code Translation with Execution [82.52142893010563]
実行結果-プログラム選択のための最小ベイズリスク復号化。
そこで本研究では,自然言語からコードへのタスクにおいて,事前訓練されたコードモデルの性能を向上することを示す。
論文 参考訳(メタデータ) (2022-04-25T06:06:08Z) - Synthesizing Policies That Account For Human Execution Errors Caused By
StateAliasing In Markov Decision Processes [15.450115485745767]
最適なMDPポリシーは、(人間のエージェントのために)悪用されていないが、エラーが少なく実行される他のポリシーよりもはるかに悪い。
本研究では, 国家の不確実性による非政治行動のような不適切な行為(遅延)の可能性をモデル化する枠組みを提案する。
次に、最適なポリシーを見つけるために、分岐と有界なアルゴリズムでバイヒルクライミング(byhill climbing)の最良のポリシーを使用する。
論文 参考訳(メタデータ) (2021-09-15T17:10:46Z) - Policy Gradients Incorporating the Future [66.20567145291342]
我々はエージェントが明示的に予測することなく「未来を見る」方法を紹介した。
我々は,エージェントが過去の経験を学習中に,その将来に何が起こったのかを観察できるように提案する。
これにより、エージェントは、現在に加えて、将来の軌道力学に関するリッチで有用な情報を利用することができる。
論文 参考訳(メタデータ) (2021-08-04T14:57:11Z) - Actions You Can Handle: Dependent Types for AI Plans [2.064612766965483]
本稿では,AIプランナが作成したプランを依存型言語Agdaに組み込む手法を提案する。
ユーザーは、計画のより一般的で抽象的な特性を推論し、検証することができる。
論文 参考訳(メタデータ) (2021-05-24T13:33:56Z) - Natural Language Specification of Reinforcement Learning Policies
through Differentiable Decision Trees [10.406631494442683]
人間-AIポリシー仕様は、人間がロボットの強化学習ポリシーを協調的に温めるための、我々が定義した新しい手順である。
我々は,自律エージェントの行動の初期化と解釈を可能にする,新しい協調フレームワークを開発した。
提案手法は,ドメイン探索コストを増大させることなく,未経験の自然言語仕様を利用することで,RLエージェントをウォームスタートさせる。
論文 参考訳(メタデータ) (2021-01-18T16:07:00Z) - Universal Policies for Software-Defined MDPs [4.760079434948198]
我々は,非決定論的選択を表すプリミティブな 'choose' を用いて,このパラダイムを表わす新しいプログラミング言語 dodona を試作した。
我々は,何百もの合成タスクにおけるメタラーニングによるゼロショット指導の可能性を示す。
論文 参考訳(メタデータ) (2020-12-21T15:04:06Z) - Generative Language-Grounded Policy in Vision-and-Language Navigation
with Bayes' Rule [80.0853069632445]
視覚言語ナビゲーション(VLN)は、エージェントが現実的な3D環境に具体化され、目標ノードに到達するための指示に従うタスクである。
本稿では,言語モデルを用いて可能なすべての命令の分布を計算する生成言語基底ポリシーの設計と検討を行う。
実験では,提案手法がRoom-2-Room (R2R) とRoom-4-Room (R4R) データセット,特に未確認環境において差別的アプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-09-16T16:23:17Z) - Optimizing for the Future in Non-Stationary MDPs [52.373873622008944]
本稿では,今後の性能予測を最大化するポリシ勾配アルゴリズムを提案する。
我々のアルゴリズムであるPrognosticatorは2つのオンライン適応手法よりも非定常性に頑健であることを示す。
論文 参考訳(メタデータ) (2020-05-17T03:41:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。