論文の概要: Action Inference by Maximising Evidence: Zero-Shot Imitation from
Observation with World Models
- arxiv url: http://arxiv.org/abs/2312.02019v1
- Date: Mon, 4 Dec 2023 16:43:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 14:45:02.850696
- Title: Action Inference by Maximising Evidence: Zero-Shot Imitation from
Observation with World Models
- Title(参考訳): エビデンス最大化による行動推論:世界モデルによる観察からのゼロショット模倣
- Authors: Xingyuan Zhang, Philip Becker-Ehmck, Patrick van der Smagt, Maximilian
Karl
- Abstract要約: 我々は,この行動を世界モデルを用いて再現するために,エビデンスを最大化する行動推論(AIME)を提案する。
AIMEは、2つの異なるフェーズから構成されており、第1フェーズでは、エージェントが過去の経験から世界モデルを学び、ELBOを最大化することで自身の身体を理解する。
第2フェーズでは、エージェントは、新しいタスクを実行する専門家の観察のみのデモンストレーションを受け、専門家の行動を模倣しようとする。
本手法は実演後の世界モデルや環境とのオンラインインタラクションのさらなる訓練を必要としないという意味で「ゼロショット」である。
- 参考スコア(独自算出の注目度): 9.583751440005118
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unlike most reinforcement learning agents which require an unrealistic amount
of environment interactions to learn a new behaviour, humans excel at learning
quickly by merely observing and imitating others. This ability highly depends
on the fact that humans have a model of their own embodiment that allows them
to infer the most likely actions that led to the observed behaviour. In this
paper, we propose Action Inference by Maximising Evidence (AIME) to replicate
this behaviour using world models. AIME consists of two distinct phases. In the
first phase, the agent learns a world model from its past experience to
understand its own body by maximising the ELBO. While in the second phase, the
agent is given some observation-only demonstrations of an expert performing a
novel task and tries to imitate the expert's behaviour. AIME achieves this by
defining a policy as an inference model and maximising the evidence of the
demonstration under the policy and world model. Our method is "zero-shot" in
the sense that it does not require further training for the world model or
online interactions with the environment after given the demonstration. We
empirically validate the zero-shot imitation performance of our method on the
Walker and Cheetah embodiment of the DeepMind Control Suite and find it
outperforms the state-of-the-art baselines. Code is available at:
https://github.com/argmax-ai/aime.
- Abstract(参考訳): 新しい行動を学ぶために非現実的な環境相互作用を必要とする多くの強化学習エージェントとは異なり、人間は他人を観察し模倣するだけで素早く学習することができる。
この能力は、人間が観察された行動に繋がる最も可能性の高い行動を推測できる独自の実施形態のモデルを持っているという事実に大きく依存する。
本稿では,この行動を世界モデルを用いて再現するために,AIME(Maximising Evidence)を用いた行動推論を提案する。
AIMEは2つの異なるフェーズから構成される。
第1段階では、エージェントは過去の経験から世界モデルを学び、ELBOを最大化することで自身の身体を理解する。
第2フェーズでは、エージェントは、新しいタスクを実行する専門家の観察のみのデモンストレーションを行い、専門家の行動を模倣しようとする。
AIMEは、ポリシーを推論モデルとして定義し、ポリシーと世界モデルの下で実証の証拠を最大化する。
本手法は,実演後に世界モデルやオンライン環境とのインタラクションのさらなるトレーニングを必要としないという意味で「ゼロショット」である。
我々はdeepmindコントロールスイートのwalkerとcheetahの具体化において,提案手法のゼロショット模倣性能を実証的に検証し,その性能が最先端のベースラインよりも優れていることを発見した。
コードはhttps://github.com/argmax-ai/aimeで入手できる。
関連論文リスト
- Dreamitate: Real-World Visuomotor Policy Learning via Video Generation [49.03287909942888]
本研究では,与えられたタスクの人間による実演の映像拡散モデルを微調整するビジュモータポリシー学習フレームワークを提案する。
我々は,新しいシーンの画像に条件付きタスクの実行例を生成し,この合成された実行を直接使用してロボットを制御する。
論文 参考訳(メタデータ) (2024-06-24T17:59:45Z) - A Dual Approach to Imitation Learning from Observations with Offline Datasets [19.856363985916644]
報酬関数の設計が困難な環境では、エージェントを学習するためのタスク仕様の効果的な代替手段である。
専門家の行動を必要とせずに任意の準最適データを利用してポリシーを模倣するアルゴリズムであるDILOを導出する。
論文 参考訳(メタデータ) (2024-06-13T04:39:42Z) - Play with Emotion: Affect-Driven Reinforcement Learning [3.611888922173257]
本稿では、強化学習プロセスとして、感情モデリングの課題を観ることによるパラダイムシフトを紹介する。
我々は,Go-Blendエージェントをトレーニングし,覚醒と行動の人間の実演をモデル化することで,レースゲームにおける仮説を検証した。
論文 参考訳(メタデータ) (2022-08-26T12:28:24Z) - Imitation Learning by Estimating Expertise of Demonstrators [92.20185160311036]
実証的知識よりも教師なし学習が模倣学習アルゴリズムの性能を一貫した向上に繋がることを示す。
デモ参加者の学習した方針や専門知識に基づいて,共同モデルを開発・最適化する。
本研究は,ミニグリッドやチェスなど,ロブミミックや離散環境からの実ロボット的連続制御タスクについて述べる。
論文 参考訳(メタデータ) (2022-02-02T21:23:19Z) - Learning from Imperfect Demonstrations from Agents with Varying Dynamics [29.94164262533282]
我々は,実演が模倣学習にどの程度有用かを測定するために,実現可能性スコアと最適度スコアからなる指標を開発した。
シミュレーションと実ロボットによる4つの環境実験により,学習方針の改善が期待された。
論文 参考訳(メタデータ) (2021-03-10T07:39:38Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - Mastering Atari with Discrete World Models [61.7688353335468]
本稿では,強力な世界モデルのコンパクトな潜伏空間における予測から純粋に振る舞いを学習する強化学習エージェントであるDreamerV2を紹介する。
DreamerV2は、Atariベンチマークにおいて、個別に訓練された世界モデル内での振る舞いを学習することで、55タスクの人間レベルのパフォーマンスを達成する最初のエージェントである。
論文 参考訳(メタデータ) (2020-10-05T17:52:14Z) - Learning intuitive physics and one-shot imitation using
state-action-prediction self-organizing maps [0.0]
人間は探索と模倣によって学び、世界の因果モデルを構築し、両方を使って新しいタスクを柔軟に解決する。
このような特徴を生み出す単純だが効果的な教師なしモデルを提案する。
エージェントがアクティブな推論スタイルで柔軟に解決する、複数の関連するが異なる1ショットの模倣タスクに対して、その性能を示す。
論文 参考訳(メタデータ) (2020-07-03T12:29:11Z) - Intrinsic Reward Driven Imitation Learning via Generative Model [48.97800481338626]
ほとんどの逆強化学習(IRL)法は、高次元環境下では実証者よりも優れていない。
生成モデルを用いて固有報酬信号を生成するための新たな報奨学習モジュールを提案する。
実験結果から,本手法は,一生のデモンストレーションであっても,複数のアタリゲームにおいて最先端のIRL法よりも優れることが示された。
論文 参考訳(メタデータ) (2020-06-26T15:39:40Z) - State-Only Imitation Learning for Dexterous Manipulation [63.03621861920732]
本稿では,国家のみの模倣学習について考察する。
我々は、逆ダイナミクスモデルをトレーニングし、状態のみのデモンストレーションのアクションを予測するためにそれを使用します。
我々の手法は状態-作用アプローチと同等に動作し、RL単独よりもかなり優れています。
論文 参考訳(メタデータ) (2020-04-07T17:57:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。