論文の概要: Diverse Imitation Learning via Self-Organizing Generative Models
- arxiv url: http://arxiv.org/abs/2205.03484v1
- Date: Fri, 6 May 2022 21:55:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-15 13:01:12.918512
- Title: Diverse Imitation Learning via Self-Organizing Generative Models
- Title(参考訳): 自己組織的生成モデルによる多様な模倣学習
- Authors: Arash Vahabpour, Tianyi Wang, Qiujing Lu, Omead Pooladzandi, Vwani
Roychowdhury
- Abstract要約: 模倣学習は、報酬関数へのアクセスなしに、デモンストレーションから専門家のポリシーを複製するタスクである。
我々は,行動クローニング(BC)のためのエンコーダフリー生成モデルを採用し,異なるモードを正確に識別し,模倣する。
提案手法は,複数の実験において技量を著しく上回ることを示す。
- 参考スコア(独自算出の注目度): 6.783186172518836
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imitation learning is the task of replicating expert policy from
demonstrations, without access to a reward function. This task becomes
particularly challenging when the expert exhibits a mixture of behaviors. Prior
work has introduced latent variables to model variations of the expert policy.
However, our experiments show that the existing works do not exhibit
appropriate imitation of individual modes. To tackle this problem, we adopt an
encoder-free generative model for behavior cloning (BC) to accurately
distinguish and imitate different modes. Then, we integrate it with GAIL to
make the learning robust towards compounding errors at unseen states. We show
that our method significantly outperforms the state of the art across multiple
experiments.
- Abstract(参考訳): 模倣学習は、報酬機能にアクセスせずに、デモンストレーションから専門家ポリシーを複製するタスクである。
このタスクは、専門家が行動の混合を示すと特に困難になる。
これまでの研究では、エキスパートポリシーのバリエーションをモデル化するために潜伏変数を導入してきた。
しかし,本実験では,既存の作品が個別モードの適切な模倣を示さないことを示す。
この問題に対処するために,行動クローニングのためのエンコーダフリー生成モデル(bc)を採用し,異なるモードを正確に識別・模倣する。
そして、GAILと統合して、未知の状態のエラーを複雑化する学習を堅牢にする。
提案手法は,複数の実験において技量を著しく上回ることを示す。
関連論文リスト
- IDIL: Imitation Learning of Intent-Driven Expert Behavior [2.07180164747172]
我々は、専門家の多様な意図駆動行動を模倣する新しい模倣学習アルゴリズムIDILを紹介する。
シーケンシャルなタスクに高次元の状態表現で対処することができる。
生成モデルを作成すると、IDILはインテント推論の指標において優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-04-25T19:18:30Z) - Sample-efficient Adversarial Imitation Learning [45.400080101596956]
状態と行動表現を学習するための自己教師付き表現に基づく対向的模倣学習法を提案する。
本研究は,M MuJoCo上での既存対向模倣学習法に対して,100対の専門的状態-作用ペアに制限された設定で相対的に39%改善したことを示す。
論文 参考訳(メタデータ) (2023-03-14T12:36:01Z) - Out-of-Dynamics Imitation Learning from Multimodal Demonstrations [68.46458026983409]
本研究では,実演者と模倣者が同じ状態空間を持つという仮定を緩和する,動的外模擬学習(OOD-IL)について検討する。
OOD-ILは、様々なデモ参加者のデモを利用するための模倣学習を可能にするが、新しい挑戦を導入する。
我々は,この新たな課題に取り組むために,より優れた伝達可能性測定法を開発した。
論文 参考訳(メタデータ) (2022-11-13T07:45:06Z) - Sequential Causal Imitation Learning with Unobserved Confounders [82.22545916247269]
猿が猿を見なさい」とは、制度の根底にある仕組みを深く理解せずに「生」の模倣を指して、昔ながらの格言である。
本稿では、エピソード毎に複数の意思決定をしなければならないシーケンシャルセッティングにおける因果模倣学習の問題について検討する。
論文 参考訳(メタデータ) (2022-08-12T13:53:23Z) - Causal Imitation Learning with Unobserved Confounders [82.22545916247269]
本研究では,学習者と専門家の感覚入力が異なる場合の模倣学習について検討する。
我々は、専門家の軌跡の量的知識を活用することで、模倣が依然として実現可能であることを示した。
論文 参考訳(メタデータ) (2022-08-12T13:29:53Z) - Visual Adversarial Imitation Learning using Variational Models [60.69745540036375]
逆関数仕様は、深い強化学習を通しての学習行動にとって大きな障害であり続けている。
望ましい行動の視覚的なデモンストレーションは、エージェントを教えるためのより簡単で自然な方法を示すことが多い。
変動モデルに基づく対向的模倣学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-07-16T00:15:18Z) - Imitation by Predicting Observations [17.86983397979034]
本研究では, 連続制御タスクの課題に対して, 専門家に匹敵する性能を達成できる観測結果のみを模倣する新しい手法を提案する。
提案手法は, 逆RL目標から導出され, 専門家の観察結果の生成モデルを用いて学習した専門家の行動モデルを用いて模倣する。
本稿では,DeepMind Control Suiteベンチマークにおける強力なベースラインIRL法(GAIL)に対して,タスク非関連機能の存在下でGAILよりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2021-07-08T14:09:30Z) - State-Only Imitation Learning for Dexterous Manipulation [63.03621861920732]
本稿では,国家のみの模倣学習について考察する。
我々は、逆ダイナミクスモデルをトレーニングし、状態のみのデモンストレーションのアクションを予測するためにそれを使用します。
我々の手法は状態-作用アプローチと同等に動作し、RL単独よりもかなり優れています。
論文 参考訳(メタデータ) (2020-04-07T17:57:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。