論文の概要: Augmented Behavioral Cloning from Observation
- arxiv url: http://arxiv.org/abs/2004.13529v1
- Date: Tue, 28 Apr 2020 13:56:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 23:19:33.724565
- Title: Augmented Behavioral Cloning from Observation
- Title(参考訳): 観察による行動クローンの強化
- Authors: Juarez Monteiro, Nathan Gavenski, Roger Granada, Felipe Meneguzzi and
Rodrigo Barros
- Abstract要約: 観察からの模倣(英:imitation from Observation)とは、専門家の行動の模倣法をエージェントに教える技法である。
我々は4つの異なる環境における最先端のアプローチよりも大きなマージンで優れていることを実証的に示す。
- 参考スコア(独自算出の注目度): 14.45796459531414
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imitation from observation is a computational technique that teaches an agent
on how to mimic the behavior of an expert by observing only the sequence of
states from the expert demonstrations. Recent approaches learn the inverse
dynamics of the environment and an imitation policy by interleaving epochs of
both models while changing the demonstration data. However, such approaches
often get stuck into sub-optimal solutions that are distant from the expert,
limiting their imitation effectiveness. We address this problem with a novel
approach that overcomes the problem of reaching bad local minima by exploring:
(I) a self-attention mechanism that better captures global features of the
states; and (ii) a sampling strategy that regulates the observations that are
used for learning. We show empirically that our approach outperforms the
state-of-the-art approaches in four different environments by a large margin.
- Abstract(参考訳): 観察からの模倣(imitation from observation)は、専門家のデモンストレーションからの状態のシーケンスのみを観察し、専門家の振る舞いを模倣する方法をエージェントに教える計算技術である。
最近のアプローチでは,実演データを変更しながら両モデルのエポックをインターリーブすることで,環境の逆ダイナミクスと模倣ポリシーを学習している。
しかし、そのようなアプローチは、しばしば専門家から遠く離れた準最適解に固執し、模倣の有効性を制限される。
我々は,この問題を,まずい局所的ミニマに到達するという問題を克服する新しいアプローチで解決する: (i) 状態の全体的特徴をよりよく捉える自己追跡機構,および (ii) 学習に使用される観察を規制するサンプリング戦略。
我々は4つの異なる環境における最先端のアプローチよりも大きなマージンで優れていることを実証的に示す。
関連論文リスト
- Offline Imitation Learning with Model-based Reverse Augmentation [48.64791438847236]
本稿では,自己ペースの逆拡張によるオフラインImitation Learningという,新しいモデルベースフレームワークを提案する。
具体的には、オフラインのデモからリバース・ダイナミック・モデルを構築し、専門家が観察した状態につながる軌道を効率的に生成する。
後続の強化学習法を用いて,拡張軌道から学習し,未観測状態から未観測状態へ移行する。
論文 参考訳(メタデータ) (2024-06-18T12:27:02Z) - IL-flOw: Imitation Learning from Observation using Normalizing Flows [28.998176144874193]
本稿では,エキスパート状態観測のみから逆強化学習(IRL)のアルゴリズムを提案する。
我々のアプローチは、最先端の敵対的手法とは異なり、報酬モデリングを政策学習から切り離している。
論文 参考訳(メタデータ) (2022-05-19T00:05:03Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Imitation Learning by State-Only Distribution Matching [2.580765958706854]
観察からの模倣学習は、人間の学習と同様の方法で政策学習を記述する。
本稿では,解釈可能な収束度と性能測定値とともに,非逆学習型観測手法を提案する。
論文 参考訳(メタデータ) (2022-02-09T08:38:50Z) - Provable RL with Exogenous Distractors via Multistep Inverse Dynamics [85.52408288789164]
実世界の強化学習(RL)の応用は、メガピクセルカメラから生成されたような高次元の観察にエージェントが対処する必要がある。
従来の研究は表現学習でこのような問題に対処しており、エージェントは生の観察から内因性、潜伏状態の情報を確実に抽出することができる。
しかし、このような手法は観測において時間的に相関するノイズの存在下では失敗する可能性がある。
論文 参考訳(メタデータ) (2021-10-17T15:21:27Z) - Imitation by Predicting Observations [17.86983397979034]
本研究では, 連続制御タスクの課題に対して, 専門家に匹敵する性能を達成できる観測結果のみを模倣する新しい手法を提案する。
提案手法は, 逆RL目標から導出され, 専門家の観察結果の生成モデルを用いて学習した専門家の行動モデルを用いて模倣する。
本稿では,DeepMind Control Suiteベンチマークにおける強力なベースラインIRL法(GAIL)に対して,タスク非関連機能の存在下でGAILよりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2021-07-08T14:09:30Z) - Imitating Unknown Policies via Exploration [18.78730427200346]
行動クローニング(英: Behavioral cloning)は、エージェントに専門家によるデモンストレーションを通じて行動の仕方を教える模倣学習技術である。
最近のアプローチでは、状態ペアをアクションにデコードするために、状態の完全な観測不可能なスナップショットをセルフスーパービジョンで使用しています。
これらの制約に対処するため、2段階のモデルを元のフレームワークに組み込むことで、探索を通じてラベルなしの観測から学習する。
論文 参考訳(メタデータ) (2020-08-13T03:03:35Z) - Off-policy Evaluation in Infinite-Horizon Reinforcement Learning with
Latent Confounders [62.54431888432302]
無限水平エルゴードマルコフ決定過程におけるOPE問題について考察する。
我々は、状態と行動の潜在変数モデルのみを考慮すれば、政策値が政治外のデータから特定できることを示す。
論文 参考訳(メタデータ) (2020-07-27T22:19:01Z) - Learning the Truth From Only One Side of the Story [58.65439277460011]
一般化線形モデルに焦点をあて、このサンプリングバイアスを調整しなければ、モデルは準最適に収束するか、あるいは最適解に収束しないかもしれないことを示す。
理論的保証を伴って適応的なアプローチを提案し、いくつかの既存手法を実証的に上回っていることを示す。
論文 参考訳(メタデータ) (2020-06-08T18:20:28Z) - State-Only Imitation Learning for Dexterous Manipulation [63.03621861920732]
本稿では,国家のみの模倣学習について考察する。
我々は、逆ダイナミクスモデルをトレーニングし、状態のみのデモンストレーションのアクションを予測するためにそれを使用します。
我々の手法は状態-作用アプローチと同等に動作し、RL単独よりもかなり優れています。
論文 参考訳(メタデータ) (2020-04-07T17:57:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。