論文の概要: Robust Learning from Observation with Model Misspecification
- arxiv url: http://arxiv.org/abs/2202.06003v1
- Date: Sat, 12 Feb 2022 07:04:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-18 09:11:52.552455
- Title: Robust Learning from Observation with Model Misspecification
- Title(参考訳): モデルミス特定による観察からのロバスト学習
- Authors: Luca Viano, Yu-Ting Huang, Parameswaran Kamalaruban, Craig Innes,
Subramanian Ramamoorthy, Adrian Weller
- Abstract要約: イミテーションラーニング(Imitation Learning, IL)は、ロボットシステムにおけるトレーニングポリシーの一般的なパラダイムである。
我々は,微調整をせずに実環境に効果的に移行できるポリシーを学習するための堅牢なILアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 33.92371002674386
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imitation learning (IL) is a popular paradigm for training policies in
robotic systems when specifying the reward function is difficult. However,
despite the success of IL algorithms, they impose the somewhat unrealistic
requirement that the expert demonstrations must come from the same domain in
which a new imitator policy is to be learned. We consider a practical setting,
where (i) state-only expert demonstrations from the real (deployment)
environment are given to the learner, (ii) the imitation learner policy is
trained in a simulation (training) environment whose transition dynamics is
slightly different from the real environment, and (iii) the learner does not
have any access to the real environment during the training phase beyond the
batch of demonstrations given. Most of the current IL methods, such as
generative adversarial imitation learning and its state-only variants, fail to
imitate the optimal expert behavior under the above setting. By leveraging
insights from the Robust reinforcement learning (RL) literature and building on
recent adversarial imitation approaches, we propose a robust IL algorithm to
learn policies that can effectively transfer to the real environment without
fine-tuning. Furthermore, we empirically demonstrate on continuous-control
benchmarks that our method outperforms the state-of-the-art state-only IL
method in terms of the zero-shot transfer performance in the real environment
and robust performance under different testing conditions.
- Abstract(参考訳): 模倣学習(il)は、報奨関数を特定する場合のロボットシステムの訓練方針のための一般的なパラダイムである。
しかし、ILアルゴリズムが成功したにも拘わらず、専門家によるデモンストレーションは、新しい模倣者ポリシーが学習される同じ領域から来なければならないというやや非現実的な要件を課している。
実践的な環境を考えると
(i)実際の(デプロイ)環境からの状態のみのエキスパートデモンストレーションが学習者に与えられる。
(ii)模倣学習者の方針は、トランジッションダイナミクスが実環境と若干異なるシミュレーション(訓練)環境において訓練される。
(iii)学習者は、与えられたデモンストレーションのバッチを超えて、訓練段階で実環境にアクセスできない。
現在のil法、例えば生成的敵意学習とその状態のみの変種は、上記の設定の下では最適な専門家の行動を模倣できない。
本稿では,強固な強化学習(rl)文献からの洞察を活用し,近年の敵対的模倣手法に基づいて,微調整することなく実環境に効果的に移行可能なポリシを学習する強固なilアルゴリズムを提案する。
さらに,本手法は実環境におけるゼロショット転送性能と異なる試験条件下でのロバストな性能において,最先端のIL法よりも優れていることを示す。
関連論文リスト
- Unlearning with Control: Assessing Real-world Utility for Large Language Model Unlearning [97.2995389188179]
最近の研究は、勾配上昇(GA)を通した大規模言語モデル(LLM)の未学習にアプローチし始めている。
その単純さと効率性にもかかわらず、我々はGAベースの手法が過剰な未学習の傾向に直面することを示唆している。
過剰な未学習の度合いを制御できるいくつかの制御手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - Robust Visual Imitation Learning with Inverse Dynamics Representations [32.806294517277976]
我々は,専門家環境と学習環境を整合させるために,逆ダイナミクス状態表現学習目標を開発する。
抽象状態表現を用いて、行動データと専門家データとの類似性を徹底的に測定する効果的な報酬関数を設計する。
提案手法は,ほとんどの環境においてほぼ熟練した性能を実現し,最先端のビジュアルIL法やロバストIL法を著しく上回っている。
論文 参考訳(メタデータ) (2023-10-22T11:47:35Z) - Imitator Learning: Achieve Out-of-the-Box Imitation Ability in Variable
Environments [45.213059639254475]
我々は、模倣学習(ItorL)と呼ばれる新しいトピックを提案する。
これは、非常に限られた専門家のデモンストレーションに基づいて模倣ポリシーを再構築できる模倣モジュールを導出することを目的としている。
自律的な模倣ポリシー構築のために、我々は模倣ポリシーのためのデモベースアテンションアーキテクチャを設計する。
論文 参考訳(メタデータ) (2023-10-09T13:35:28Z) - A State-Distribution Matching Approach to Non-Episodic Reinforcement
Learning [61.406020873047794]
現実世界の応用への大きなハードルは、エピソード的な環境でのアルゴリズムの開発である。
提案手法は,提案する実証実験における状態分布に一致するように後方方針を訓練する手法である。
実験の結果,MEDALは3つのスパース・リワード連続制御タスクにおいて先行手法と一致し,性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-05-11T00:06:29Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Imitation Learning by State-Only Distribution Matching [2.580765958706854]
観察からの模倣学習は、人間の学習と同様の方法で政策学習を記述する。
本稿では,解釈可能な収束度と性能測定値とともに,非逆学習型観測手法を提案する。
論文 参考訳(メタデータ) (2022-02-09T08:38:50Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Generalization Guarantees for Imitation Learning [6.542289202349586]
模倣学習からの制御ポリシーは、しばしば新しい環境への一般化に失敗する。
本稿では,PAC-Bayesフレームワークを利用した模倣学習のための厳密な一般化保証を提案する。
論文 参考訳(メタデータ) (2020-08-05T03:04:13Z) - Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。
1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。
しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。
優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T03:27:59Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。