論文の概要: What Matters for Adversarial Imitation Learning?
- arxiv url: http://arxiv.org/abs/2106.00672v1
- Date: Tue, 1 Jun 2021 17:58:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-02 14:32:17.883439
- Title: What Matters for Adversarial Imitation Learning?
- Title(参考訳): 対人模倣学習には何が重要か?
- Authors: Manu Orsini, Anton Raichuk, L\'eonard Hussenot, Damien Vincent, Robert
Dadashi, Sertan Girgin, Matthieu Geist, Olivier Bachem, Olivier Pietquin,
Marcin Andrychowicz
- Abstract要約: 我々は、汎用的な敵模倣学習フレームワークで50以上の選択肢を実装している。
人工および人為的な実演による大規模研究における影響について検討する。
私たちの発見の多くは、一般的なプラクティスを裏付けていますが、いくつかは驚きや、それ以前の仕事と矛盾するものです。
- 参考スコア(独自算出の注目度): 43.71189162574034
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adversarial imitation learning has become a popular framework for imitation
in continuous control. Over the years, several variations of its components
were proposed to enhance the performance of the learned policies as well as the
sample complexity of the algorithm. In practice, these choices are rarely
tested all together in rigorous empirical studies. It is therefore difficult to
discuss and understand what choices, among the high-level algorithmic options
as well as low-level implementation details, matter. To tackle this issue, we
implement more than 50 of these choices in a generic adversarial imitation
learning framework and investigate their impacts in a large-scale study (>500k
trained agents) with both synthetic and human-generated demonstrations. While
many of our findings confirm common practices, some of them are surprising or
even contradict prior work. In particular, our results suggest that artificial
demonstrations are not a good proxy for human data and that the very common
practice of evaluating imitation algorithms only with synthetic demonstrations
may lead to algorithms which perform poorly in the more realistic scenarios
with human demonstrations.
- Abstract(参考訳): 逆模倣学習は、継続的制御における模倣の一般的なフレームワークとなっている。
長年にわたり、学習ポリシーの性能向上とアルゴリズムのサンプル複雑さを高めるために、そのコンポーネントの様々なバリエーションが提案されてきた。
実際には、これらの選択が厳密な実証研究で一緒にテストされることは滅多にない。
したがって、高レベルのアルゴリズムオプションや低レベルの実装の詳細について、どの選択肢を議論し、理解することは困難である。
この問題に取り組むため,我々は50以上の選択肢を汎用的な敵意模倣学習フレームワークに実装し,人工的および人為的に生成した実演を用いた大規模研究(>500k訓練エージェント)においてその影響を調査した。
私たちの発見の多くは一般的なプラクティスを裏付けていますが、いくつかは以前の作業に驚きや矛盾すらあります。
特に,人工的な実演は人間のデータにとってよい指標ではないこと,および人工的な実演でのみ模倣アルゴリズムを評価するという非常に一般的な実践が,より現実的な実演でうまく機能しないアルゴリズムにつながる可能性があることを示唆する。
関連論文リスト
- "Give Me an Example Like This": Episodic Active Reinforcement Learning from Demonstrations [3.637365301757111]
専門家デモ(RLED)からの強化学習(Reinforcement Learning from Expert Demonstrations)のような手法は、学習プロセス中のエージェント探索を促進するために外部の専門家によるデモンストレーションを導入します。
学習にとって最も有益な人間のデモのベストセットをどうやって選ぶかが、大きな関心事になります。
本稿では,学習エージェントが軌跡に基づく特徴空間において,専門家による実演を最適化したクエリを生成できるアルゴリズムEARLYを提案する。
論文 参考訳(メタデータ) (2024-06-05T08:52:21Z) - Skill Disentanglement for Imitation Learning from Suboptimal
Demonstrations [60.241144377865716]
我々は、小さなクリーンな実演セットと大きなノイズセットの両方で、準最適実演の模倣を考える。
本稿では,様々な品質のアクションプリミティブを異なるスキルに符号化し,サブデモレーションレベルの評価と模倣を行う手法を提案する。
論文 参考訳(メタデータ) (2023-06-13T17:24:37Z) - Active Learning Principles for In-Context Learning with Large Language
Models [65.09970281795769]
本稿では,アクティブ・ラーニング・アルゴリズムが,文脈内学習における効果的な実演選択手法としてどのように機能するかを検討する。
ALによる文脈内サンプル選択は,不確実性の低い高品質な事例を優先し,試験例と類似性を有することを示す。
論文 参考訳(メタデータ) (2023-05-23T17:16:04Z) - Sample-efficient Adversarial Imitation Learning [45.400080101596956]
状態と行動表現を学習するための自己教師付き表現に基づく対向的模倣学習法を提案する。
本研究は,M MuJoCo上での既存対向模倣学習法に対して,100対の専門的状態-作用ペアに制限された設定で相対的に39%改善したことを示す。
論文 参考訳(メタデータ) (2023-03-14T12:36:01Z) - Unlabeled Imperfect Demonstrations in Adversarial Imitation Learning [48.595574101874575]
現実の世界では、専門家によるデモは不完全である可能性が高い。
正のラベル付き対逆模倣学習アルゴリズムを開発した。
エージェントポリシーは、差別者を騙し、これらの最適な専門家のデモと同様の軌道を生成するように最適化される。
論文 参考訳(メタデータ) (2023-02-13T11:26:44Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Learning from Imperfect Demonstrations from Agents with Varying Dynamics [29.94164262533282]
我々は,実演が模倣学習にどの程度有用かを測定するために,実現可能性スコアと最適度スコアからなる指標を開発した。
シミュレーションと実ロボットによる4つの環境実験により,学習方針の改善が期待された。
論文 参考訳(メタデータ) (2021-03-10T07:39:38Z) - Reinforcement Learning with Supervision from Noisy Demonstrations [38.00968774243178]
本研究では,環境と協調して対話し,専門家による実演を生かして政策を適応的に学習する新しい枠組みを提案する。
複数の人気強化学習アルゴリズムを用いた各種環境における実験結果から,提案手法はノイズの多い実演で頑健に学習可能であることが示された。
論文 参考訳(メタデータ) (2020-06-14T06:03:06Z) - State-Only Imitation Learning for Dexterous Manipulation [63.03621861920732]
本稿では,国家のみの模倣学習について考察する。
我々は、逆ダイナミクスモデルをトレーニングし、状態のみのデモンストレーションのアクションを予測するためにそれを使用します。
我々の手法は状態-作用アプローチと同等に動作し、RL単独よりもかなり優れています。
論文 参考訳(メタデータ) (2020-04-07T17:57:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。