論文の概要: MEGA-DAgger: Imitation Learning with Multiple Imperfect Experts
- arxiv url: http://arxiv.org/abs/2303.00638v1
- Date: Wed, 1 Mar 2023 16:40:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-02 14:02:00.073459
- Title: MEGA-DAgger: Imitation Learning with Multiple Imperfect Experts
- Title(参考訳): MEGA-DAgger: 複数専門家による模倣学習
- Authors: Xiatao Sun, Shuo Yang, Rahul Mangharam
- Abstract要約: MEGA-DAggerは、複数の不完全な専門家と対話的な学習に適した新しいDAgger亜種である。
我々は,MEGA-DAggerを用いて学習したポリシーが,最先端のインタラクティブな模倣学習アルゴリズムを用いて学習した専門家と政策の両方より優れていることを実証した。
- 参考スコア(独自算出の注目度): 7.76316866206712
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Imitation learning has been widely applied to various autonomous systems
thanks to recent development in interactive algorithms that address covariate
shift and compounding errors induced by traditional approaches like behavior
cloning. However, existing interactive imitation learning methods assume access
to one perfect expert. Whereas in reality, it is more likely to have multiple
imperfect experts instead. In this paper, we propose MEGA-DAgger, a new DAgger
variant that is suitable for interactive learning with multiple imperfect
experts. First, unsafe demonstrations are filtered while aggregating the
training data, so the imperfect demonstrations have little influence when
training the novice policy. Next, experts are evaluated and compared on
scenarios-specific metrics to resolve the conflicted labels among experts.
Through experiments in autonomous racing scenarios, we demonstrate that policy
learned using MEGA-DAgger can outperform both experts and policies learned
using the state-of-the-art interactive imitation learning algorithm. The
supplementary video can be found at https://youtu.be/pYQiPSHk6dU.
- Abstract(参考訳): 模倣学習は、振る舞いのクローニングのような従来のアプローチによって引き起こされる共変量シフトや複合誤差に対処する対話型アルゴリズムの開発により、様々な自律システムに適用されている。
しかし、既存の対話型模倣学習手法では、1人の完璧な専門家にアクセスすることができる。
実際には、複数の不完全な専門家がいる可能性が高い。
本稿では,複数の不完全な専門家との対話型学習に適した新しいDAggerであるMEGA-DAggerを提案する。
まず、安全でないデモは、トレーニングデータを集約しながらフィルタリングされるため、初心者ポリシーをトレーニングする際には、不完全なデモはほとんど影響しない。
次に、専門家は、専門家間の矛盾するラベルを解決するために、シナリオ固有のメトリクスを評価し比較する。
自律レースシナリオの実験を通じて、MEGA-DAggerを用いて学習したポリシーは、最先端のインタラクティブな模倣学習アルゴリズムを用いて学習した専門家とポリシーの両方より優れていることを示す。
追加ビデオはhttps://youtu.be/pyqipshk6duで見ることができる。
関連論文リスト
- RLIF: Interactive Imitation Learning as Reinforcement Learning [61.14928315004026]
オフ・ポリティクス強化学習は、インタラクティブな模倣学習よりも近いが、潜在的にさらに実践的な仮定の下で、パフォーマンスを向上させることができる。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - A Simple Solution for Offline Imitation from Observations and Examples
with Possibly Incomplete Trajectories [122.11358440078581]
オフラインの模倣は、任意のインタラクションがコストがかかり、専門家のアクションが利用できない現実世界のシナリオで有用である。
本研究では,タスク固有の専門的状態とタスクに依存しない非専門的状態-アクションペアのみを利用できるMPPを解決するために,観察から学習するトラジェクトリ・アウェア・ラーニング(TAILO)を提案する。
論文 参考訳(メタデータ) (2023-11-02T15:41:09Z) - How To Guide Your Learner: Imitation Learning with Active Adaptive
Expert Involvement [20.91491585498749]
本稿では,教師と学生のインタラクションモデルに基づく,新しいアクティブな模倣学習フレームワークを提案する。
本稿では,AdapMenによるエラー境界の改善と,軽度条件下での複合的エラーの回避について述べる。
論文 参考訳(メタデータ) (2023-03-03T16:44:33Z) - Unlabeled Imperfect Demonstrations in Adversarial Imitation Learning [48.595574101874575]
現実の世界では、専門家によるデモは不完全である可能性が高い。
正のラベル付き対逆模倣学習アルゴリズムを開発した。
エージェントポリシーは、差別者を騙し、これらの最適な専門家のデモと同様の軌道を生成するように最適化される。
論文 参考訳(メタデータ) (2023-02-13T11:26:44Z) - Bayesian Q-learning With Imperfect Expert Demonstrations [56.55609745121237]
そこで本研究では,Q-ラーニングを高速化するアルゴリズムを提案する。
我々は,スパース・リワード・チェーン環境と,より複雑な6つのアタリゲームに対して,報酬の遅れによるアプローチを評価した。
論文 参考訳(メタデータ) (2022-10-01T17:38:19Z) - IQ-Learn: Inverse soft-Q Learning for Imitation [95.06031307730245]
少数の専門家データからの模倣学習は、複雑な力学を持つ高次元環境では困難である。
行動クローニングは、実装の単純さと安定した収束性のために広く使われている単純な方法である。
本稿では,1つのQ-関数を学習することで,対向学習を回避する動的適応型ILを提案する。
論文 参考訳(メタデータ) (2021-06-23T03:43:10Z) - Adversarial Option-Aware Hierarchical Imitation Learning [89.92994158193237]
提案するOption-GAILは,遠隔地平線でスキルを学ぶための新しい手法である。
Option-GAILの鍵となる考え方は、タスク階層をオプションでモデル化し、生成的敵最適化を通じてポリシーを訓練することである。
実験によると、Option-GAILはさまざまなタスクにおいて、他のタスクよりも一貫してパフォーマンスが向上している。
論文 参考訳(メタデータ) (2021-06-10T06:42:05Z) - $f$-GAIL: Learning $f$-Divergence for Generative Adversarial Imitation
Learning [29.459037918810143]
模倣学習は、学習者と専門家の行動の相違を最小限に抑える専門家のデモンストレーションからポリシーを学ぶことを目的としている。
データ効率を向上して、専門家のポリシーをより正確に回復できるような、専門家によるデモンストレーションのセットを考えてください。
本稿では,新たなGAILモデルである$f$-GAILを提案する。
論文 参考訳(メタデータ) (2020-10-02T21:39:56Z) - State-only Imitation with Transition Dynamics Mismatch [16.934888672659824]
イミテーションラーニング(Imitation Learning, IL)は、専門家の行動を活用することで、複雑な目標を達成するための訓練エージェントにとって一般的なパラダイムである。
本稿では,新しい状態のみのILアルゴリズムを提案する。
提案アルゴリズムは,専門家と模倣MDPの間に遷移力学ミスマッチが存在する場合,特に有効であることを示す。
論文 参考訳(メタデータ) (2020-02-27T02:27:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。