論文の概要: MEGA-DAgger: Imitation Learning with Multiple Imperfect Experts
- arxiv url: http://arxiv.org/abs/2303.00638v1
- Date: Wed, 1 Mar 2023 16:40:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-02 14:02:00.073459
- Title: MEGA-DAgger: Imitation Learning with Multiple Imperfect Experts
- Title(参考訳): MEGA-DAgger: 複数専門家による模倣学習
- Authors: Xiatao Sun, Shuo Yang, Rahul Mangharam
- Abstract要約: MEGA-DAggerは、複数の不完全な専門家と対話的な学習に適した新しいDAgger亜種である。
我々は,MEGA-DAggerを用いて学習したポリシーが,最先端のインタラクティブな模倣学習アルゴリズムを用いて学習した専門家と政策の両方より優れていることを実証した。
- 参考スコア(独自算出の注目度): 7.76316866206712
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Imitation learning has been widely applied to various autonomous systems
thanks to recent development in interactive algorithms that address covariate
shift and compounding errors induced by traditional approaches like behavior
cloning. However, existing interactive imitation learning methods assume access
to one perfect expert. Whereas in reality, it is more likely to have multiple
imperfect experts instead. In this paper, we propose MEGA-DAgger, a new DAgger
variant that is suitable for interactive learning with multiple imperfect
experts. First, unsafe demonstrations are filtered while aggregating the
training data, so the imperfect demonstrations have little influence when
training the novice policy. Next, experts are evaluated and compared on
scenarios-specific metrics to resolve the conflicted labels among experts.
Through experiments in autonomous racing scenarios, we demonstrate that policy
learned using MEGA-DAgger can outperform both experts and policies learned
using the state-of-the-art interactive imitation learning algorithm. The
supplementary video can be found at https://youtu.be/pYQiPSHk6dU.
- Abstract(参考訳): 模倣学習は、振る舞いのクローニングのような従来のアプローチによって引き起こされる共変量シフトや複合誤差に対処する対話型アルゴリズムの開発により、様々な自律システムに適用されている。
しかし、既存の対話型模倣学習手法では、1人の完璧な専門家にアクセスすることができる。
実際には、複数の不完全な専門家がいる可能性が高い。
本稿では,複数の不完全な専門家との対話型学習に適した新しいDAggerであるMEGA-DAggerを提案する。
まず、安全でないデモは、トレーニングデータを集約しながらフィルタリングされるため、初心者ポリシーをトレーニングする際には、不完全なデモはほとんど影響しない。
次に、専門家は、専門家間の矛盾するラベルを解決するために、シナリオ固有のメトリクスを評価し比較する。
自律レースシナリオの実験を通じて、MEGA-DAggerを用いて学習したポリシーは、最先端のインタラクティブな模倣学習アルゴリズムを用いて学習した専門家とポリシーの両方より優れていることを示す。
追加ビデオはhttps://youtu.be/pyqipshk6duで見ることができる。
関連論文リスト
- Agnostic Interactive Imitation Learning: New Theory and Practical Algorithms [22.703438243976876]
本研究では、対話型模倣学習について研究し、学習者がアクションアノテーションの実証的な専門家に対話的に問い合わせる。
証明可能な有限サンプル保証を備えた新しいオラクル効率アルゴリズム MFTPL-P を提案する。
論文 参考訳(メタデータ) (2023-12-28T07:05:30Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - A Simple Solution for Offline Imitation from Observations and Examples
with Possibly Incomplete Trajectories [122.11358440078581]
オフラインの模倣は、任意のインタラクションがコストがかかり、専門家のアクションが利用できない現実世界のシナリオで有用である。
本研究では,タスク固有の専門的状態とタスクに依存しない非専門的状態-アクションペアのみを利用できるMPPを解決するために,観察から学習するトラジェクトリ・アウェア・ラーニング(TAILO)を提案する。
論文 参考訳(メタデータ) (2023-11-02T15:41:09Z) - How To Guide Your Learner: Imitation Learning with Active Adaptive
Expert Involvement [20.91491585498749]
本稿では,教師と学生のインタラクションモデルに基づく,新しいアクティブな模倣学習フレームワークを提案する。
本稿では,AdapMenによるエラー境界の改善と,軽度条件下での複合的エラーの回避について述べる。
論文 参考訳(メタデータ) (2023-03-03T16:44:33Z) - Unlabeled Imperfect Demonstrations in Adversarial Imitation Learning [48.595574101874575]
現実の世界では、専門家によるデモは不完全である可能性が高い。
正のラベル付き対逆模倣学習アルゴリズムを開発した。
エージェントポリシーは、差別者を騙し、これらの最適な専門家のデモと同様の軌道を生成するように最適化される。
論文 参考訳(メタデータ) (2023-02-13T11:26:44Z) - Deconfounding Imitation Learning with Variational Inference [19.99248795957195]
標準的な模倣学習は、スペシャリストが模倣剤とは異なる感覚入力を持つ場合、失敗する可能性がある。
これは、部分的な可観測性によって、因果グラフに隠された共同創設者が生まれるためである。
本稿では,専門家の潜伏情報を推測するために変分推論モデルを訓練し,それを用いて潜伏条件ポリシーを訓練することを提案する。
論文 参考訳(メタデータ) (2022-11-04T18:00:02Z) - Data augmentation for efficient learning from parametric experts [88.33380893179697]
我々は、学生の政策の行動を伝えるために、専門家のオンラインまたはオフラインのクエリを使用する、ポリシーのクローン設定と呼ばれるものに焦点を当てる。
提案手法は,APC(Adgressed Policy Cloning)を用いて,サンプル軌道周辺領域のフィードバック感度を誘導する。
我々は,高次自由度制御問題に対して,専門家から学生政策への行動の高度にデータ効率のよい移行を実現する。
論文 参考訳(メタデータ) (2022-05-23T16:37:16Z) - IQ-Learn: Inverse soft-Q Learning for Imitation [95.06031307730245]
少数の専門家データからの模倣学習は、複雑な力学を持つ高次元環境では困難である。
行動クローニングは、実装の単純さと安定した収束性のために広く使われている単純な方法である。
本稿では,1つのQ-関数を学習することで,対向学習を回避する動的適応型ILを提案する。
論文 参考訳(メタデータ) (2021-06-23T03:43:10Z) - Learning From Multiple Experts: Self-paced Knowledge Distillation for
Long-tailed Classification [106.08067870620218]
我々は,LFME(Learning From Multiple Experts)と呼ばれる自己評価型知識蒸留フレームワークを提案する。
提案するLFMEフレームワークは,複数の'Experts'からの知識を集約して,統一された学生モデルを学ぶ。
提案手法は,最先端の手法に比べて優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-01-06T12:57:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。