論文の概要: Robust Imitation Learning from Corrupted Demonstrations
- arxiv url: http://arxiv.org/abs/2201.12594v1
- Date: Sat, 29 Jan 2022 14:21:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-01 14:42:23.913980
- Title: Robust Imitation Learning from Corrupted Demonstrations
- Title(参考訳): 破壊デモから学ぶロバストな模倣
- Authors: Liu Liu, Ziyang Tang, Lanqing Li, Dijun Luo
- Abstract要約: 一定の数のデータがノイズあるいは任意の外れ値となるような、破損したデモからオフラインのImitation Learningを考える。
本稿では,ポリシーの正確な推定を保証するMOM(Median-of-Means)目標を最小化する,新しいロバストなアルゴリズムを提案する。
連続制御ベンチマーク実験により,提案手法が予測されたロバスト性および有効性を示すことを確認した。
- 参考スコア(独自算出の注目度): 15.872598211059403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider offline Imitation Learning from corrupted demonstrations where a
constant fraction of data can be noise or even arbitrary outliers. Classical
approaches such as Behavior Cloning assumes that demonstrations are collected
by an presumably optimal expert, hence may fail drastically when learning from
corrupted demonstrations. We propose a novel robust algorithm by minimizing a
Median-of-Means (MOM) objective which guarantees the accurate estimation of
policy, even in the presence of constant fraction of outliers. Our theoretical
analysis shows that our robust method in the corrupted setting enjoys nearly
the same error scaling and sample complexity guarantees as the classical
Behavior Cloning in the expert demonstration setting. Our experiments on
continuous-control benchmarks validate that our method exhibits the predicted
robustness and effectiveness, and achieves competitive results compared to
existing imitation learning methods.
- Abstract(参考訳): 一定の数のデータがノイズあるいは任意の外れ値となるような、破損したデモからオフラインのImitation Learningを考える。
行動クローンのような古典的なアプローチでは、デモはおそらく最適な専門家によって収集されるため、腐敗したデモから学ぶと劇的に失敗する可能性がある。
本稿では,一定数のオフレーラが存在する場合でも,ポリシーの正確な推定を保証できるMOM(Median-of-Means)目標を最小化する,新しいロバストアルゴリズムを提案する。
我々の理論解析により, 破損した環境下でのロバストな手法は, 従来の行動クローンとほとんど同じ誤差のスケーリングと, サンプルの複雑さの保証を, 専門家の実証設定で楽しむことを示した。
連続制御ベンチマーク実験により,提案手法が予測されたロバスト性および有効性を示し,既存の模倣学習手法と比較して競合的な結果が得られることを確認した。
関連論文リスト
- Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Observation-Guided Diffusion Probabilistic Models [41.749374023639156]
観測誘導拡散確率モデル(OGDM)と呼ばれる新しい拡散に基づく画像生成法を提案する。
本手法は,観測プロセスの指導をマルコフ連鎖と統合することにより,トレーニング目標を再構築する。
本研究では,強力な拡散モデルベースライン上での多様な推論手法を用いたトレーニングアルゴリズムの有効性を示す。
論文 参考訳(メタデータ) (2023-10-06T06:29:06Z) - Late Stopping: Avoiding Confidently Learning from Mislabeled Examples [61.00103151680946]
そこで本研究では,DNNの長期学習プロセスを通じて,本質的な頑健な学習能力を生かした新しいフレームワークであるLatlas Stoppingを提案する。
誤ラベルとクリーンな例は、それらが一貫して正しく分類されるために必要なエポックの数に相違があることを実証的に観察する。
ベンチマークシミュレーションと実世界のノイズデータセットによる実験結果から,提案手法は最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-26T12:43:25Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Consistency Training with Virtual Adversarial Discrete Perturbation [17.311821099484987]
本稿では,オリジナル入力と摂動入力とが類似するトレーニングモデルの予測を強制する効果的な一貫性トレーニングフレームワークを提案する。
少数のトークンを置き換えることで得られる仮想対向離散ノイズは、トレーニングモデルの決定境界を効率的にプッシュする。
論文 参考訳(メタデータ) (2021-04-15T07:49:43Z) - Robust Imitation Learning from Noisy Demonstrations [81.67837507534001]
我々は,対称的損失を伴う分類リスクを最適化することにより,ロバストな模倣学習を実現することができることを示す。
擬似ラベルと協調学習を効果的に組み合わせた新しい模倣学習法を提案する。
連続制御ベンチマークによる実験結果から,本手法は最先端手法よりも頑健であることがわかった。
論文 参考訳(メタデータ) (2020-10-20T10:41:37Z) - Learning the Truth From Only One Side of the Story [58.65439277460011]
一般化線形モデルに焦点をあて、このサンプリングバイアスを調整しなければ、モデルは準最適に収束するか、あるいは最適解に収束しないかもしれないことを示す。
理論的保証を伴って適応的なアプローチを提案し、いくつかの既存手法を実証的に上回っていることを示す。
論文 参考訳(メタデータ) (2020-06-08T18:20:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。