論文の概要: Robust Imitation Learning from Noisy Demonstrations
- arxiv url: http://arxiv.org/abs/2010.10181v3
- Date: Fri, 19 Feb 2021 13:38:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 05:45:13.794229
- Title: Robust Imitation Learning from Noisy Demonstrations
- Title(参考訳): 雑音実演によるロバスト模倣学習
- Authors: Voot Tangkaratt, Nontawat Charoenphakdee, and Masashi Sugiyama
- Abstract要約: 我々は,対称的損失を伴う分類リスクを最適化することにより,ロバストな模倣学習を実現することができることを示す。
擬似ラベルと協調学習を効果的に組み合わせた新しい模倣学習法を提案する。
連続制御ベンチマークによる実験結果から,本手法は最先端手法よりも頑健であることがわかった。
- 参考スコア(独自算出の注目度): 81.67837507534001
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robust learning from noisy demonstrations is a practical but highly
challenging problem in imitation learning. In this paper, we first
theoretically show that robust imitation learning can be achieved by optimizing
a classification risk with a symmetric loss. Based on this theoretical finding,
we then propose a new imitation learning method that optimizes the
classification risk by effectively combining pseudo-labeling with co-training.
Unlike existing methods, our method does not require additional labels or
strict assumptions about noise distributions. Experimental results on
continuous-control benchmarks show that our method is more robust compared to
state-of-the-art methods.
- Abstract(参考訳): ノイズの多いデモンストレーションからのロバスト学習は、模倣学習の実践的だが非常に難しい問題である。
本稿では,まず,対称損失を伴う分類リスクを最適化することで,頑健な模倣学習を実現することを理論的に示す。
この理論的な発見に基づき,擬似ラベルとコトレーニングを効果的に組み合わせ,分類リスクを最適化する新しい模倣学習法を提案する。
既存の手法とは異なり,本手法では雑音分布に関する追加ラベルや厳密な仮定を必要としない。
連続制御ベンチマーク実験の結果,本手法は最先端手法よりも頑健であることが判明した。
関連論文リスト
- Observation-Guided Diffusion Probabilistic Models [41.749374023639156]
観測誘導拡散確率モデル(OGDM)と呼ばれる新しい拡散に基づく画像生成法を提案する。
本手法は,観測プロセスの指導をマルコフ連鎖と統合することにより,トレーニング目標を再構築する。
本研究では,強力な拡散モデルベースライン上での多様な推論手法を用いたトレーニングアルゴリズムの有効性を示す。
論文 参考訳(メタデータ) (2023-10-06T06:29:06Z) - Learning with Noisy Labels through Learnable Weighting and Centroid Similarity [5.187216033152917]
ノイズラベルは、医学診断や自律運転などの領域で一般的である。
本稿では,雑音ラベルの存在下で機械学習モデルを訓練するための新しい手法を提案する。
以上の結果から,本手法は既存の最先端技術よりも一貫して優れていることがわかった。
論文 参考訳(メタデータ) (2023-03-16T16:43:24Z) - Label Noise-Robust Learning using a Confidence-Based Sieving Strategy [15.997774467236352]
ラベルノイズを伴うタスクの学習では、オーバーフィッティングに対するモデルの堅牢性を改善することが重要な課題である。
サンプルをノイズのあるラベルで識別し、モデルを学習するのを防ぐことは、この課題に対処するための有望なアプローチである。
本研究では, 信頼度誤差と呼ばれる新しい判別基準と, クリーンサンプルとノイズサンプルを効果的に識別するためのCONFESと呼ばれるシービング戦略を提案する。
論文 参考訳(メタデータ) (2022-10-11T10:47:28Z) - MaxMatch: Semi-Supervised Learning with Worst-Case Consistency [149.03760479533855]
半教師付き学習(SSL)のための最悪ケース整合正則化手法を提案する。
本稿では,ラベル付きトレーニングデータとラベル付きトレーニングデータとを別々に比較した経験的損失項からなるSSLの一般化について述べる。
この境界によって動機づけられたSSLの目的は、元のラベルのないサンプルと、その複数の拡張版との最大の矛盾を最小限に抑えるものである。
論文 参考訳(メタデータ) (2022-09-26T12:04:49Z) - Deep Active Learning with Noise Stability [24.54974925491753]
ラベルのないデータの不確実性推定は、アクティブな学習に不可欠である。
本稿では,雑音の安定性を利用して不確実性を推定する新しいアルゴリズムを提案する。
本手法はコンピュータビジョン,自然言語処理,構造データ解析など,様々なタスクに適用可能である。
論文 参考訳(メタデータ) (2022-05-26T13:21:01Z) - Robust Imitation Learning from Corrupted Demonstrations [15.872598211059403]
一定の数のデータがノイズあるいは任意の外れ値となるような、破損したデモからオフラインのImitation Learningを考える。
本稿では,ポリシーの正確な推定を保証するMOM(Median-of-Means)目標を最小化する,新しいロバストなアルゴリズムを提案する。
連続制御ベンチマーク実験により,提案手法が予測されたロバスト性および有効性を示すことを確認した。
論文 参考訳(メタデータ) (2022-01-29T14:21:28Z) - Adaptive Hierarchical Similarity Metric Learning with Noisy Labels [138.41576366096137]
適応的階層的類似度メトリック学習法を提案する。
ノイズに敏感な2つの情報、すなわち、クラスワイドのばらつきとサンプルワイドの一貫性を考える。
提案手法は,現在の深層学習手法と比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-10-29T02:12:18Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Learning Noise Transition Matrix from Only Noisy Labels via Total
Variation Regularization [88.91872713134342]
本稿では,雑音遷移行列を推定し,同時に分類器を学習する理論的基礎付け手法を提案する。
提案手法の有効性を,ベンチマークおよび実世界のデータセットを用いた実験により示す。
論文 参考訳(メタデータ) (2021-02-04T05:09:18Z) - Learning the Truth From Only One Side of the Story [58.65439277460011]
一般化線形モデルに焦点をあて、このサンプリングバイアスを調整しなければ、モデルは準最適に収束するか、あるいは最適解に収束しないかもしれないことを示す。
理論的保証を伴って適応的なアプローチを提案し、いくつかの既存手法を実証的に上回っていることを示す。
論文 参考訳(メタデータ) (2020-06-08T18:20:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。