論文の概要: Confidence-Aware Imitation Learning from Demonstrations with Varying
Optimality
- arxiv url: http://arxiv.org/abs/2110.14754v1
- Date: Wed, 27 Oct 2021 20:29:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-29 14:52:37.798105
- Title: Confidence-Aware Imitation Learning from Demonstrations with Varying
Optimality
- Title(参考訳): 最適性の異なる実演による自信認識模倣学習
- Authors: Songyuan Zhang, Zhangjie Cao, Dorsa Sadigh, Yanan Sui
- Abstract要約: 信頼を意識した模倣学習(CAIL)は、信頼を重んじたデモンストレーションから優れた政策を学ぶ。
本稿では,CAILの収束に関する理論的保証と,シミュレーションおよび実ロボット実験における性能評価を行う。
- 参考スコア(独自算出の注目度): 30.51436098631477
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most existing imitation learning approaches assume the demonstrations are
drawn from experts who are optimal, but relaxing this assumption enables us to
use a wider range of data. Standard imitation learning may learn a suboptimal
policy from demonstrations with varying optimality. Prior works use confidence
scores or rankings to capture beneficial information from demonstrations with
varying optimality, but they suffer from many limitations, e.g., manually
annotated confidence scores or high average optimality of demonstrations. In
this paper, we propose a general framework to learn from demonstrations with
varying optimality that jointly learns the confidence score and a
well-performing policy. Our approach, Confidence-Aware Imitation Learning
(CAIL) learns a well-performing policy from confidence-reweighted
demonstrations, while using an outer loss to track the performance of our model
and to learn the confidence. We provide theoretical guarantees on the
convergence of CAIL and evaluate its performance in both simulated and real
robot experiments. Our results show that CAIL significantly outperforms other
imitation learning methods from demonstrations with varying optimality. We
further show that even without access to any optimal demonstrations, CAIL can
still learn a successful policy, and outperforms prior work.
- Abstract(参考訳): 既存の模倣学習のアプローチのほとんどは、デモが最適な専門家から引き出されたものであると仮定しているが、この仮定を緩和することで、より広い範囲のデータの使用が可能になる。
標準模倣学習は、様々な最適性を持つデモンストレーションから準最適方針を学ぶことができる。
以前の作品では、信頼スコアやランキングを使用して、様々な最適性を持つデモンストレーションから有益な情報を収集するが、手動のアノテートされた信頼スコアやデモの平均最適度といった多くの制限に悩まされている。
本稿では,信頼度と良好な政策を共同で学習する,様々な最適性を持つ実演から学ぶための一般的な枠組みを提案する。
提案手法では,信頼度認識模倣学習 (CAIL) は,信頼度重み付けによる実証から,モデルの性能の追跡と信頼性の学習に外的損失を用いながら,良好な評価政策を学習する。
本稿では,CAILの収束に関する理論的保証と,シミュレーションおよび実ロボット実験における性能評価を行う。
以上の結果から,CAILは様々な最適性を持つ実演から他の模倣学習方法よりも優れていた。
さらに、最適なデモンストレーションにアクセスしなくても、CAILは成功したポリシーを学習でき、事前の作業よりも優れています。
関連論文リスト
- Unlearning with Control: Assessing Real-world Utility for Large Language Model Unlearning [97.2995389188179]
最近の研究は、勾配上昇(GA)を通した大規模言語モデル(LLM)の未学習にアプローチし始めている。
その単純さと効率性にもかかわらず、我々はGAベースの手法が過剰な未学習の傾向に直面することを示唆している。
過剰な未学習の度合いを制御できるいくつかの制御手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - "Give Me an Example Like This": Episodic Active Reinforcement Learning from Demonstrations [3.637365301757111]
専門家デモ(RLED)からの強化学習(Reinforcement Learning from Expert Demonstrations)のような手法は、学習プロセス中のエージェント探索を促進するために外部の専門家によるデモンストレーションを導入します。
学習にとって最も有益な人間のデモのベストセットをどうやって選ぶかが、大きな関心事になります。
本稿では,学習エージェントが軌跡に基づく特徴空間において,専門家による実演を最適化したクエリを生成できるアルゴリズムEARLYを提案する。
論文 参考訳(メタデータ) (2024-06-05T08:52:21Z) - Unlabeled Imperfect Demonstrations in Adversarial Imitation Learning [48.595574101874575]
現実の世界では、専門家によるデモは不完全である可能性が高い。
正のラベル付き対逆模倣学習アルゴリズムを開発した。
エージェントポリシーは、差別者を騙し、これらの最適な専門家のデモと同様の軌道を生成するように最適化される。
論文 参考訳(メタデータ) (2023-02-13T11:26:44Z) - Imitating Past Successes can be Very Suboptimal [145.70788608016755]
既存の結果条件付き模倣学習手法が必ずしもポリシーを改善できないことを示す。
簡単な修正が、政策改善を保証する方法をもたらすことを示す。
我々の目的は、全く新しい方法を開発するのではなく、成果条件付き模倣学習の変種が報酬を最大化するためにどのように使用できるかを説明することである。
論文 参考訳(メタデータ) (2022-06-07T15:13:43Z) - Imitation Learning by State-Only Distribution Matching [2.580765958706854]
観察からの模倣学習は、人間の学習と同様の方法で政策学習を記述する。
本稿では,解釈可能な収束度と性能測定値とともに,非逆学習型観測手法を提案する。
論文 参考訳(メタデータ) (2022-02-09T08:38:50Z) - Learning from Imperfect Demonstrations via Adversarial Confidence
Transfer [44.14553613304978]
信頼度予測器を学習することで,不完全な実演から学習する問題を研究する。
多長さ部分軌跡の逆分布マッチングにより、共通潜時空間を学習する。
3つのシミュレーション環境と実際のロボット到達タスクによる実験は、我々のアプローチが最も期待されたリターンでポリシーを学ぶことを示す。
論文 参考訳(メタデータ) (2022-02-07T06:33:35Z) - Imitation Learning by Estimating Expertise of Demonstrators [92.20185160311036]
実証的知識よりも教師なし学習が模倣学習アルゴリズムの性能を一貫した向上に繋がることを示す。
デモ参加者の学習した方針や専門知識に基づいて,共同モデルを開発・最適化する。
本研究は,ミニグリッドやチェスなど,ロブミミックや離散環境からの実ロボット的連続制御タスクについて述べる。
論文 参考訳(メタデータ) (2022-02-02T21:23:19Z) - Learning the Truth From Only One Side of the Story [58.65439277460011]
一般化線形モデルに焦点をあて、このサンプリングバイアスを調整しなければ、モデルは準最適に収束するか、あるいは最適解に収束しないかもしれないことを示す。
理論的保証を伴って適応的なアプローチを提案し、いくつかの既存手法を実証的に上回っていることを示す。
論文 参考訳(メタデータ) (2020-06-08T18:20:28Z) - Learning Sparse Rewarded Tasks from Sub-Optimal Demonstrations [78.94386823185724]
模倣学習は、既存の専門家のデモンストレーションを活用することで、スパース・リワードされたタスクで効果的に学習する。
実際には、十分な量の専門家によるデモンストレーションを集めることは、違法にコストがかかる。
限られた数の準最適実演に限り、最適性能を(ほぼ)達成できる自己適応学習(SAIL)を提案する。
論文 参考訳(メタデータ) (2020-04-01T15:57:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。