論文の概要: Unlabeled Imperfect Demonstrations in Adversarial Imitation Learning
- arxiv url: http://arxiv.org/abs/2302.06271v1
- Date: Mon, 13 Feb 2023 11:26:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-14 15:57:54.444613
- Title: Unlabeled Imperfect Demonstrations in Adversarial Imitation Learning
- Title(参考訳): 敵対的模倣学習における不完全証明
- Authors: Yunke Wang, Bo Du, Chang Xu
- Abstract要約: 現実の世界では、専門家によるデモは不完全である可能性が高い。
正のラベル付き対逆模倣学習アルゴリズムを開発した。
エージェントポリシーは、差別者を騙し、これらの最適な専門家のデモと同様の軌道を生成するように最適化される。
- 参考スコア(独自算出の注目度): 48.595574101874575
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adversarial imitation learning has become a widely used imitation learning
framework. The discriminator is often trained by taking expert demonstrations
and policy trajectories as examples respectively from two categories (positive
vs. negative) and the policy is then expected to produce trajectories that are
indistinguishable from the expert demonstrations. But in the real world, the
collected expert demonstrations are more likely to be imperfect, where only an
unknown fraction of the demonstrations are optimal. Instead of treating
imperfect expert demonstrations as absolutely positive or negative, we
investigate unlabeled imperfect expert demonstrations as they are. A
positive-unlabeled adversarial imitation learning algorithm is developed to
dynamically sample expert demonstrations that can well match the trajectories
from the constantly optimized agent policy. The trajectories of an initial
agent policy could be closer to those non-optimal expert demonstrations, but
within the framework of adversarial imitation learning, agent policy will be
optimized to cheat the discriminator and produce trajectories that are similar
to those optimal expert demonstrations. Theoretical analysis shows that our
method learns from the imperfect demonstrations via a self-paced way.
Experimental results on MuJoCo and RoboSuite platforms demonstrate the
effectiveness of our method from different aspects.
- Abstract(参考訳): 逆模倣学習は模倣学習フレームワークとして広く使われている。
判別器は、それぞれ2つのカテゴリ(正対負)から専門家の実証と政策の軌跡を例にして訓練され、その後、専門家の実証と区別できない軌跡を生み出すことが期待される。
しかし現実の世界では、収集された専門家によるデモは不完全になりがちだ。
不完全専門家のデモンストレーションを絶対的あるいは否定的に扱う代わりに、未完全専門家のデモをそのまま調査する。
常に最適化されたエージェントポリシーの軌跡とよく一致するような専門家によるデモンストレーションを動的にサンプリングするために,正のラベル付き対向模倣学習アルゴリズムを開発した。
初期エージェントポリシーの軌道は、これらの非最適専門家のデモンストレーションに近いかもしれないが、敵の模倣学習の枠組みでは、エージェントポリシーは、識別器を騙し、これらの最適な専門家のデモンストレーションと類似した軌道を生成するように最適化される。
理論解析により,本手法は不完全な実演から自己ペースで学習できることが示されている。
MuJoCo および RoboSuite プラットフォームにおける実験結果から,本手法の有効性が示された。
関連論文リスト
- Beyond Joint Demonstrations: Personalized Expert Guidance for Efficient Multi-Agent Reinforcement Learning [54.40927310957792]
異種チーム内の各エージェントを個別にカスタマイズした、個人化された専門家によるデモンストレーションという新しい概念を導入する。
これらのデモンストレーションは、単独エージェントの行動と、各エージェントが協調的な要素を含まない個人的目標を達成する方法にのみ関係している。
本稿では、個人化された専門家によるデモンストレーションをガイダンスとして選択的に活用し、エージェントが協力することを学ぶためのアプローチを提案する。
論文 参考訳(メタデータ) (2024-03-13T20:11:20Z) - Skill Disentanglement for Imitation Learning from Suboptimal
Demonstrations [60.241144377865716]
我々は、小さなクリーンな実演セットと大きなノイズセットの両方で、準最適実演の模倣を考える。
本稿では,様々な品質のアクションプリミティブを異なるスキルに符号化し,サブデモレーションレベルの評価と模倣を行う手法を提案する。
論文 参考訳(メタデータ) (2023-06-13T17:24:37Z) - Divide and Repair: Using Options to Improve Performance of Imitation
Learning Against Adversarial Demonstrations [0.6853165736531939]
本研究では,教師や専門家による実演から課題を遂行する上での学習の課題について考察する。
専門家のデモのいくつかは敵意があり、そのタスクを実行する誤った方法を示しているかもしれない。
提案手法は, 敵に十分に修正されていない軌道の部品を識別する手法である。
論文 参考訳(メタデータ) (2023-06-07T16:33:52Z) - Robust Imitation of a Few Demonstrations with a Backwards Model [3.8530020696501794]
専門家によるデモンストレーションの行動クローニングは、強化学習よりもよりサンプル効率のよい学習ポリシーを高速化することができる。
実験の周囲のアトラクションの領域を拡大することで、エージェントがオフコースを走行した場合に、実証軌道に戻す方法を学ぶことができるようにすることで、この問題に対処する。
最適あるいは準最適の実証では、学習されたポリシーは、偏差に対して最適かつ堅牢であり、より広いアトラクション領域を持つ。
論文 参考訳(メタデータ) (2022-10-17T18:02:19Z) - Causal Imitation Learning with Unobserved Confounders [82.22545916247269]
本研究では,学習者と専門家の感覚入力が異なる場合の模倣学習について検討する。
我々は、専門家の軌跡の量的知識を活用することで、模倣が依然として実現可能であることを示した。
論文 参考訳(メタデータ) (2022-08-12T13:29:53Z) - Learning from Imperfect Demonstrations via Adversarial Confidence
Transfer [44.14553613304978]
信頼度予測器を学習することで,不完全な実演から学習する問題を研究する。
多長さ部分軌跡の逆分布マッチングにより、共通潜時空間を学習する。
3つのシミュレーション環境と実際のロボット到達タスクによる実験は、我々のアプローチが最も期待されたリターンでポリシーを学ぶことを示す。
論文 参考訳(メタデータ) (2022-02-07T06:33:35Z) - Imitation Learning by Estimating Expertise of Demonstrators [92.20185160311036]
実証的知識よりも教師なし学習が模倣学習アルゴリズムの性能を一貫した向上に繋がることを示す。
デモ参加者の学習した方針や専門知識に基づいて,共同モデルを開発・最適化する。
本研究は,ミニグリッドやチェスなど,ロブミミックや離散環境からの実ロボット的連続制御タスクについて述べる。
論文 参考訳(メタデータ) (2022-02-02T21:23:19Z) - Learning from Imperfect Demonstrations from Agents with Varying Dynamics [29.94164262533282]
我々は,実演が模倣学習にどの程度有用かを測定するために,実現可能性スコアと最適度スコアからなる指標を開発した。
シミュレーションと実ロボットによる4つの環境実験により,学習方針の改善が期待された。
論文 参考訳(メタデータ) (2021-03-10T07:39:38Z) - Combating False Negatives in Adversarial Imitation Learning [67.99941805086154]
敵対的模倣学習では、エージェントエピソードと、所望の行動を表す専門家のデモンストレーションとを区別するために、判別器を訓練する。
訓練された方針がより成功することを学ぶと、負の例は専門家の例とますます似ている。
本研究では,偽陰性の影響を緩和し,BabyAI環境上で検証する手法を提案する。
論文 参考訳(メタデータ) (2020-02-02T14:56:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。