論文の概要: Learning from Imperfect Demonstrations via Adversarial Confidence
Transfer
- arxiv url: http://arxiv.org/abs/2202.02967v1
- Date: Mon, 7 Feb 2022 06:33:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-09 03:32:27.450027
- Title: Learning from Imperfect Demonstrations via Adversarial Confidence
Transfer
- Title(参考訳): 敵対的信頼伝達による不完全な実演から学ぶ
- Authors: Zhangjie Cao, Zihan Wang, Dorsa Sadigh
- Abstract要約: 信頼度予測器を学習することで,不完全な実演から学習する問題を研究する。
多長さ部分軌跡の逆分布マッチングにより、共通潜時空間を学習する。
3つのシミュレーション環境と実際のロボット到達タスクによる実験は、我々のアプローチが最も期待されたリターンでポリシーを学ぶことを示す。
- 参考スコア(独自算出の注目度): 44.14553613304978
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing learning from demonstration algorithms usually assume access to
expert demonstrations. However, this assumption is limiting in many real-world
applications since the collected demonstrations may be suboptimal or even
consist of failure cases. We therefore study the problem of learning from
imperfect demonstrations by learning a confidence predictor. Specifically, we
rely on demonstrations along with their confidence values from a different
correspondent environment (source environment) to learn a confidence predictor
for the environment we aim to learn a policy in (target environment -- where we
only have unlabeled demonstrations.) We learn a common latent space through
adversarial distribution matching of multi-length partial trajectories to
enable the transfer of confidence across source and target environments. The
learned confidence reweights the demonstrations to enable learning more from
informative demonstrations and discarding the irrelevant ones. Our experiments
in three simulated environments and a real robot reaching task demonstrate that
our approach learns a policy with the highest expected return.
- Abstract(参考訳): 既存のデモンストレーションアルゴリズムからの学習は通常、専門家によるデモへのアクセスを前提としている。
しかし、この仮定は多くの実世界のアプリケーションで制限されている。
そこで,信頼度予測子を学習することにより,不完全な実演から学習の問題を研究する。
具体的には、異なる対応環境(ソース環境)からの信頼度値とともに、ポリシー(ラベルなしの実証しか持たないターゲット環境)の信頼度予測器を学ぶために、異なる対応環境(ソース環境)からの信頼度値とともに、デモに頼り、複数の長さ部分軌跡の対角分布マッチングを通じて共通の潜伏空間を学び、ソースおよびターゲット環境間の信頼度の伝達を可能にする。
学習された自信はデモを再重み付けし、情報的なデモンストレーションから学び、無関係なものを捨てることを可能にする。
3つのシミュレーション環境と実際のロボット到達タスクによる実験は、我々のアプローチが最も期待されたリターンでポリシーを学ぶことを示す。
関連論文リスト
- Unlabeled Imperfect Demonstrations in Adversarial Imitation Learning [48.595574101874575]
現実の世界では、専門家によるデモは不完全である可能性が高い。
正のラベル付き対逆模倣学習アルゴリズムを開発した。
エージェントポリシーは、差別者を騙し、これらの最適な専門家のデモと同様の軌道を生成するように最適化される。
論文 参考訳(メタデータ) (2023-02-13T11:26:44Z) - Out-of-Dynamics Imitation Learning from Multimodal Demonstrations [68.46458026983409]
本研究では,実演者と模倣者が同じ状態空間を持つという仮定を緩和する,動的外模擬学習(OOD-IL)について検討する。
OOD-ILは、様々なデモ参加者のデモを利用するための模倣学習を可能にするが、新しい挑戦を導入する。
我々は,この新たな課題に取り組むために,より優れた伝達可能性測定法を開発した。
論文 参考訳(メタデータ) (2022-11-13T07:45:06Z) - Robustness of Demonstration-based Learning Under Limited Data Scenario [54.912936555876826]
実証に基づく学習は、限られたデータシナリオ下で事前訓練された言語モデルの能力を刺激する大きな可能性を示している。
実演と予測の間に明確な整合性がないため、なぜこのような実演が学習プロセスに有益なのかは不明だ。
本稿では,実証に基づくシーケンスラベリングの頑健さを深く掘り下げるために,標準情報から直感的に有用な情報を徐々に取り除き,病理デモを設計する。
論文 参考訳(メタデータ) (2022-10-19T16:15:04Z) - Imitation Learning by Estimating Expertise of Demonstrators [92.20185160311036]
実証的知識よりも教師なし学習が模倣学習アルゴリズムの性能を一貫した向上に繋がることを示す。
デモ参加者の学習した方針や専門知識に基づいて,共同モデルを開発・最適化する。
本研究は,ミニグリッドやチェスなど,ロブミミックや離散環境からの実ロボット的連続制御タスクについて述べる。
論文 参考訳(メタデータ) (2022-02-02T21:23:19Z) - Learning Feasibility to Imitate Demonstrators with Different Dynamics [23.239058855103067]
実演から学ぶことのゴールは、実演の動作を模倣してエージェント(模倣者)のポリシーを学ぶことである。
我々は、実演が模倣者によって実現可能である可能性を捉えた実現可能性指標を学習する。
シミュレーションされた4つの環境と実際のロボットを用いた実験により,本手法で学んだ方針が,従来よりも期待されたリターンを達成できることが判明した。
論文 参考訳(メタデータ) (2021-10-28T14:15:47Z) - Confidence-Aware Imitation Learning from Demonstrations with Varying
Optimality [30.51436098631477]
信頼を意識した模倣学習(CAIL)は、信頼を重んじたデモンストレーションから優れた政策を学ぶ。
本稿では,CAILの収束に関する理論的保証と,シミュレーションおよび実ロボット実験における性能評価を行う。
論文 参考訳(メタデータ) (2021-10-27T20:29:38Z) - Visual Adversarial Imitation Learning using Variational Models [60.69745540036375]
逆関数仕様は、深い強化学習を通しての学習行動にとって大きな障害であり続けている。
望ましい行動の視覚的なデモンストレーションは、エージェントを教えるためのより簡単で自然な方法を示すことが多い。
変動モデルに基づく対向的模倣学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-07-16T00:15:18Z) - Learning from Imperfect Demonstrations from Agents with Varying Dynamics [29.94164262533282]
我々は,実演が模倣学習にどの程度有用かを測定するために,実現可能性スコアと最適度スコアからなる指標を開発した。
シミュレーションと実ロボットによる4つの環境実験により,学習方針の改善が期待された。
論文 参考訳(メタデータ) (2021-03-10T07:39:38Z) - Reinforcement Learning with Supervision from Noisy Demonstrations [38.00968774243178]
本研究では,環境と協調して対話し,専門家による実演を生かして政策を適応的に学習する新しい枠組みを提案する。
複数の人気強化学習アルゴリズムを用いた各種環境における実験結果から,提案手法はノイズの多い実演で頑健に学習可能であることが示された。
論文 参考訳(メタデータ) (2020-06-14T06:03:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。