論文の概要: Learning Feasibility to Imitate Demonstrators with Different Dynamics
- arxiv url: http://arxiv.org/abs/2110.15142v1
- Date: Thu, 28 Oct 2021 14:15:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-29 16:23:50.866452
- Title: Learning Feasibility to Imitate Demonstrators with Different Dynamics
- Title(参考訳): ダイナミクスの異なるイミネートデモレータの学習可能性
- Authors: Zhangjie Cao, Yilun Hao, Mengxi Li, Dorsa Sadigh
- Abstract要約: 実演から学ぶことのゴールは、実演の動作を模倣してエージェント(模倣者)のポリシーを学ぶことである。
我々は、実演が模倣者によって実現可能である可能性を捉えた実現可能性指標を学習する。
シミュレーションされた4つの環境と実際のロボットを用いた実験により,本手法で学んだ方針が,従来よりも期待されたリターンを達成できることが判明した。
- 参考スコア(独自算出の注目度): 23.239058855103067
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of learning from demonstrations is to learn a policy for an agent
(imitator) by mimicking the behavior in the demonstrations. Prior works on
learning from demonstrations assume that the demonstrations are collected by a
demonstrator that has the same dynamics as the imitator. However, in many
real-world applications, this assumption is limiting -- to improve the problem
of lack of data in robotics, we would like to be able to leverage
demonstrations collected from agents with different dynamics. This can be
challenging as the demonstrations might not even be feasible for the imitator.
Our insight is that we can learn a feasibility metric that captures the
likelihood of a demonstration being feasible by the imitator. We develop a
feasibility MDP (f-MDP) and derive the feasibility score by learning an optimal
policy in the f-MDP. Our proposed feasibility measure encourages the imitator
to learn from more informative demonstrations, and disregard the far from
feasible demonstrations. Our experiments on four simulated environments and on
a real robot show that the policy learned with our approach achieves a higher
expected return than prior works. We show the videos of the real robot arm
experiments on our website
(https://sites.google.com/view/learning-feasibility).
- Abstract(参考訳): 実演から学ぶ目標は、実演の動作を模倣してエージェント(模倣者)の政策を学ぶことである。
デモから学ぶための先行研究は、デモは模倣者と同じダイナミクスを持つデモストレーターによって集められていると仮定している。
しかし、多くの現実世界のアプリケーションでは、この仮定は制限されている -- ロボット工学におけるデータの欠如の問題を改善するために、異なるダイナミクスを持つエージェントから収集されたデモを活用したい。
デモは模倣者にとって実現不可能かもしれないので、これは難しい。
私たちの洞察は、イミテータによって実現可能なデモの可能性を捉えた実現可能性メトリクスを学習できるということです。
実現可能性MDP(f-MDP)を開発し、f-MDPの最適ポリシーを学習することで実現可能性スコアを導出する。
提案した実現可能性尺度は、模倣者がより情報的な実演から学ぶことを奨励し、実演から遠ざかる。
4つの模擬環境と実際のロボットを用いた実験により,本手法で学んだ方針は,従来よりも期待されたリターンを達成できた。
実際のロボットアーム実験のビデオはWebサイト(https://sites.google.com/view/learning-feasibility)で公開しています。
関連論文リスト
- AdaDemo: Data-Efficient Demonstration Expansion for Generalist Robotic Agent [75.91274222142079]
本研究では,汎用ロボットエージェントの学習を容易にするために,データ効率のよい方法で実演をスケールアップすることを目的とする。
AdaDemoは、デモデータセットを積極的に継続的に拡張することで、マルチタスクポリシー学習を改善するように設計されたフレームワークである。
論文 参考訳(メタデータ) (2024-04-11T01:59:29Z) - Imitator Learning: Achieve Out-of-the-Box Imitation Ability in Variable
Environments [45.213059639254475]
我々は、模倣学習(ItorL)と呼ばれる新しいトピックを提案する。
これは、非常に限られた専門家のデモンストレーションに基づいて模倣ポリシーを再構築できる模倣モジュールを導出することを目的としている。
自律的な模倣ポリシー構築のために、我々は模倣ポリシーのためのデモベースアテンションアーキテクチャを設計する。
論文 参考訳(メタデータ) (2023-10-09T13:35:28Z) - Out-of-Dynamics Imitation Learning from Multimodal Demonstrations [68.46458026983409]
本研究では,実演者と模倣者が同じ状態空間を持つという仮定を緩和する,動的外模擬学習(OOD-IL)について検討する。
OOD-ILは、様々なデモ参加者のデモを利用するための模倣学習を可能にするが、新しい挑戦を導入する。
我々は,この新たな課題に取り組むために,より優れた伝達可能性測定法を開発した。
論文 参考訳(メタデータ) (2022-11-13T07:45:06Z) - Robustness of Demonstration-based Learning Under Limited Data Scenario [54.912936555876826]
実証に基づく学習は、限られたデータシナリオ下で事前訓練された言語モデルの能力を刺激する大きな可能性を示している。
実演と予測の間に明確な整合性がないため、なぜこのような実演が学習プロセスに有益なのかは不明だ。
本稿では,実証に基づくシーケンスラベリングの頑健さを深く掘り下げるために,標準情報から直感的に有用な情報を徐々に取り除き,病理デモを設計する。
論文 参考訳(メタデータ) (2022-10-19T16:15:04Z) - Robust Imitation of a Few Demonstrations with a Backwards Model [3.8530020696501794]
専門家によるデモンストレーションの行動クローニングは、強化学習よりもよりサンプル効率のよい学習ポリシーを高速化することができる。
実験の周囲のアトラクションの領域を拡大することで、エージェントがオフコースを走行した場合に、実証軌道に戻す方法を学ぶことができるようにすることで、この問題に対処する。
最適あるいは準最適の実証では、学習されたポリシーは、偏差に対して最適かつ堅牢であり、より広いアトラクション領域を持つ。
論文 参考訳(メタデータ) (2022-10-17T18:02:19Z) - Learning from Imperfect Demonstrations from Agents with Varying Dynamics [29.94164262533282]
我々は,実演が模倣学習にどの程度有用かを測定するために,実現可能性スコアと最適度スコアからなる指標を開発した。
シミュレーションと実ロボットによる4つの環境実験により,学習方針の改善が期待された。
論文 参考訳(メタデータ) (2021-03-10T07:39:38Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z) - Reinforcement Learning with Supervision from Noisy Demonstrations [38.00968774243178]
本研究では,環境と協調して対話し,専門家による実演を生かして政策を適応的に学習する新しい枠組みを提案する。
複数の人気強化学習アルゴリズムを用いた各種環境における実験結果から,提案手法はノイズの多い実演で頑健に学習可能であることが示された。
論文 参考訳(メタデータ) (2020-06-14T06:03:06Z) - State-Only Imitation Learning for Dexterous Manipulation [63.03621861920732]
本稿では,国家のみの模倣学習について考察する。
我々は、逆ダイナミクスモデルをトレーニングし、状態のみのデモンストレーションのアクションを予測するためにそれを使用します。
我々の手法は状態-作用アプローチと同等に動作し、RL単独よりもかなり優れています。
論文 参考訳(メタデータ) (2020-04-07T17:57:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。