論文の概要: Out-of-Dynamics Imitation Learning from Multimodal Demonstrations
- arxiv url: http://arxiv.org/abs/2211.06839v1
- Date: Sun, 13 Nov 2022 07:45:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 20:02:46.223190
- Title: Out-of-Dynamics Imitation Learning from Multimodal Demonstrations
- Title(参考訳): マルチモーダル実演による非動的模倣学習
- Authors: Yiwen Qiu, Jialong Wu, Zhangjie Cao, Mingsheng Long
- Abstract要約: 本研究では,実演者と模倣者が同じ状態空間を持つという仮定を緩和する,動的外模擬学習(OOD-IL)について検討する。
OOD-ILは、様々なデモ参加者のデモを利用するための模倣学習を可能にするが、新しい挑戦を導入する。
我々は,この新たな課題に取り組むために,より優れた伝達可能性測定法を開発した。
- 参考スコア(独自算出の注目度): 68.46458026983409
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing imitation learning works mainly assume that the demonstrator who
collects demonstrations shares the same dynamics as the imitator. However, the
assumption limits the usage of imitation learning, especially when collecting
demonstrations for the imitator is difficult. In this paper, we study
out-of-dynamics imitation learning (OOD-IL), which relaxes the assumption to
that the demonstrator and the imitator have the same state spaces but could
have different action spaces and dynamics. OOD-IL enables imitation learning to
utilize demonstrations from a wide range of demonstrators but introduces a new
challenge: some demonstrations cannot be achieved by the imitator due to the
different dynamics. Prior works try to filter out such demonstrations by
feasibility measurements, but ignore the fact that the demonstrations exhibit a
multimodal distribution since the different demonstrators may take different
policies in different dynamics. We develop a better transferability measurement
to tackle this newly-emerged challenge. We firstly design a novel
sequence-based contrastive clustering algorithm to cluster demonstrations from
the same mode to avoid the mutual interference of demonstrations from different
modes, and then learn the transferability of each demonstration with an
adversarial-learning based algorithm in each cluster. Experiment results on
several MuJoCo environments, a driving environment, and a simulated robot
environment show that the proposed transferability measurement more accurately
finds and down-weights non-transferable demonstrations and outperforms prior
works on the final imitation learning performance. We show the videos of our
experiment results on our website.
- Abstract(参考訳): 既存の模倣学習は、デモを収集するデモストレーターが模倣者と同じダイナミクスを共有することを主に前提としている。
しかし、この仮定は模倣学習の使用を制限し、特に模倣者に対するデモンストレーションの収集は困難である。
本稿では,実演者と模倣者が同じ状態空間を持つが,異なる動作空間とダイナミクスを持つことができるという仮定を緩和する,力学外模倣学習(ood-il)について検討する。
OOD-ILは、模倣学習によって、幅広いデモストレーターのデモを利用することができるが、新しい挑戦が導入された。
先行研究は、実現可能性の測定によってこれらのデモンストレーションをフィルタリングしようとするが、異なるデモストレーターが異なるダイナミクスで異なるポリシーをとる可能性があるため、デモがマルチモーダル分布を示すという事実を無視する。
我々は,この新たな課題に取り組むために,より優れた伝達可能性測定法を開発した。
まず、異なるモードからのデモンストレーションの相互干渉を避けるために、同じモードからクラスタデモを行うために、新しいシーケンスベースのコントラストクラスタリングアルゴリズムを設計し、各クラスタ内の逆学習に基づくアルゴリズムを用いて、各デモの転送可能性を学ぶ。
複数のmujoco環境, 運転環境, シミュレーションロボット環境における実験により, 提案するトランスファービリティ測定が, 最終模倣学習性能の先行研究よりも精度が高く, ダウンウェイト化できることが示されている。
実験結果のビデオは私たちのウェブサイトで公開しています。
関連論文リスト
- Skill Disentanglement for Imitation Learning from Suboptimal
Demonstrations [60.241144377865716]
我々は、小さなクリーンな実演セットと大きなノイズセットの両方で、準最適実演の模倣を考える。
本稿では,様々な品質のアクションプリミティブを異なるスキルに符号化し,サブデモレーションレベルの評価と模倣を行う手法を提案する。
論文 参考訳(メタデータ) (2023-06-13T17:24:37Z) - Inverse Dynamics Pretraining Learns Good Representations for Multitask
Imitation [66.86987509942607]
このようなパラダイムを模倣学習でどのように行うべきかを評価する。
本稿では,事前学習コーパスがマルチタスクのデモンストレーションから成り立つ環境について考察する。
逆動力学モデリングはこの設定に適していると主張する。
論文 参考訳(メタデータ) (2023-05-26T14:40:46Z) - Leveraging Demonstrations with Latent Space Priors [90.56502305574665]
本稿では,スキル学習とシーケンスモデリングを組み合わせることで,実演データセットを活用することを提案する。
本研究では、国家のみのモーションキャプチャーの実証から、そのような先行情報をどうやって取得するかを示し、政策学習に組み込むためのいくつかの方法を探る。
実験結果から, 学習速度と最終性能において, 遅延空間が顕著に向上することが確認された。
論文 参考訳(メタデータ) (2022-10-26T13:08:46Z) - Robustness of Demonstration-based Learning Under Limited Data Scenario [54.912936555876826]
実証に基づく学習は、限られたデータシナリオ下で事前訓練された言語モデルの能力を刺激する大きな可能性を示している。
実演と予測の間に明確な整合性がないため、なぜこのような実演が学習プロセスに有益なのかは不明だ。
本稿では,実証に基づくシーケンスラベリングの頑健さを深く掘り下げるために,標準情報から直感的に有用な情報を徐々に取り除き,病理デモを設計する。
論文 参考訳(メタデータ) (2022-10-19T16:15:04Z) - Eliciting Compatible Demonstrations for Multi-Human Imitation Learning [16.11830547863391]
人間による実演からの模倣学習は、ロボット操作の学習ポリシーに対する強力なアプローチである。
自然の人間の行動は、タスクを示すのに最適な方法がいくつかあるため、多くの異種性を持っている。
このミスマッチは、インタラクティブな模倣学習の課題であり、ユーザのシーケンスは、新しい、おそらく矛盾するデモを反復的に収集することによって、ポリシーを改善する。
我々は、ポストホックフィルタリングにより互換性のないデモを識別し、新しいユーザから互換性のないデモを積極的に引き出すために互換性対策を適用することができることを示す。
論文 参考訳(メタデータ) (2022-10-14T19:37:55Z) - Extraneousness-Aware Imitation Learning [25.60384350984274]
Extraneousness-Aware Learning (EIL)は、外部サブシーケンスを用いた第三者によるデモンストレーションから、ビズモタポリシーを学ぶ。
EILは、自己監督された方法で行動条件付き観察埋め込みを学習し、視覚的なデモンストレーション全体にわたってタスク関連観測を検索する。
実験の結果、EILは強いベースラインを上回り、完璧なデモで訓練した人たちと同等のポリシーを達成していることがわかった。
論文 参考訳(メタデータ) (2022-10-04T04:42:26Z) - Learning Feasibility to Imitate Demonstrators with Different Dynamics [23.239058855103067]
実演から学ぶことのゴールは、実演の動作を模倣してエージェント(模倣者)のポリシーを学ぶことである。
我々は、実演が模倣者によって実現可能である可能性を捉えた実現可能性指標を学習する。
シミュレーションされた4つの環境と実際のロボットを用いた実験により,本手法で学んだ方針が,従来よりも期待されたリターンを達成できることが判明した。
論文 参考訳(メタデータ) (2021-10-28T14:15:47Z) - Learning from Imperfect Demonstrations from Agents with Varying Dynamics [29.94164262533282]
我々は,実演が模倣学習にどの程度有用かを測定するために,実現可能性スコアと最適度スコアからなる指標を開発した。
シミュレーションと実ロボットによる4つの環境実験により,学習方針の改善が期待された。
論文 参考訳(メタデータ) (2021-03-10T07:39:38Z) - Reinforcement Learning with Supervision from Noisy Demonstrations [38.00968774243178]
本研究では,環境と協調して対話し,専門家による実演を生かして政策を適応的に学習する新しい枠組みを提案する。
複数の人気強化学習アルゴリズムを用いた各種環境における実験結果から,提案手法はノイズの多い実演で頑健に学習可能であることが示された。
論文 参考訳(メタデータ) (2020-06-14T06:03:06Z) - State-Only Imitation Learning for Dexterous Manipulation [63.03621861920732]
本稿では,国家のみの模倣学習について考察する。
我々は、逆ダイナミクスモデルをトレーニングし、状態のみのデモンストレーションのアクションを予測するためにそれを使用します。
我々の手法は状態-作用アプローチと同等に動作し、RL単独よりもかなり優れています。
論文 参考訳(メタデータ) (2020-04-07T17:57:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。