論文の概要: Imitator Learning: Achieve Out-of-the-Box Imitation Ability in Variable
Environments
- arxiv url: http://arxiv.org/abs/2310.05712v1
- Date: Mon, 9 Oct 2023 13:35:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 04:52:24.492137
- Title: Imitator Learning: Achieve Out-of-the-Box Imitation Ability in Variable
Environments
- Title(参考訳): Imitator Learning: 可変環境における箱外模倣能力の実現
- Authors: Xiong-Hui Chen, Junyin Ye, Hang Zhao, Yi-Chen Li, Haoran Shi, Yu-Yan
Xu, Zhihao Ye, Si-Hang Yang, Anqi Huang, Kai Xu, Zongzhang Zhang, Yang Yu
- Abstract要約: 我々は、模倣学習(ItorL)と呼ばれる新しいトピックを提案する。
これは、非常に限られた専門家のデモンストレーションに基づいて模倣ポリシーを再構築できる模倣モジュールを導出することを目的としている。
自律的な模倣ポリシー構築のために、我々は模倣ポリシーのためのデモベースアテンションアーキテクチャを設計する。
- 参考スコア(独自算出の注目度): 45.213059639254475
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Imitation learning (IL) enables agents to mimic expert behaviors. Most
previous IL techniques focus on precisely imitating one policy through mass
demonstrations. However, in many applications, what humans require is the
ability to perform various tasks directly through a few demonstrations of
corresponding tasks, where the agent would meet many unexpected changes when
deployed. In this scenario, the agent is expected to not only imitate the
demonstration but also adapt to unforeseen environmental changes.
This motivates us to propose a new topic called imitator learning (ItorL),
which aims to derive an imitator module that can on-the-fly reconstruct the
imitation policies based on very limited expert demonstrations for different
unseen tasks, without any extra adjustment. In this work, we focus on imitator
learning based on only one expert demonstration. To solve ItorL, we propose
Demo-Attention Actor-Critic (DAAC), which integrates IL into a
reinforcement-learning paradigm that can regularize policies' behaviors in
unexpected situations. Besides, for autonomous imitation policy building, we
design a demonstration-based attention architecture for imitator policy that
can effectively output imitated actions by adaptively tracing the suitable
states in demonstrations. We develop a new navigation benchmark and a robot
environment for \topic~and show that DAAC~outperforms previous imitation
methods \textit{with large margins} both on seen and unseen tasks.
- Abstract(参考訳): イミテーション学習(IL)は、エージェントが専門家の行動を模倣することを可能にする。
これまでのil技術のほとんどは、大規模なデモを通じて、あるポリシーを正確に模倣することに焦点を当てている。
しかしながら、多くのアプリケーションにおいて、人間が必要とするのは、エージェントがデプロイ時に予期せぬ多くの変化に対処する、対応するタスクのいくつかのデモを通して、様々なタスクを直接実行する能力である。
このシナリオでは、エージェントはデモンストレーションを模倣するだけでなく、予期せぬ環境変化にも適応することが期待される。
これは、さまざまな目に見えないタスクに対する非常に限られた専門家のデモンストレーションに基づいて、オンザフライで模倣ポリシーを再構築できる模倣モジュールを、余分な調整なしで導出することを目的としています。
本研究は,1つの専門的実演に基づく模倣者学習に焦点をあてる。
そこで我々は,ilを強化学習パラダイムに統合し,予期しない状況下での政策行動の定式化を可能にするdemo-attention actor-critic (daac)を提案する。
また,自発的模倣政策構築のために,実演中の適切な状態を適応的に追跡することにより,模倣された動作を効果的に出力できる模倣者ポリシーのための,実演ベースの注意アーキテクチャを設計する。
我々は,新しいナビゲーションベンチマークとロボット環境を開発し,daacが既往の模倣手法である \textit{with large margins} を,目に見えるタスクと目立たないタスクの両方で上回ることを示す。
関連論文リスト
- Skill Disentanglement for Imitation Learning from Suboptimal
Demonstrations [60.241144377865716]
我々は、小さなクリーンな実演セットと大きなノイズセットの両方で、準最適実演の模倣を考える。
本稿では,様々な品質のアクションプリミティブを異なるスキルに符号化し,サブデモレーションレベルの評価と模倣を行う手法を提案する。
論文 参考訳(メタデータ) (2023-06-13T17:24:37Z) - GAN-MPC: Training Model Predictive Controllers with Parameterized Cost
Functions using Demonstrations from Non-identical Experts [14.291720751625585]
本稿では,ジェンセン-シャノン間におけるデモンストレータの状態-軌道分布のばらつきを最小限に抑えるために,GAN(Generative Adversarial Network)を提案する。
我々はDeepMind Controlスイートの様々なシミュレーションロボットタスクに対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-05-30T15:15:30Z) - Out-of-Dynamics Imitation Learning from Multimodal Demonstrations [68.46458026983409]
本研究では,実演者と模倣者が同じ状態空間を持つという仮定を緩和する,動的外模擬学習(OOD-IL)について検討する。
OOD-ILは、様々なデモ参加者のデモを利用するための模倣学習を可能にするが、新しい挑戦を導入する。
我々は,この新たな課題に取り組むために,より優れた伝達可能性測定法を開発した。
論文 参考訳(メタデータ) (2022-11-13T07:45:06Z) - Inferring Versatile Behavior from Demonstrations by Matching Geometric
Descriptors [72.62423312645953]
人間は直感的にタスクを多目的に解決し、軌道に基づく計画や個々のステップの行動を変化させる。
現在のImitation Learningアルゴリズムは、通常、単調な専門家によるデモンストレーションのみを考慮し、状態アクションベースの設定で行動する。
代わりに、移動プリミティブの混合と分布マッチングの目的を組み合わせることで、専門家の行動と汎用性にマッチする多目的行動を学ぶ。
論文 参考訳(メタデータ) (2022-10-17T16:42:59Z) - Eliciting Compatible Demonstrations for Multi-Human Imitation Learning [16.11830547863391]
人間による実演からの模倣学習は、ロボット操作の学習ポリシーに対する強力なアプローチである。
自然の人間の行動は、タスクを示すのに最適な方法がいくつかあるため、多くの異種性を持っている。
このミスマッチは、インタラクティブな模倣学習の課題であり、ユーザのシーケンスは、新しい、おそらく矛盾するデモを反復的に収集することによって、ポリシーを改善する。
我々は、ポストホックフィルタリングにより互換性のないデモを識別し、新しいユーザから互換性のないデモを積極的に引き出すために互換性対策を適用することができることを示す。
論文 参考訳(メタデータ) (2022-10-14T19:37:55Z) - Robust Learning from Observation with Model Misspecification [33.92371002674386]
イミテーションラーニング(Imitation Learning, IL)は、ロボットシステムにおけるトレーニングポリシーの一般的なパラダイムである。
我々は,微調整をせずに実環境に効果的に移行できるポリシーを学習するための堅牢なILアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-12T07:04:06Z) - Learning Feasibility to Imitate Demonstrators with Different Dynamics [23.239058855103067]
実演から学ぶことのゴールは、実演の動作を模倣してエージェント(模倣者)のポリシーを学ぶことである。
我々は、実演が模倣者によって実現可能である可能性を捉えた実現可能性指標を学習する。
シミュレーションされた4つの環境と実際のロボットを用いた実験により,本手法で学んだ方針が,従来よりも期待されたリターンを達成できることが判明した。
論文 参考訳(メタデータ) (2021-10-28T14:15:47Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - State-Only Imitation Learning for Dexterous Manipulation [63.03621861920732]
本稿では,国家のみの模倣学習について考察する。
我々は、逆ダイナミクスモデルをトレーニングし、状態のみのデモンストレーションのアクションを予測するためにそれを使用します。
我々の手法は状態-作用アプローチと同等に動作し、RL単独よりもかなり優れています。
論文 参考訳(メタデータ) (2020-04-07T17:57:20Z) - State-only Imitation with Transition Dynamics Mismatch [16.934888672659824]
イミテーションラーニング(Imitation Learning, IL)は、専門家の行動を活用することで、複雑な目標を達成するための訓練エージェントにとって一般的なパラダイムである。
本稿では,新しい状態のみのILアルゴリズムを提案する。
提案アルゴリズムは,専門家と模倣MDPの間に遷移力学ミスマッチが存在する場合,特に有効であることを示す。
論文 参考訳(メタデータ) (2020-02-27T02:27:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。