論文の概要: Multi-task Hierarchical Adversarial Inverse Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2305.12633v2
- Date: Wed, 28 Jun 2023 14:32:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-29 17:42:06.540674
- Title: Multi-task Hierarchical Adversarial Inverse Reinforcement Learning
- Title(参考訳): マルチタスク階層型逆強化学習
- Authors: Jiayu Chen, Dipesh Tamboli, Tian Lan, Vaneet Aggarwal
- Abstract要約: マルチタスク・イミテーション・ラーニング (MIL) は、マルチタスクの専門家による実演に基づくタスクの配布が可能な政策を訓練することを目的としている。
既存のMILアルゴリズムは、複雑な長距離タスクにおいて、データ効率の低下とパフォーマンスの低下に悩まされている。
階層的に構造化されたマルチタスクポリシーを学習するために,MH-AIRL(Multi-task Hierarchical Adversarial Inverse Reinforcement Learning)を開発した。
- 参考スコア(独自算出の注目度): 40.60364143826424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-task Imitation Learning (MIL) aims to train a policy capable of
performing a distribution of tasks based on multi-task expert demonstrations,
which is essential for general-purpose robots. Existing MIL algorithms suffer
from low data efficiency and poor performance on complex long-horizontal tasks.
We develop Multi-task Hierarchical Adversarial Inverse Reinforcement Learning
(MH-AIRL) to learn hierarchically-structured multi-task policies, which is more
beneficial for compositional tasks with long horizons and has higher expert
data efficiency through identifying and transferring reusable basic skills
across tasks. To realize this, MH-AIRL effectively synthesizes context-based
multi-task learning, AIRL (an IL approach), and hierarchical policy learning.
Further, MH-AIRL can be adopted to demonstrations without the task or skill
annotations (i.e., state-action pairs only) which are more accessible in
practice. Theoretical justifications are provided for each module of MH-AIRL,
and evaluations on challenging multi-task settings demonstrate superior
performance and transferability of the multi-task policies learned with MH-AIRL
as compared to SOTA MIL baselines.
- Abstract(参考訳): マルチタスク・イミテーション・ラーニング(MIL)は,汎用ロボットに不可欠なマルチタスク・エキスパート・デモに基づいて,タスクの配布が可能な政策を訓練することを目的としている。
既存のmilアルゴリズムは、データ効率が低く、複雑な長方形処理では性能が劣る。
MH-AIRL(Multi-task Hierarchical Adversarial Inverse Reinforcement Learning)を開発し、階層的に構造化されたマルチタスクポリシーを学習する。
これを実現するため、mh-airlはコンテキストベースのマルチタスク学習、airl(ilアプローチ)、階層的ポリシー学習を効果的に合成する。
さらに、MH-AIRLは、実際によりアクセスしやすいタスクやスキルアノテーション(すなわち状態-アクションペアのみ)なしで、デモに採用することができる。
MH-AIRLの各モジュールに対して理論的正当性を提供し、MH-AIRLで学んだマルチタスクポリシーをSOTA MILベースラインよりも優れた性能と転送性を示す。
関連論文リスト
- Sample Efficient Myopic Exploration Through Multitask Reinforcement
Learning with Diverse Tasks [53.44714413181162]
本稿では, エージェントが十分に多様なタスクセットで訓練された場合, 筋電図探索設計による一般的なポリシー共有アルゴリズムは, サンプル効率がよいことを示す。
我々の知る限りでは、これはMTRLの「探索的利益」の初めての理論的実証である。
論文 参考訳(メタデータ) (2024-03-03T22:57:44Z) - Mastering Robot Manipulation with Multimodal Prompts through Pretraining
and Multi-task Fine-tuning [51.80266015638394]
マルチタスクの専門家軌道からマルチモーダルプロンプトを用いたロボット操作のポリシーを学習するフレームワークを提案する。
本手法は,逆ダイナミクス事前学習とマルチタスク微調整を行う2段階の訓練パイプラインから構成される。
実験により,本手法のVIMA-BENCHに対する有効性を評価し,新たな最先端(成功率10%向上)を確立した。
論文 参考訳(メタデータ) (2023-10-14T22:24:58Z) - LDSA: Learning Dynamic Subtask Assignment in Cooperative Multi-Agent
Reinforcement Learning [122.47938710284784]
協調型MARLにおける動的サブタスク代入(LDSA)を学習するための新しいフレームワークを提案する。
エージェントを異なるサブタスクに合理的に割り当てるために,能力に基づくサブタスク選択戦略を提案する。
LDSAは、より優れたコラボレーションのために、合理的で効果的なサブタスクの割り当てを学習していることを示す。
論文 参考訳(メタデータ) (2022-05-05T10:46:16Z) - Modular Adaptive Policy Selection for Multi-Task Imitation Learning
through Task Division [60.232542918414985]
マルチタスク学習は、しばしば負の伝達に悩まされ、タスク固有の情報を共有する。
これは、プロトポリケーションをモジュールとして使用して、タスクを共有可能な単純なサブ振る舞いに分割する。
また、タスクを共有サブ行動とタスク固有のサブ行動の両方に自律的に分割する能力を示す。
論文 参考訳(メタデータ) (2022-03-28T15:53:17Z) - Learning from Guided Play: A Scheduled Hierarchical Approach for
Improving Exploration in Adversarial Imitation Learning [7.51557557629519]
本稿では,主課題,複数の補助課題に加えて,専門家による実演を活用するためのフレームワークであるLearning from Guided Play (LfGP)を紹介する。
主なタスクに対する学習効率は、ボトルネック遷移に挑戦して改善され、専門家データがタスク間で再利用可能になり、学習した補助タスクモデルの再利用を通じて学習を移行することが可能になります。
論文 参考訳(メタデータ) (2021-12-16T14:58:08Z) - Gradient Surgery for Multi-Task Learning [119.675492088251]
マルチタスク学習は、複数のタスク間で構造を共有するための有望なアプローチとして登場した。
マルチタスク学習がシングルタスク学習と比較して難しい理由は、完全には理解されていない。
本稿では,他の作業の勾配の正規平面上にタスクの勾配を投影する勾配手術の一形態を提案する。
論文 参考訳(メタデータ) (2020-01-19T06:33:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。