Fugu-MT 論文翻訳(概要): Multi-task Hierarchical Adversarial Inverse Reinforcement Learning

論文の概要: Multi-task Hierarchical Adversarial Inverse Reinforcement Learning

arxiv url: http://arxiv.org/abs/2305.12633v2
Date: Wed, 28 Jun 2023 14:32:42 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-29 17:42:06.540674
Title: Multi-task Hierarchical Adversarial Inverse Reinforcement Learning
Title（参考訳）: マルチタスク階層型逆強化学習
Authors: Jiayu Chen, Dipesh Tamboli, Tian Lan, Vaneet Aggarwal
Abstract要約: マルチタスク・イミテーション・ラーニング (MIL) は、マルチタスクの専門家による実演に基づくタスクの配布が可能な政策を訓練することを目的としている。既存のMILアルゴリズムは、複雑な長距離タスクにおいて、データ効率の低下とパフォーマンスの低下に悩まされている。階層的に構造化されたマルチタスクポリシーを学習するために,MH-AIRL(Multi-task Hierarchical Adversarial Inverse Reinforcement Learning)を開発した。
参考スコア（独自算出の注目度）: 40.60364143826424
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-task Imitation Learning (MIL) aims to train a policy capable of performing a distribution of tasks based on multi-task expert demonstrations, which is essential for general-purpose robots. Existing MIL algorithms suffer from low data efficiency and poor performance on complex long-horizontal tasks. We develop Multi-task Hierarchical Adversarial Inverse Reinforcement Learning (MH-AIRL) to learn hierarchically-structured multi-task policies, which is more beneficial for compositional tasks with long horizons and has higher expert data efficiency through identifying and transferring reusable basic skills across tasks. To realize this, MH-AIRL effectively synthesizes context-based multi-task learning, AIRL (an IL approach), and hierarchical policy learning. Further, MH-AIRL can be adopted to demonstrations without the task or skill annotations (i.e., state-action pairs only) which are more accessible in practice. Theoretical justifications are provided for each module of MH-AIRL, and evaluations on challenging multi-task settings demonstrate superior performance and transferability of the multi-task policies learned with MH-AIRL as compared to SOTA MIL baselines.
Abstract（参考訳）: マルチタスク・イミテーション・ラーニング(MIL)は,汎用ロボットに不可欠なマルチタスク・エキスパート・デモに基づいて,タスクの配布が可能な政策を訓練することを目的としている。既存のmilアルゴリズムは、データ効率が低く、複雑な長方形処理では性能が劣る。 MH-AIRL(Multi-task Hierarchical Adversarial Inverse Reinforcement Learning)を開発し、階層的に構造化されたマルチタスクポリシーを学習する。これを実現するため、mh-airlはコンテキストベースのマルチタスク学習、airl(ilアプローチ)、階層的ポリシー学習を効果的に合成する。さらに、MH-AIRLは、実際によりアクセスしやすいタスクやスキルアノテーション(すなわち状態-アクションペアのみ)なしで、デモに採用することができる。 MH-AIRLの各モジュールに対して理論的正当性を提供し、MH-AIRLで学んだマルチタスクポリシーをSOTA MILベースラインよりも優れた性能と転送性を示す。

関連論文リスト

Bigger, Regularized, Categorical: High-Capacity Value Functions are Efficient Multi-Task Learners [60.75160178669076]
オンライン強化学習におけるタスク干渉の問題に対して,クロスエントロピーを用いて訓練し,学習可能なタスク埋め込みを条件とした高容量値モデルの使用が課題であることを示す。 280以上のユニークなタスクを持つ7つのマルチタスクベンチマークで、高い自由度ヒューマノイド制御と離散視覚ベースのRLにまたがるアプローチを検証した。
論文参考訳（メタデータ） (2025-05-29T06:41:45Z)
ThanoRA: Task Heterogeneity-Aware Multi-Task Low-Rank Adaptation [96.86211867758652]
Low-Rank Adaptation (LoRA) は、基礎モデルの下流の微調整に広く採用されている。タスク不均一性を考慮したマルチタスク低ランク適応フレームワークであるTanoRAを提案する。
論文参考訳（メタデータ） (2025-05-24T11:01:45Z)
Collaborative Multi-LoRA Experts with Achievement-based Multi-Tasks Loss for Unified Multimodal Information Extraction [28.800518091590117]
マルチモーダル情報抽出(MIE)は,マルチメディアソースからの構造化情報抽出に注目されている。従来の方法は、タスク間で知識を共有する機会を欠いているMIEタスクに別々に取り組みます。達成度に基づくMIEタスクのマルチタスク損失を考慮した,協調的なマルチLORA専門家を提案する。
論文参考訳（メタデータ） (2025-05-08T03:16:32Z)
Learning Generalizable Skills from Offline Multi-Task Data for Multi-Agent Cooperation [16.107745320103444]
HiSSD(Hierarchical and Separate Skill Discovery)は、スキル学習を通じて、一般化可能なオフラインマルチタスクMARLのための新しいアプローチである。 HiSSDは、共通性とタスク固有のスキルを共同で学習する階層的なフレームワークを活用している。タスク固有のスキルは、各タスクの先行を表現し、タスク誘導されたきめ細かいアクション実行を達成する。
論文参考訳（メタデータ） (2025-03-27T06:35:59Z)
Guiding Multi-agent Multi-task Reinforcement Learning by a Hierarchical Framework with Logical Reward Shaping [16.5526277899717]
本研究の目的は,論理報酬形成を伴う多エージェント協調アルゴリズムを設計することである。 Minecraftのような環境下で様々な種類のタスクで実験が行われてきた。
論文参考訳（メタデータ） (2024-11-02T09:03:23Z)
MTL-LoRA: Low-Rank Adaptation for Multi-Task Learning [74.43869839954168]
マルチタスク学習能力を大幅に向上させながら、低ランク適応の利点を保ちながら、MTL-LoRAを提案する。 MTL-LoRAは、タスク固有の情報を識別するタスク適応パラメータを追加することでLoRAを強化する。このアプローチにより、汎用コーパス上で事前訓練された大規模言語モデル(LLM)が、限られた数のトレーニング可能なパラメータで異なるターゲットタスクドメインに適応できる。
論文参考訳（メタデータ） (2024-10-12T08:32:26Z)
Hybrid Training for Enhanced Multi-task Generalization in Multi-agent Reinforcement Learning [7.6201940008534175]
HyGenは、オンラインとオフラインの学習を統合し、マルチタスクの一般化とトレーニング効率の両立を保証する新しいハイブリッドMARLフレームワークである。我々は、我々のフレームワークが一般的なスキルを効果的に抽出し、洗練し、目に見えないタスクに印象的な一般化をもたらすことを実証的に実証した。
論文参考訳（メタデータ） (2024-08-24T12:37:03Z)
Variational Offline Multi-agent Skill Discovery [43.869625428099425]
本稿では,サブグループレベルの抽象化と時間レベルの抽象化を同時に取得し,マルチエージェントスキルを形成するための2つの新しい自動エンコーダ方式を提案する。提案手法はオフラインのマルチタスクデータに適用可能であり,検出したサブグループスキルは再トレーニングすることなく,関連するタスク間で伝達可能である。
論文参考訳（メタデータ） (2024-05-26T00:24:46Z)
Sample Efficient Myopic Exploration Through Multitask Reinforcement Learning with Diverse Tasks [53.44714413181162]
本稿では, エージェントが十分に多様なタスクセットで訓練された場合, 筋電図探索設計による一般的なポリシー共有アルゴリズムは, サンプル効率がよいことを示す。我々の知る限りでは、これはMTRLの「探索的利益」の初めての理論的実証である。
論文参考訳（メタデータ） (2024-03-03T22:57:44Z)
LDSA: Learning Dynamic Subtask Assignment in Cooperative Multi-Agent Reinforcement Learning [122.47938710284784]
協調型MARLにおける動的サブタスク代入(LDSA)を学習するための新しいフレームワークを提案する。エージェントを異なるサブタスクに合理的に割り当てるために,能力に基づくサブタスク選択戦略を提案する。 LDSAは、より優れたコラボレーションのために、合理的で効果的なサブタスクの割り当てを学習していることを示す。
論文参考訳（メタデータ） (2022-05-05T10:46:16Z)
Modular Adaptive Policy Selection for Multi-Task Imitation Learning through Task Division [60.232542918414985]
マルチタスク学習は、しばしば負の伝達に悩まされ、タスク固有の情報を共有する。これは、プロトポリケーションをモジュールとして使用して、タスクを共有可能な単純なサブ振る舞いに分割する。また、タスクを共有サブ行動とタスク固有のサブ行動の両方に自律的に分割する能力を示す。
論文参考訳（メタデータ） (2022-03-28T15:53:17Z)
Multi-Task Learning with Sequence-Conditioned Transporter Networks [67.57293592529517]
シーケンスコンディショニングと重み付きサンプリングのレンズによるマルチタスク学習の実現を目指している。合成タスクを対象とした新しいベンチマークであるMultiRavensを提案する。次に,視覚に基づくエンドツーエンドシステムアーキテクチャであるSequence-Conditioned Transporter Networksを提案する。
論文参考訳（メタデータ） (2021-09-15T21:19:11Z)
Gradient Surgery for Multi-Task Learning [119.675492088251]
マルチタスク学習は、複数のタスク間で構造を共有するための有望なアプローチとして登場した。マルチタスク学習がシングルタスク学習と比較して難しい理由は、完全には理解されていない。本稿では,他の作業の勾配の正規平面上にタスクの勾配を投影する勾配手術の一形態を提案する。
論文参考訳（メタデータ） (2020-01-19T06:33:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。