論文の概要: Hierarchical Imitation Learning of Team Behavior from Heterogeneous Demonstrations
- arxiv url: http://arxiv.org/abs/2502.17618v1
- Date: Mon, 24 Feb 2025 20:05:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:19:03.291664
- Title: Hierarchical Imitation Learning of Team Behavior from Heterogeneous Demonstrations
- Title(参考訳): 不均一な説明からチーム行動の階層的模倣学習
- Authors: Sangwon Seo, Vaibhav Unhelkar,
- Abstract要約: 複雑なシーケンシャルなタスクにおいて,マルチモーダルなチームの振る舞いを学習するために設計された階層的MAILアルゴリズムであるDTILを紹介する。
分散マッチングアプローチを用いることで、DTILimitationsはエラーとスケールを複雑化し、長い水平線と連続状態表現を効果的に緩和する。
- 参考スコア(独自算出の注目度): 2.07180164747172
- License:
- Abstract: Successful collaboration requires team members to stay aligned, especially in complex sequential tasks. Team members must dynamically coordinate which subtasks to perform and in what order. However, real-world constraints like partial observability and limited communication bandwidth often lead to suboptimal collaboration. Even among expert teams, the same task can be executed in multiple ways. To develop multi-agent systems and human-AI teams for such tasks, we are interested in data-driven learning of multimodal team behaviors. Multi-Agent Imitation Learning (MAIL) provides a promising framework for data-driven learning of team behavior from demonstrations, but existing methods struggle with heterogeneous demonstrations, as they assume that all demonstrations originate from a single team policy. Hence, in this work, we introduce DTIL: a hierarchical MAIL algorithm designed to learn multimodal team behaviors in complex sequential tasks. DTIL represents each team member with a hierarchical policy and learns these policies from heterogeneous team demonstrations in a factored manner. By employing a distribution-matching approach, DTIL mitigates compounding errors and scales effectively to long horizons and continuous state representations. Experimental results show that DTIL outperforms MAIL baselines and accurately models team behavior across a variety of collaborative scenarios.
- Abstract(参考訳): コラボレーションの成功には、特に複雑なシーケンシャルなタスクにおいて、チームメンバの整合性を維持する必要があります。
チームメンバーは、どのサブタスクを実行し、どの順序で実行するかを動的に調整する必要があります。
しかし、部分的な可観測性や限られた通信帯域幅といった現実世界の制約は、しばしば最適以下の協調につながる。
専門家チームでさえ、同じタスクを複数の方法で実行できる。
このようなタスクのためのマルチエージェントシステムとヒューマンAIチームを開発するために、私たちはマルチモーダルチームの振る舞いに関するデータ駆動学習に興味を持っています。
マルチエージェント・イミテーション・ラーニング(MAIL)は、デモンストレーションからチームの振る舞いをデータ駆動で学習するための、有望なフレームワークを提供する。
そこで本研究では、複雑なシーケンシャルなタスクにおいて、マルチモーダルなチームの振る舞いを学習するために設計された階層MAILアルゴリズムであるDTILを紹介する。
DTILは、各チームメンバーを階層的なポリシーで表現し、異質なチームのデモから要因付きでこれらのポリシーを学びます。
分散マッチングアプローチを用いることで、DTILは複雑なエラーを軽減し、長い水平線や連続状態表現に効果的にスケールする。
実験の結果、DTILはMAILのベースラインより優れており、様々な協調シナリオでチームの振る舞いを正確にモデル化していることがわかった。
関連論文リスト
- MmAP : Multi-modal Alignment Prompt for Cross-domain Multi-task Learning [29.88567810099265]
マルチタスク学習は複数の相関タスクを同時に訓練するように設計されている。
この課題に対処するために、デコーダフリーの視覚言語モデルCLIPを統合する。
CLIPのためのマルチモーダルアライメント・プロンプト(MmAP)を提案する。
論文 参考訳(メタデータ) (2023-12-14T03:33:02Z) - AgentVerse: Facilitating Multi-Agent Collaboration and Exploring
Emergent Behaviors [93.38830440346783]
本稿では,その構成をより高機能なシステムとして協調的に調整できるマルチエージェントフレームワークを提案する。
実験により,フレームワークが単一エージェントより優れたマルチエージェントグループを効果的に展開できることが実証された。
これらの振舞いの観点から、我々は、ポジティブなものを活用し、ネガティブなものを緩和し、マルチエージェントグループの協調可能性を改善するためのいくつかの戦略について議論する。
論文 参考訳(メタデータ) (2023-08-21T16:47:11Z) - Musketeer: Joint Training for Multi-task Vision Language Model with Task Explanation Prompts [75.75548749888029]
本稿では,全てのタスクに対してパラメータを共同で訓練し,複数の異種タスク間で完全に共有する視覚言語モデルを提案する。
単一のモデルで、Musteteerは単一のタスクでトレーニングされた強いベースラインに匹敵する結果を得る。
論文 参考訳(メタデータ) (2023-05-11T17:57:49Z) - Unified Demonstration Retriever for In-Context Learning [56.06473069923567]
Unified Demonstration Retriever (textbfUDR)は、幅広いタスクのデモを検索する単一のモデルである。
我々は,高品質な候補を見つけるための反復的なマイニング戦略を備えたマルチタスクリストワイド・トレーニング・フレームワークを提案する。
13のタスクファミリーと複数のデータドメインにわたる30以上のタスクの実験は、UDRがベースラインを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2023-05-07T16:07:11Z) - CLAS: Coordinating Multi-Robot Manipulation with Central Latent Action
Spaces [9.578169216444813]
本稿では,異なるエージェント間で共有される学習された潜在行動空間を通じて,マルチロボット操作を協調する手法を提案する。
シミュレーションされたマルチロボット操作タスクにおいて本手法を検証し,サンプル効率と学習性能の観点から,従来のベースラインよりも改善したことを示す。
論文 参考訳(メタデータ) (2022-11-28T23:20:47Z) - Inferring Versatile Behavior from Demonstrations by Matching Geometric
Descriptors [72.62423312645953]
人間は直感的にタスクを多目的に解決し、軌道に基づく計画や個々のステップの行動を変化させる。
現在のImitation Learningアルゴリズムは、通常、単調な専門家によるデモンストレーションのみを考慮し、状態アクションベースの設定で行動する。
代わりに、移動プリミティブの混合と分布マッチングの目的を組み合わせることで、専門家の行動と汎用性にマッチする多目的行動を学ぶ。
論文 参考訳(メタデータ) (2022-10-17T16:42:59Z) - Semi-Supervised Imitation Learning of Team Policies from Suboptimal
Demonstrations [3.5179584114197286]
マルコフ領域における逐次的なタスクを実行するチームの振る舞いをモデル化するための模倣学習アルゴリズムを提案する。
既存のマルチエージェントの模倣学習技術とは対照的に、BTILはチームメンバーの時間的な精神状態を明確にモデル化し、推論する。
論文 参考訳(メタデータ) (2022-05-05T23:18:32Z) - LDSA: Learning Dynamic Subtask Assignment in Cooperative Multi-Agent
Reinforcement Learning [122.47938710284784]
協調型MARLにおける動的サブタスク代入(LDSA)を学習するための新しいフレームワークを提案する。
エージェントを異なるサブタスクに合理的に割り当てるために,能力に基づくサブタスク選択戦略を提案する。
LDSAは、より優れたコラボレーションのために、合理的で効果的なサブタスクの割り当てを学習していることを示す。
論文 参考訳(メタデータ) (2022-05-05T10:46:16Z) - Modular Adaptive Policy Selection for Multi-Task Imitation Learning
through Task Division [60.232542918414985]
マルチタスク学習は、しばしば負の伝達に悩まされ、タスク固有の情報を共有する。
これは、プロトポリケーションをモジュールとして使用して、タスクを共有可能な単純なサブ振る舞いに分割する。
また、タスクを共有サブ行動とタスク固有のサブ行動の両方に自律的に分割する能力を示す。
論文 参考訳(メタデータ) (2022-03-28T15:53:17Z) - Learning Modality-Specific Representations with Self-Supervised
Multi-Task Learning for Multimodal Sentiment Analysis [11.368438990334397]
我々は,独立した一助的指導を受けるための自己指導型学習戦略を開発する。
我々は3つの公開マルチモーダルベースラインデータセットについて広範な実験を行った。
提案手法は,人間の注釈付きアンモダルラベルと同等の性能を達成している。
論文 参考訳(メタデータ) (2021-02-09T14:05:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。