論文の概要: Variational Offline Multi-agent Skill Discovery
- arxiv url: http://arxiv.org/abs/2405.16386v3
- Date: Wed, 30 Apr 2025 16:48:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:51.7779
- Title: Variational Offline Multi-agent Skill Discovery
- Title(参考訳): 変分オフライン多エージェントスキル発見
- Authors: Jiayu Chen, Tian Lan, Vaneet Aggarwal,
- Abstract要約: 本稿では,サブグループレベルの抽象化と時間レベルの抽象化を同時に取得し,マルチエージェントスキルを形成するための2つの新しい自動エンコーダ方式を提案する。
提案手法はオフラインのマルチタスクデータに適用可能であり,検出したサブグループスキルは再学習することなく,関連するタスク間で伝達可能である。
StarCraftタスクに対する実証的な評価は、既存の階層型マルチエージェント強化学習(MARL)法よりもはるかに優れていることを示している。
- 参考スコア(独自算出の注目度): 47.924414207796005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Skills are effective temporal abstractions established for sequential decision making, which enable efficient hierarchical learning for long-horizon tasks and facilitate multi-task learning through their transferability. Despite extensive research, research gaps remain in multi-agent scenarios, particularly for automatically extracting subgroup coordination patterns in a multi-agent task. In this case, we propose two novel auto-encoder schemes: VO-MASD-3D and VO-MASD-Hier, to simultaneously capture subgroup- and temporal-level abstractions and form multi-agent skills, which firstly solves the aforementioned challenge. An essential algorithm component of these schemes is a dynamic grouping function that can automatically detect latent subgroups based on agent interactions in a task. Further, our method can be applied to offline multi-task data, and the discovered subgroup skills can be transferred across relevant tasks without retraining. Empirical evaluations on StarCraft tasks indicate that our approach significantly outperforms existing hierarchical multi-agent reinforcement learning (MARL) methods. Moreover, skills discovered using our method can effectively reduce the learning difficulty in MARL scenarios with delayed and sparse reward signals. The codebase is available at https://github.com/LucasCJYSDL/VOMASD.
- Abstract(参考訳): スキルはシーケンシャルな意思決定のために確立された効果的な時間的抽象化であり、長距離タスクの効率的な階層的学習を可能にし、伝達可能性を通じてマルチタスク学習を容易にする。
大規模な研究にもかかわらず、研究のギャップはマルチエージェントのシナリオに残り、特にマルチエージェントタスクにおけるサブグループ調整パターンを自動的に抽出する。
本稿では,VO-MASD-3DとVO-MASD-Hierという2つの新しい自動エンコーダ方式を提案する。
これらのスキームの重要なアルゴリズムコンポーネントは動的グルーピング関数であり、タスク内のエージェントの相互作用に基づいて潜在部分群を自動的に検出することができる。
さらに,本手法はオフラインマルチタスクデータに適用可能であり,検出したサブグループスキルは再学習することなく,関連するタスク間で伝達可能である。
StarCraftタスクに対する実証的な評価は、既存の階層型マルチエージェント強化学習(MARL)法よりもはるかに優れていることを示している。
さらに,本手法を用いて検出したスキルは,報酬信号の遅さと疎度を考慮したMARLシナリオにおいて,学習難易度を効果的に低減することができる。
コードベースはhttps://github.com/LucasCJYSDL/VOMASDで公開されている。
関連論文リスト
- Cooperative Multi-Agent Planning with Adaptive Skill Synthesis [16.228784877899976]
強化学習を用いたマルチエージェントシステムでは, サンプル効率, 解釈可能性, 伝達性に課題が生じる。
本稿では、視覚言語モデル(VLM)を動的スキルライブラリと統合し、分散化されたクローズドループ決定のための構造化通信を行う新しいマルチエージェントアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-02-14T13:23:18Z) - MALMM: Multi-Agent Large Language Models for Zero-Shot Robotics Manipulation [52.739500459903724]
大規模言語モデル(LLM)は、ロボティクスの操作やナビゲーションなど、さまざまな領域にまたがる優れた計画能力を示している。
特殊なLLMエージェント間で高レベル計画および低レベル制御コード生成を分散する新しいマルチエージェントLLMフレームワークを提案する。
長軸タスクを含む9つのRLBenchタスクに対するアプローチを評価し、ゼロショット環境でロボット操作を解く能力を実証した。
論文 参考訳(メタデータ) (2024-11-26T17:53:44Z) - Exploring Multi-Agent Reinforcement Learning for Unrelated Parallel Machine Scheduling [2.3034630097498883]
本研究は,強化学習環境を紹介し,実証分析を行う。
実験では、シングルエージェントとマルチエージェントアプローチにさまざまなディープニューラルネットワークポリシーを採用している。
シングルエージェントアルゴリズムは縮小シナリオにおいて適切に機能する一方、マルチエージェントアプローチは協調学習における課題を明らかにするが、スケーラブルな能力を示す。
論文 参考訳(メタデータ) (2024-11-12T08:27:27Z) - Enabling Multi-Agent Transfer Reinforcement Learning via Scenario
Independent Representation [0.7366405857677227]
マルチエージェント強化学習(MARL)アルゴリズムは、エージェント間の協調や競合を必要とする複雑なタスクに広く採用されている。
本稿では,様々な状態空間を固定サイズの入力に統一することで,MARLの伝達学習を可能にする新しいフレームワークを提案する。
スクラッチから学習するエージェントと比較して,他のシナリオから学んだ操作スキルを用いたマルチエージェント学習性能の大幅な向上を示す。
論文 参考訳(メタデータ) (2024-02-13T02:48:18Z) - Disentangled Latent Spaces Facilitate Data-Driven Auxiliary Learning [14.677411619418319]
補助的なタスクは、データが乏しい、あるいは焦点の主タスクが極めて複雑である状況での学習を容易にする。
Detauxと呼ばれる新しいフレームワークを提案する。このフレームワークでは,非関連性のある新たな補助的分類タスクを見つけるために,弱い教師付き逆絡手順が使用される。
我々は、最も不整合な部分空間上のクラスタリング手順によって補助的な分類タスクを生成し、ラベルの離散的な集合を得る。
論文 参考訳(メタデータ) (2023-10-13T17:40:39Z) - Inverse Factorized Q-Learning for Cooperative Multi-agent Imitation
Learning [13.060023718506917]
模倣学習(英: mimicion learning, IL)は、協調型マルチエージェントシステムにおける実証から専門家の行動を模倣する学習の課題である。
本稿では,これらの課題に対処する新しいマルチエージェントILアルゴリズムを提案する。
本手法は,分散Q関数の集約に混在するネットワークを活用することで,集中学習を実現する。
論文 参考訳(メタデータ) (2023-10-10T17:11:20Z) - Semantically Aligned Task Decomposition in Multi-Agent Reinforcement
Learning [56.26889258704261]
我々は,MARL(SAMA)における意味的アライズされたタスク分解という,新しい「不整合」意思決定手法を提案する。
SAMAは、潜在的な目標を示唆し、適切な目標分解とサブゴールアロケーションを提供するとともに、自己回帰に基づくリプランニングを提供する、チェーン・オブ・シントによる事前訓練された言語モデルを促進する。
SAMAは, 最先端のASG法と比較して, 試料効率に有意な優位性を示す。
論文 参考訳(メタデータ) (2023-05-18T10:37:54Z) - Learning Complex Teamwork Tasks Using a Given Sub-task Decomposition [11.998708550268978]
本稿では,タスクをよりシンプルなマルチエージェントサブタスクに分解する手法を提案する。
各サブタスクでは、チーム全体のサブセットが、サブタスク固有のポリシを取得するようにトレーニングされる。
サブチームはマージされ、ターゲットタスクに転送される。そこでは、そのポリシーは、より複雑なターゲットタスクを解決するために、まとめて微調整される。
論文 参考訳(メタデータ) (2023-02-09T21:24:56Z) - LDSA: Learning Dynamic Subtask Assignment in Cooperative Multi-Agent
Reinforcement Learning [122.47938710284784]
協調型MARLにおける動的サブタスク代入(LDSA)を学習するための新しいフレームワークを提案する。
エージェントを異なるサブタスクに合理的に割り当てるために,能力に基づくサブタスク選択戦略を提案する。
LDSAは、より優れたコラボレーションのために、合理的で効果的なサブタスクの割り当てを学習していることを示す。
論文 参考訳(メタデータ) (2022-05-05T10:46:16Z) - Skill-based Meta-Reinforcement Learning [65.31995608339962]
本研究では,長期的スパース・リワードタスクにおけるメタラーニングを実現する手法を提案する。
私たちの中核となる考え方は、メタ学習中にオフラインデータセットから抽出された事前経験を活用することです。
論文 参考訳(メタデータ) (2022-04-25T17:58:19Z) - Multi-Task Learning with Sequence-Conditioned Transporter Networks [67.57293592529517]
シーケンスコンディショニングと重み付きサンプリングのレンズによるマルチタスク学習の実現を目指している。
合成タスクを対象とした新しいベンチマークであるMultiRavensを提案する。
次に,視覚に基づくエンドツーエンドシステムアーキテクチャであるSequence-Conditioned Transporter Networksを提案する。
論文 参考訳(メタデータ) (2021-09-15T21:19:11Z) - Multi-task Over-the-Air Federated Learning: A Non-Orthogonal
Transmission Approach [52.85647632037537]
複数の学習タスクがエッジサーバ(ES)の協調の下でデータ収集および学習モデルのためのエッジデバイスを共有するマルチタスク・オーバーテア・フェデレーション・ラーニング(MOAFL)フレームワークを提案する。
収束解析と数値計算の両方の結果から,MOAFLフレームワークは学習性能を著しく低下させることなく,複数のタスクのアップリンク帯域幅の消費を大幅に削減できることが示された。
論文 参考訳(メタデータ) (2021-06-27T13:09:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。