論文の概要: Multi-agent Deep Covering Skill Discovery
- arxiv url: http://arxiv.org/abs/2210.03269v3
- Date: Thu, 21 Sep 2023 17:01:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 20:17:27.499339
- Title: Multi-agent Deep Covering Skill Discovery
- Title(参考訳): マルチエージェントDeep Covering Skill Discovery
- Authors: Jiayu Chen, Marina Haliem, Tian Lan, Vaneet Aggarwal
- Abstract要約: 本稿では,複数エージェントの結合状態空間の予測被覆時間を最小化し,マルチエージェントオプションを構築するマルチエージェントDeep Covering Option Discoveryを提案する。
また、MARLプロセスにマルチエージェントオプションを採用するための新しいフレームワークを提案する。
提案アルゴリズムは,アテンション機構とエージェントの相互作用を効果的に把握し,マルチエージェントオプションの同定に成功した。
- 参考スコア(独自算出の注目度): 50.812414209206054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The use of skills (a.k.a., options) can greatly accelerate exploration in
reinforcement learning, especially when only sparse reward signals are
available. While option discovery methods have been proposed for individual
agents, in multi-agent reinforcement learning settings, discovering
collaborative options that can coordinate the behavior of multiple agents and
encourage them to visit the under-explored regions of their joint state space
has not been considered. In this case, we propose Multi-agent Deep Covering
Option Discovery, which constructs the multi-agent options through minimizing
the expected cover time of the multiple agents' joint state space. Also, we
propose a novel framework to adopt the multi-agent options in the MARL process.
In practice, a multi-agent task can usually be divided into some sub-tasks,
each of which can be completed by a sub-group of the agents. Therefore, our
algorithm framework first leverages an attention mechanism to find
collaborative agent sub-groups that would benefit most from coordinated
actions. Then, a hierarchical algorithm, namely HA-MSAC, is developed to learn
the multi-agent options for each sub-group to complete their sub-tasks first,
and then to integrate them through a high-level policy as the solution of the
whole task. This hierarchical option construction allows our framework to
strike a balance between scalability and effective collaboration among the
agents. The evaluation based on multi-agent collaborative tasks shows that the
proposed algorithm can effectively capture the agent interactions with the
attention mechanism, successfully identify multi-agent options, and
significantly outperforms prior works using single-agent options or no options,
in terms of both faster exploration and higher task rewards.
- Abstract(参考訳): スキル(すなわちオプション)の使用は強化学習における探索を大幅に加速させることができる。
個々のエージェントに対してオプション発見手法が提案されているが、マルチエージェント強化学習環境では、複数のエージェントの振る舞いを調整し、共同状態空間の未調査領域を訪問するよう促す協調的オプションの発見は検討されていない。
本稿では,複数エージェントの結合状態空間のカバータイムを最小化することで,マルチエージェントオプションを構築するマルチエージェントディープ・カバーリング・オプションディスカバリを提案する。
また、MARLプロセスにマルチエージェントオプションを採用するための新しいフレームワークを提案する。
実際には、マルチエージェントタスクは通常、いくつかのサブタスクに分割され、それぞれがエージェントのサブグループによって完了する。
したがって,本アルゴリズムフレームワークは,まず注意機構を活用し,協調行動の恩恵を受ける協調エージェントを探索する。
次に、階層型アルゴリズムHA-MSACを開発し、各サブグループのマルチエージェントオプションを学習し、まずサブタスクを完了し、タスク全体の解として高レベルポリシーを通じてそれらを統合する。
この階層的なオプション構成により、当社のフレームワークは、スケーラビリティとエージェント間の効果的なコラボレーションのバランスをとることができます。
マルチエージェント協調課題に基づく評価の結果,提案手法は,アテンション機構とのエージェントインタラクションを効果的に捉え,マルチエージェントオプションの同定に成功し,より高速な探索と高いタスク報酬の両面で,シングルエージェントオプションやnoオプションを用いた先行作業を大幅に上回ることがわかった。
関連論文リスト
- Decentralized Multi-Agent Active Search and Tracking when Targets
Outnumber Agents [8.692007892160913]
そこで我々は,DecSTERと呼ばれる分散マルチエージェント,マルチターゲット,同時アクティブ検索・追跡アルゴリズムを提案する。
提案アルゴリズムは,確率仮説密度フィルタの逐次モントカルロ法とトンプソンサンプリングを併用し,分散化マルチエージェント意思決定を行う。
シミュレーションでは,DecSTERは信頼性の低いエージェント間通信に頑健であり,最適サブパターン割り当て(OSPA)の指標で情報グレディベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2024-01-06T08:10:58Z) - A Dynamic LLM-Powered Agent Network for Task-Oriented Agent Collaboration [55.35849138235116]
本稿では,様々なタスクやドメインに対する動的コミュニケーション構造において,候補からエージェントのチームを自動的に選択する手法を提案する。
具体的には, LLMを利用したエージェント協調のための動的LLMパワーエージェントネットワーク(textDyLAN$)というフレームワークを構築した。
我々は、コード生成、意思決定、一般的な推論、算術的推論タスクにおいて、適度な計算コストで、DyLANが強力なベースラインを上回ることを実証する。
論文 参考訳(メタデータ) (2023-10-03T16:05:48Z) - AutoAgents: A Framework for Automatic Agent Generation [27.74332323317923]
AutoAgentsは、さまざまなタスクに応じてAIチームを構築するために、複数の専門エージェントを適応的に生成し、コーディネートする革新的なフレームワークである。
各種ベンチマーク実験により,AutoAgentsは既存のマルチエージェント手法よりも一貫性と正確な解を生成することが示された。
論文 参考訳(メタデータ) (2023-09-29T14:46:30Z) - AgentVerse: Facilitating Multi-Agent Collaboration and Exploring
Emergent Behaviors [93.38830440346783]
本稿では,その構成をより高機能なシステムとして協調的に調整できるマルチエージェントフレームワークを提案する。
実験により,フレームワークが単一エージェントより優れたマルチエージェントグループを効果的に展開できることが実証された。
これらの振舞いの観点から、我々は、ポジティブなものを活用し、ネガティブなものを緩和し、マルチエージェントグループの協調可能性を改善するためのいくつかの戦略について議論する。
論文 参考訳(メタデータ) (2023-08-21T16:47:11Z) - Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。
これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。
提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文 参考訳(メタデータ) (2023-03-24T15:12:28Z) - LDSA: Learning Dynamic Subtask Assignment in Cooperative Multi-Agent
Reinforcement Learning [122.47938710284784]
協調型MARLにおける動的サブタスク代入(LDSA)を学習するための新しいフレームワークを提案する。
エージェントを異なるサブタスクに合理的に割り当てるために,能力に基づくサブタスク選択戦略を提案する。
LDSAは、より優れたコラボレーションのために、合理的で効果的なサブタスクの割り当てを学習していることを示す。
論文 参考訳(メタデータ) (2022-05-05T10:46:16Z) - Learning Multi-agent Skills for Tabular Reinforcement Learning using
Factor Graphs [41.17714498464354]
エージェント間の協調的な探索行動により,マルチエージェントの選択肢を直接計算できることが示唆された。
提案アルゴリズムは,マルチエージェントオプションの同定に成功し,シングルエージェントオプションや非オプションを用いることで,従来よりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2022-01-20T15:33:08Z) - MACRPO: Multi-Agent Cooperative Recurrent Policy Optimization [17.825845543579195]
我々はtextitMulti-Agent Cooperative Recurrent Proximal Policy Optimization (MACRPO) と呼ばれる新しいマルチエージェントアクター批判手法を提案する。
我々は、批評家のネットワークアーキテクチャにおいてリカレント・レイヤを使用し、メタ・トラジェクトリを使用してリカレント・レイヤをトレーニングする新しいフレームワークを提案する。
連続的および離散的な行動空間を持つ3つの挑戦的マルチエージェント環境において,本アルゴリズムの評価を行った。
論文 参考訳(メタデータ) (2021-09-02T12:43:35Z) - Cooperative Exploration for Multi-Agent Deep Reinforcement Learning [127.4746863307944]
深層強化学習のための協調型マルチエージェント探索(CMAE)を提案する。
ゴールは正規化エントロピーに基づく手法により、複数の射影状態空間から選択される。
CMAEが様々なタスクのベースラインを一貫して上回っていることを実証する。
論文 参考訳(メタデータ) (2021-07-23T20:06:32Z) - BGC: Multi-Agent Group Belief with Graph Clustering [1.9949730506194252]
エージェントがコミュニケーションなしで情報を交換できる半通信方式を提案する。
近接するエージェントを小さなグループに分割し,グループ内のエージェントの信念を最小化するグループベースのモジュールを提案する。
その結果,提案手法はSMACベンチマークの大幅な改善を実現していることがわかった。
論文 参考訳(メタデータ) (2020-08-20T07:07:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。