論文の概要: PMAT: Optimizing Action Generation Order in Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2502.16496v1
- Date: Sun, 23 Feb 2025 08:30:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:56:08.570826
- Title: PMAT: Optimizing Action Generation Order in Multi-Agent Reinforcement Learning
- Title(参考訳): PMAT:マルチエージェント強化学習におけるアクション生成順序の最適化
- Authors: Kun Hu, Muning Wen, Xihuai Wang, Shao Zhang, Yiwei Shi, Minne Li, Minglong Li, Ying Wen,
- Abstract要約: AGPS(Action Generation with Plackett-Luce Sampling)はエージェント決定順序最適化のための新しいメカニズムである。
本稿では,決定順序を最適化した逐次意思決定型MARLアルゴリズムである優先多重エージェント変換器(PMAT)を提案する。
StarCraft II Multi-Agent Challenge、Google Research Football、Multi-Agent MuJoCoといったベンチマークの実験では、PMATが最先端のアルゴリズムより優れていることが示されている。
- 参考スコア(独自算出の注目度): 16.523999372817435
- License:
- Abstract: Multi-agent reinforcement learning (MARL) faces challenges in coordinating agents due to complex interdependencies within multi-agent systems. Most MARL algorithms use the simultaneous decision-making paradigm but ignore the action-level dependencies among agents, which reduces coordination efficiency. In contrast, the sequential decision-making paradigm provides finer-grained supervision for agent decision order, presenting the potential for handling dependencies via better decision order management. However, determining the optimal decision order remains a challenge. In this paper, we introduce Action Generation with Plackett-Luce Sampling (AGPS), a novel mechanism for agent decision order optimization. We model the order determination task as a Plackett-Luce sampling process to address issues such as ranking instability and vanishing gradient during the network training process. AGPS realizes credit-based decision order determination by establishing a bridge between the significance of agents' local observations and their decision credits, thus facilitating order optimization and dependency management. Integrating AGPS with the Multi-Agent Transformer, we propose the Prioritized Multi-Agent Transformer (PMAT), a sequential decision-making MARL algorithm with decision order optimization. Experiments on benchmarks including StarCraft II Multi-Agent Challenge, Google Research Football, and Multi-Agent MuJoCo show that PMAT outperforms state-of-the-art algorithms, greatly enhancing coordination efficiency.
- Abstract(参考訳): マルチエージェント強化学習(MARL)は、マルチエージェントシステム内の複雑な相互依存により、エージェントのコーディネートにおいて課題に直面している。
ほとんどのMARLアルゴリズムは、同時決定パラダイムを用いるが、エージェント間のアクションレベルの依存関係を無視し、調整効率を低下させる。
対照的に、シーケンシャルな意思決定パラダイムは、よりきめ細かなエージェント決定順序の監督を提供し、より良い意思決定順序管理を通じて依存関係を処理する可能性を提示する。
しかし、最適な決定順序を決定することは依然として課題である。
本稿では,エージェント決定順序最適化のための新しいメカニズムであるAGPS(Action Generation with Plackett-Luce Smpling)を提案する。
本研究は,ネットワーク学習過程におけるランクの不安定性や勾配の解消といった問題に対処するため,注文決定タスクをPlanet-Luceサンプリングプロセスとしてモデル化する。
AGPSは、エージェントのローカルな観察と意思決定クレジットの橋渡しをすることで、クレジットベースの決定順序決定を実現し、注文最適化と依存性管理を容易にする。
AGPSとMulti-Agent Transformerを統合することで,決定順序を最適化したシーケンシャル意思決定型MARLアルゴリズムである優先型Multi-Agent Transformer (PMAT)を提案する。
StarCraft II Multi-Agent Challenge、Google Research Football、Multi-Agent MuJoCoといったベンチマークの実験によると、PMATは最先端のアルゴリズムより優れており、調整効率を大幅に向上している。
関連論文リスト
- Hypernetwork-based approach for optimal composition design in partially controlled multi-agent systems [5.860363407227059]
部分的に制御されたマルチエージェントシステム(PCMAS)は、システムデザイナが管理する制御可能なエージェントと、自律的に動作する制御不能エージェントで構成されている。
本研究は,PCMASにおける最適構成設計問題に対処し,システム設計者の問題,制御不能エージェントの最適数とポリシー,制御不能エージェントの問題について検討する。
本稿では,システムの構成とエージェントポリシーを協調的に最適化する,新しいハイパーネットワークベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-18T07:35:24Z) - Learning to Solve the Min-Max Mixed-Shelves Picker-Routing Problem via Hierarchical and Parallel Decoding [0.3867363075280544]
混合棚ピッカールーティング問題(MSPRP)はロジスティクスにおける基本的な課題であり、ピッカーはSKUを効率的に回収するために混合棚環境をナビゲートする必要がある。
マルチエージェント強化学習により,MSPRPのmin-max変異を解くための新しい階層的並列デコーディング手法を提案する。
実験では、特に大規模およびアウト・オブ・ディストリビューションインスタンスにおいて、ソリューションの品質と推論速度の両方で最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2025-02-14T15:42:30Z) - Exploring Multi-Agent Reinforcement Learning for Unrelated Parallel Machine Scheduling [2.3034630097498883]
本研究は,強化学習環境を紹介し,実証分析を行う。
実験では、シングルエージェントとマルチエージェントアプローチにさまざまなディープニューラルネットワークポリシーを採用している。
シングルエージェントアルゴリズムは縮小シナリオにおいて適切に機能する一方、マルチエージェントアプローチは協調学習における課題を明らかにするが、スケーラブルな能力を示す。
論文 参考訳(メタデータ) (2024-11-12T08:27:27Z) - Textualized Agent-Style Reasoning for Complex Tasks by Multiple Round LLM Generation [49.27250832754313]
我々は、llmベースの自律エージェントフレームワークであるAgentCOTを紹介する。
それぞれのステップで、AgentCOTはアクションを選択し、それを実行して、証拠を裏付ける中間結果を得る。
エージェントCOTの性能を高めるための2つの新しい戦略を導入する。
論文 参考訳(メタデータ) (2024-09-19T02:20:06Z) - Decentralised Q-Learning for Multi-Agent Markov Decision Processes with
a Satisfiability Criterion [0.0]
マルチエージェントマルコフ決定過程(MMDP)を解決するための強化学習アルゴリズムを提案する。
目標は、各エージェントの時間平均コストを、指定されたエージェント固有のバウンド以下にすることである。
論文 参考訳(メタデータ) (2023-11-21T13:56:44Z) - A Dynamic LLM-Powered Agent Network for Task-Oriented Agent Collaboration [55.35849138235116]
本稿では,様々なタスクやドメインに対する動的コミュニケーション構造において,候補からエージェントのチームを自動的に選択する手法を提案する。
具体的には, LLMを利用したエージェント協調のための動的LLMパワーエージェントネットワーク(textDyLAN$)というフレームワークを構築した。
我々は、コード生成、意思決定、一般的な推論、算術的推論タスクにおいて、適度な計算コストで、DyLANが強力なベースラインを上回ることを実証する。
論文 参考訳(メタデータ) (2023-10-03T16:05:48Z) - On the Complexity of Multi-Agent Decision Making: From Learning in Games
to Partial Monitoring [105.13668993076801]
マルチエージェント強化学習(MARL)理論における中心的な問題は、構造条件やアルゴリズムの原理がサンプル効率の学習保証につながるかを理解することである。
本稿では,複数のエージェントを用いた対話型意思決定のための一般的な枠組みとして,この問題について考察する。
マルチエージェント意思決定における統計的複雑性を特徴付けることは、単一エージェント決定の統計的複雑性を特徴付けることと等価であることを示す。
論文 参考訳(メタデータ) (2023-05-01T06:46:22Z) - ACE: Cooperative Multi-agent Q-learning with Bidirectional
Action-Dependency [65.28061634546577]
マルチエージェント強化学習(MARL)は非定常性問題に悩まされる。
本稿では,双方向行動依存型Q-ラーニング(ACE)を提案する。
ACEは、Google Research FootballとStarCraft Multi-Agent Challengeで最先端のアルゴリズムを上回っている。
論文 参考訳(メタデータ) (2022-11-29T10:22:55Z) - Macro-Action-Based Multi-Agent/Robot Deep Reinforcement Learning under
Partial Observability [4.111899441919164]
最先端のマルチエージェント強化学習(MARL)手法は、様々な複雑な問題に対して有望な解決策を提供してきた。
まず,MacDec-POMDPに対する値に基づくRL手法を提案する。
3つの訓練パラダイムの下でマクロアクションに基づくポリシー勾配アルゴリズムを定式化する。
論文 参考訳(メタデータ) (2022-09-20T21:13:51Z) - Plan Better Amid Conservatism: Offline Multi-Agent Reinforcement
Learning with Actor Rectification [74.10976684469435]
オフライン強化学習(RL)アルゴリズムは、直接マルチエージェント設定に転送することができる。
本稿では,この重要な課題に対処するために,Actor Rectification (OMAR) を用いたオフラインマルチエージェント RL を提案する。
OMARはマルチエージェント連続制御ベンチマークにおける最先端性能と強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2021-11-22T13:27:42Z) - Emergence of Theory of Mind Collaboration in Multiagent Systems [65.97255691640561]
ToMとエージェント間の効果的な協調を開発するための適応的学習アルゴリズムを提案する。
アルゴリズムはToMをモデル化せずに従来の分散実行アルゴリズムを全て上回る2つのゲームで評価する。
論文 参考訳(メタデータ) (2021-09-30T23:28:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。