論文の概要: Action-Graph Policies: Learning Action Co-dependencies in Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.17009v1
- Date: Thu, 19 Feb 2026 02:13:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.602439
- Title: Action-Graph Policies: Learning Action Co-dependencies in Multi-Agent Reinforcement Learning
- Title(参考訳): アクショングラフポリシ:マルチエージェント強化学習におけるアクションコディペンデンシーの学習
- Authors: Nikunj Gupta, James Zachary Hare, Jesse Milzman, Rajgopal Kannan, Viktor Prasanna,
- Abstract要約: 協調行動は多エージェント強化学習における最も基本的な協調形態である。
我々はエージェントの利用可能なアクション選択間の依存関係をモデル化するアクショングラフポリシー(AGP)を提案する。
AGPは多様なマルチエージェント環境で他のMARLメソッドよりも一貫して優れている。
- 参考スコア(独自算出の注目度): 7.702487800530373
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Coordinating actions is the most fundamental form of cooperation in multi-agent reinforcement learning (MARL). Successful decentralized decision-making often depends not only on good individual actions, but on selecting compatible actions across agents to synchronize behavior, avoid conflicts, and satisfy global constraints. In this paper, we propose Action Graph Policies (AGP), that model dependencies among agents' available action choices. It constructs, what we call, \textit{coordination contexts}, that enable agents to condition their decisions on global action dependencies. Theoretically, we show that AGPs induce a strictly more expressive joint policy compared to fully independent policies and can realize coordinated joint actions that are provably more optimal than greedy execution even from centralized value-decomposition methods. Empirically, we show that AGP achieves 80-95\% success on canonical coordination tasks with partial observability and anti-coordination penalties, where other MARL methods reach only 10-25\%. We further demonstrate that AGP consistently outperforms these baselines in diverse multi-agent environments.
- Abstract(参考訳): 協調行動は多エージェント強化学習(MARL)における最も基本的な協調形態である。
分散化された意思決定の成功は、良い個々の行動だけでなく、行動の同期、衝突の回避、グローバルな制約を満たすために、エージェント間で互換性のあるアクションを選択することにも依存することが多い。
本稿ではエージェントの利用可能なアクション選択間の依存関係をモデル化するアクショングラフポリシー(AGP)を提案する。
エージェントがグローバルなアクション依存に対して自身の決定を条件付けることを可能にする。
理論的には、AGPは完全独立な政策に比べて厳密に表現力のある共同政策を誘導し、集中値分解法でさえも、グリード実行よりも確実に最適な協調的共同行動を実現することができることを示す。
実験により,他のMARL法が10-25\%にしか達しない部分的可観測性および反コーディネートペナルティを有する標準コーディネートタスクにおいて,AGPが80-95%の精度で達成できることが判明した。
さらに、AGPは多様なマルチエージェント環境において、これらのベースラインを一貫して上回っていることを実証する。
関連論文リスト
- Adaptive Value Decomposition: Coordinating a Varying Number of Agents in Urban Systems [19.19146852846605]
Adaptive Value Decomposition (AVD)は、動的に変化するエージェントに適応する協調的なMARLフレームワークである。
トレーニング実行戦略は、エージェントが異なるタイミングで行動するときの非同期な意思決定に対応するように設計されている。
論文 参考訳(メタデータ) (2026-02-10T03:41:14Z) - Action Dependency Graphs for Globally Optimal Coordinated Reinforcement Learning [0.0]
行動依存型個別政策は多エージェント強化学習におけるグローバルな最適性を達成するための有望なパラダイムとして浮上している。
本研究では、必ずしも自己回帰形式に従わない、より一般化された行動依存型ポリシーを考察する。
協調グラフによって構成されたMARL問題の文脈内では、疎ADGを用いた行動依存ポリシーがグローバルな最適性を達成することが証明される。
論文 参考訳(メタデータ) (2025-06-01T02:58:20Z) - Offline Multi-agent Reinforcement Learning via Score Decomposition [51.23590397383217]
オフライン協調型マルチエージェント強化学習(MARL)は、分散シフトによる固有の課題に直面している。
この作業は、オフラインとオンラインのMARL間の分散ギャップを明示的に解決する最初の作業である。
論文 参考訳(メタデータ) (2025-05-09T11:42:31Z) - Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。
HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。
HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文 参考訳(メタデータ) (2024-06-12T08:48:06Z) - Reaching Consensus in Cooperative Multi-Agent Reinforcement Learning
with Goal Imagination [16.74629849552254]
本稿では,複数のエージェントを協調するモデルに基づくコンセンサス機構を提案する。
提案したMulti-Adnt Goal Imagination (MAGI) フレームワークは、エージェントがImagined Common goalとコンセンサスに達するためのガイドである。
このような効率的なコンセンサス機構は、すべてのエージェントを協調して有用な将来状態に導くことができることを示す。
論文 参考訳(メタデータ) (2024-03-05T18:07:34Z) - Context-Aware Bayesian Network Actor-Critic Methods for Cooperative
Multi-Agent Reinforcement Learning [7.784991832712813]
本稿では, エージェントの行動選択の相関関係を, 共同政策に導入するベイズネットワークを提案する。
本研究では,コンテキスト認識型ベイズ型ネットワークポリシを学習するための実用的なアルゴリズムを開発した。
MARLベンチマークの実証結果は,我々のアプローチの利点を示している。
論文 参考訳(メタデータ) (2023-06-02T21:22:27Z) - Composable Energy Policies for Reactive Motion Generation and
Reinforcement Learning [25.498555742173323]
モジュラーモーション生成のための新しいフレームワークであるComposable Energy Policies(CEP)を紹介します。
CEPは、一連のリアクティブポリシーの製品に対する最適化によってコントロールアクションを計算する。
CEPは自然に強化学習の問題に適応し、階層的な方法で、以前はどんな分布でも統合できるようにします。
論文 参考訳(メタデータ) (2021-05-11T11:59:13Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z) - Multi-Agent Interactions Modeling with Correlated Policies [53.38338964628494]
本稿では,マルチエージェントインタラクションモデリング問題をマルチエージェント模倣学習フレームワークに実装する。
相関ポリシー(CoDAIL)を用いた分散型適応模倣学習アルゴリズムの開発
様々な実験により、CoDAILはデモレーターに近い複雑な相互作用をより良く再生できることが示されている。
論文 参考訳(メタデータ) (2020-01-04T17:31:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。