論文の概要: Coordination Graphs for Constrained Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2606.02337v1
- Date: Mon, 01 Jun 2026 14:46:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:32.295296
- Title: Coordination Graphs for Constrained Multi-Agent Reinforcement Learning
- Title(参考訳): 制約付きマルチエージェント強化学習のためのコーディネーショングラフ
- Authors: Santiago Amaya-Corredor, Miguel Calvo-Fullana, Anders Jonsson,
- Abstract要約: 制約付きマルチエージェント強化学習(CG-CMARL)のためのコーディネーショングラフ
システムは、共同問題をペアワイズ領域に分解し、それぞれに共有Q-関数の集合を提供する。
実行時には、Max-Sumメッセージパッシングがファクタグラフ全体のアクションをコーディネートし、ラグランジアン乗算器が客観的-制約トレードオフを制御する。
- 参考スコア(独自算出の注目度): 4.278821961637313
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Constrained Multi-agent reinforcement learning (CMARL) faces two intertwined challenges: the joint action space grows exponentially with the number of agents, and additional requirements couple agents in ways that reward structure alone does not capture. We introduce Coordination Graphs for Constrained Multi-Agent Reinforcement Learning (CG-CMARL), a framework that addresses both challenges by combining coordination graphs with Lagrangian duality. The system decomposes the joint problem into pairwise regions, each served by a set of shared Q-functions, one for the primary objective and one for each of the constraints, so that the number of learned models is independent of the number of agents. At execution time, Max-Sum message passing coordinates actions across the factor graph, while a Lagrangian multiplier controls the objective--constraint tradeoff, allowing a single trained model to trace a Pareto front without retraining. We provide convergence guarantees under mild conditions, together with a compositional error bound that decomposes into separate interpretable sources, each traceable to a specific design choice and independently controllable. Experiments on cooperative navigation tasks (where teams of up to 10 agents must coordinate to reach target positions while satisfying pairwise constraints) show that our method produces Pareto fronts dominating established baselines trained at fixed reward-shaping ratios, while scaling to team sizes where centralized approaches become intractable.
- Abstract(参考訳): 制約付きマルチエージェント強化学習 (CMARL) は, エージェント数の増加に伴い, 共同行動空間が指数関数的に増大し, 報酬構造のみを捉えない追加の要件が伴う。
本稿では,協調グラフとラグランジアン双対性を組み合わせることで両課題に対処する,制約付きマルチエージェント強化学習(CG-CMARL)のコーディネーショングラフを紹介する。
このシステムは、共同問題をペアワイズ領域に分解し、それぞれが共有Q-関数のセット、第一目的の1つ、各制約の1つとして提供し、学習されたモデルの数はエージェントの数に依存しないようにする。
実行時に、Max-Sumメッセージパッシングはファクタグラフ全体のアクションをコーディネートする一方、ラグランジアン乗算器は目的-制約トレードオフを制御する。
軽度条件下での収束保証と、分離された解釈可能なソースに分解する構成誤差境界を提供し、それぞれが特定の設計選択にトレース可能であり、独立に制御可能である。
協調的なナビゲーションタスク(最大10人のエージェントのチームが、ペアの制約を満たしながら目標位置に到達するように調整する必要がある)の実験は、我々の手法が、固定報酬比率でトレーニングされた確立されたベースラインを支配するパレートフロントを生成し、集中的なアプローチが難易度になったチームサイズにスケールすることを示している。
関連論文リスト
- Scalable Constrained Multi-Agent Reinforcement Learning via State Augmentation and Consensus for Separable Dynamics [4.278821961637313]
制約付きマルチエージェント強化学習(MARL)のための分散手法を提案する。
本手法は,エージェントが分離可能なダイナミクスを持つが,グローバルな資源制約を満たすように調整する必要があるシステムを対象としている。
ラグランジュ乗算器に対する軽量な隣り合わせのコンセンサスがグローバルに協調された制約執行に十分であることを示す。
論文 参考訳(メタデータ) (2026-05-28T18:37:16Z) - Improving the Efficiency of Language Agent Teams with Adaptive Task Graphs [52.26652574704317]
大規模言語モデル(LLM)はますますチームにデプロイされているが、既存のコーディネーションアプローチは2つの極端な部分を占めることが多い。
本稿では,Language Agent Teams for Task Evolution (LATTE)を紹介した。
論文 参考訳(メタデータ) (2026-05-07T14:19:17Z) - MO-MIX: Multi-Objective Multi-Agent Cooperative Decision-Making With Deep Reinforcement Learning [68.91090643731987]
深部強化学習(RL)は複雑な意思決定問題を解決するために広く応用されている。
既存のアプローチは、別々のフィールドに限られており、単一の目的でマルチエージェントの意思決定しか処理できない。
マルチオブジェクト型マルチエージェント強化学習(MOMARL)問題の解法としてMO-mixを提案する。
論文 参考訳(メタデータ) (2026-02-28T16:25:22Z) - Discovering Coordinated Joint Options via Inter-Agent Relative Dynamics [13.0114299827121]
マルチエージェント環境では、エージェント数と結合状態空間の指数関数的成長により、協調した振る舞いがさらに貴重になる。
既存のマルチエージェントオプション発見手法は、疎結合あるいは完全独立な振る舞いを生成することでコーディネーションを犠牲にすることが多い。
本研究では,強い協調行動を発見するために必要な情報を保持しつつ,状態空間を圧縮する連立状態抽象化を提案する。
論文 参考訳(メタデータ) (2025-12-31T12:39:22Z) - Offline Multi-agent Reinforcement Learning via Score Decomposition [51.23590397383217]
オフライン協調型マルチエージェント強化学習(MARL)は、分散シフトによる固有の課題に直面している。
この作業は、オフラインとオンラインのMARL間の分散ギャップを明示的に解決する最初の作業である。
論文 参考訳(メタデータ) (2025-05-09T11:42:31Z) - Group-Aware Coordination Graph for Multi-Agent Reinforcement Learning [19.386588137176933]
GACG(Group-Aware Coordination Graph)は、エージェントペア間の協調を現在の観測結果に基づいて捉えるように設計されている。
GACGは、意思決定中にエージェント間の情報交換のためのグラフ畳み込みにも使われる。
本稿では,StarCraft IIマイクロマネジメントタスクによるGACGの性能評価を行った。
論文 参考訳(メタデータ) (2024-04-17T01:17:10Z) - RACA: Relation-Aware Credit Assignment for Ad-Hoc Cooperation in
Multi-Agent Deep Reinforcement Learning [55.55009081609396]
本稿では、アドホックな協調シナリオにおいてゼロショットの一般化を実現するRACA(Relation-Aware Credit Assignment)と呼ばれる新しい手法を提案する。
RACAは、エージェント間のトポロジ構造を符号化するために、グラフベースのエンコーダ関係を利用する。
提案手法は,StarCraftIIマイクロマネジメントベンチマークとアドホック協調シナリオのベースライン手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-02T03:39:27Z) - CoADNet: Collaborative Aggregation-and-Distribution Networks for
Co-Salient Object Detection [91.91911418421086]
Co-Salient Object Detection (CoSOD)は、2つ以上の関連する画像を含む所定のクエリグループに繰り返し現れる健全なオブジェクトを発見することを目的としている。
課題の1つは、画像間の関係をモデリングし、活用することによって、コ・サリヤ・キューを効果的にキャプチャする方法である。
我々は,複数画像から有能かつ反復的な視覚パターンを捉えるために,エンドツーエンドの協調集約配信ネットワーク(CoADNet)を提案する。
論文 参考訳(メタデータ) (2020-11-10T04:28:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。