論文の概要: Distributionally Robust Cooperative Multi-Agent Reinforcement Learning via Robust Value Factorization
- arxiv url: http://arxiv.org/abs/2602.11437v1
- Date: Wed, 11 Feb 2026 23:24:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.573972
- Title: Distributionally Robust Cooperative Multi-Agent Reinforcement Learning via Robust Value Factorization
- Title(参考訳): ロバスト値分解による分散ロバスト協調多エージェント強化学習
- Authors: Chengrui Qu, Christopher Yeh, Kishan Panaganti, Eric Mazumdar, Adam Wierman,
- Abstract要約: 我々は、各エージェントの強靭な欲求行動が、強靭なチーム・最適関節行動と整合することを要求する原則である分散ロバストIGM(DrIGM)を導入する。
DrIGMは、分散されたgreedy実行と互換性のある、堅牢な個々のアクション値の新たな定義を保っている。
我々は既存のバリューファクターアーキテクチャのDrygM準拠の堅牢なバリエーションを導出する。
- 参考スコア(独自算出の注目度): 29.92519720312025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cooperative multi-agent reinforcement learning (MARL) commonly adopts centralized training with decentralized execution, where value-factorization methods enforce the individual-global-maximum (IGM) principle so that decentralized greedy actions recover the team-optimal joint action. However, the reliability of this recipe in real-world settings remains unreliable due to environmental uncertainties arising from the sim-to-real gap, model mismatch, and system noise. We address this gap by introducing Distributionally robust IGM (DrIGM), a principle that requires each agent's robust greedy action to align with the robust team-optimal joint action. We show that DrIGM holds for a novel definition of robust individual action values, which is compatible with decentralized greedy execution and yields a provable robustness guarantee for the whole system. Building on this foundation, we derive DrIGM-compliant robust variants of existing value-factorization architectures (e.g., VDN/QMIX/QTRAN) that (i) train on robust Q-targets, (ii) preserve scalability, and (iii) integrate seamlessly with existing codebases without bespoke per-agent reward shaping. Empirically, on high-fidelity SustainGym simulators and a StarCraft game environment, our methods consistently improve out-of-distribution performance. Code and data are available at https://github.com/crqu/robust-coMARL.
- Abstract(参考訳): 協調型マルチエージェント強化学習(MARL)は、一般に分散的実行を伴う集中的トレーニングを採用し、そこでは、値分解法が個人-グローバル-最大(IGM)の原則を適用し、分散的欲求行動がチーム-最適関節動作を回復する。
しかし、実環境におけるこのレシピの信頼性は、シム・トゥ・リアルギャップ、モデルミスマッチ、システムノイズなどによる環境不確実性のため、信頼性が低いままである。
我々は、各エージェントの頑健な欲求行動が、ロバストなチーム・最適共同行動と整合することを要求する原則である分散ロバストIGM(DrIGM)を導入することで、このギャップに対処する。
本稿では,DrIGMが,分散された欲求実行と互換性があり,システム全体の堅牢性を保証するような,ロバストな個々の行動値の新たな定義を保っていることを示す。
この基盤を基盤として、既存のバリューファクターアーキテクチャ(例えば、VDN/QMIX/QTRAN)のDryGM準拠の堅牢なバリエーションを導出する。
(i)堅固なQターゲットの列車
(二)スケーラビリティを保ち、
(iii)既存のコードベースとシームレスに統合する。
高忠実度SustainGymシミュレータとStarCraftゲーム環境において,本手法は配電性能を常に改善する。
コードとデータはhttps://github.com/crqu/robust-coMARLで公開されている。
関連論文リスト
- Adaptive Dual-Weighting Framework for Federated Learning via Out-of-Distribution Detection [53.45696787935487]
Federated Learning (FL)は、大規模分散サービスノード間の協調的なモデルトレーニングを可能にする。
実世界のサービス指向デプロイメントでは、異種ユーザ、デバイス、アプリケーションシナリオによって生成されたデータは本質的にIIDではない。
FLoodは、オフ・オブ・ディストリビューション(OOD)検出にインスパイアされた新しいFLフレームワークである。
論文 参考訳(メタデータ) (2026-02-01T05:54:59Z) - Mechanism-Based Intelligence (MBI): Differentiable Incentives for Rational Coordination and Guaranteed Alignment in Multi-Agent Systems [0.0]
メカニズムベースインテリジェンス(MBI: Mechanism-Based Intelligence)は,複数の「脳」の協調からインテリジェンスを再認識するパラダイムである。
経済原理に基づく協調的で信頼性が高くスケーラブルなマルチエージェントインテリジェンスに対して、証明可能な効率、監査可能、一般化可能なアプローチを提供する。
論文 参考訳(メタデータ) (2025-12-22T22:22:13Z) - Beyond Monotonicity: Revisiting Factorization Principles in Multi-Agent Q-Learning [24.476713156225685]
値分解はマルチエージェント強化学習(MARL)における中心的アプローチである
既存の方法は、表現力を制限する単調性制約を強制するか、アルゴリズムの複雑さを犠牲にしてよりソフトなサロゲートを採用するかのどちらかである。
制約のない非単調な分解は、IGG最適解を確実に回復し、一貫して単調な基底線を上回ることを示す。
論文 参考訳(メタデータ) (2025-11-12T22:49:35Z) - Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。
制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。
本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:34:25Z) - Redistributing Rewards Across Time and Agents for Multi-Agent Reinforcement Learning [14.852334980733369]
共用型マルチエージェント強化学習において、各エージェントの共用報酬への貢献を阻害する信用割り当ては重要な課題である。
本稿では、この制約から信用モデリングを分離するアプローチであるTAR(Temporal-Agent Reward Redistribution)を導入する。
本手法は,モデル精度によらず最適ポリシーが維持されることを保証するPBRSと等価であることを示す。
論文 参考訳(メタデータ) (2025-02-07T12:07:57Z) - Safe Multi-Agent Reinforcement Learning with Convergence to Generalized Nash Equilibrium [6.169364905804677]
マルチエージェント強化学習(MARL)は協調作業において顕著な成功を収めた。
MARLエージェントを現実世界のアプリケーションにデプロイすることは、重大な安全性上の課題を示す。
我々は,エージェントが訪れるすべての状態において,安全要件を強制する,$textitstate-wise$制約付き安全なMARLの新たな理論的枠組みを提案する。
複雑な高次元システムにおける実践的展開のために、$textitMulti-Agent Dual Actor-Critic$ (MADAC)を提案する。
論文 参考訳(メタデータ) (2024-11-22T16:08:42Z) - QFree: A Universal Value Function Factorization for Multi-Agent
Reinforcement Learning [2.287186762346021]
マルチエージェント強化学習のための共通値関数分解法QFreeを提案する。
汎用複雑なMARLベンチマーク環境において,QFreeが最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2023-11-01T08:07:16Z) - DQMIX: A Distributional Perspective on Multi-Agent Reinforcement
Learning [122.47938710284784]
協調的マルチエージェントタスクでは、エージェントのチームがアクションを取り、報酬を受け取り、次の状態を観察し、環境と共同で対話する。
既存の価値に基づく多エージェント強化学習手法のほとんどは、個々のQ値とグローバルQ値の期待をモデル化するのみである。
論文 参考訳(メタデータ) (2022-02-21T11:28:00Z) - Convergence Rates of Average-Reward Multi-agent Reinforcement Learning
via Randomized Linear Programming [41.30044824711509]
我々は,グローバル報酬が地域報酬の総和であり,共同政策がエージェントの限界と州全体の可観測性に分解される場合に焦点を当てる。
エージェントが局所的なサドル点問題を解き、局所的な重み付き平均化を行うマルチエージェント拡張を開発する。
準グロブリー最適解を得るためのサンプルの複雑さは、状態空間と作用空間の濃度に対する厳密な依存と一致することを確かめる。
論文 参考訳(メタデータ) (2021-10-22T03:48:41Z) - Locality Matters: A Scalable Value Decomposition Approach for
Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。
本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文 参考訳(メタデータ) (2021-09-22T10:08:15Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z) - Monotonic Value Function Factorisation for Deep Multi-Agent
Reinforcement Learning [55.20040781688844]
QMIXは、中央集権的なエンドツーエンドで分散ポリシーをトレーニングできる新しい価値ベースの手法である。
深層多エージェント強化学習のための新しいベンチマークとして,StarCraft Multi-Agent Challenge (SMAC)を提案する。
論文 参考訳(メタデータ) (2020-03-19T16:51:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。