論文の概要: Beyond Monotonicity: Revisiting Factorization Principles in Multi-Agent Q-Learning
- arxiv url: http://arxiv.org/abs/2511.09792v1
- Date: Fri, 14 Nov 2025 01:10:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.488916
- Title: Beyond Monotonicity: Revisiting Factorization Principles in Multi-Agent Q-Learning
- Title(参考訳): モノトニック性を超えて - マルチエージェントQ-ラーニングにおける因子化の原則の再検討
- Authors: Tianmeng Hu, Yongzheng Cui, Rui Tang, Biao Luo, Ke Li,
- Abstract要約: 値分解はマルチエージェント強化学習(MARL)における中心的アプローチである
既存の方法は、表現力を制限する単調性制約を強制するか、アルゴリズムの複雑さを犠牲にしてよりソフトなサロゲートを採用するかのどちらかである。
制約のない非単調な分解は、IGG最適解を確実に回復し、一貫して単調な基底線を上回ることを示す。
- 参考スコア(独自算出の注目度): 24.476713156225685
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Value decomposition is a central approach in multi-agent reinforcement learning (MARL), enabling centralized training with decentralized execution by factorizing the global value function into local values. To ensure individual-global-max (IGM) consistency, existing methods either enforce monotonicity constraints, which limit expressive power, or adopt softer surrogates at the cost of algorithmic complexity. In this work, we present a dynamical systems analysis of non-monotonic value decomposition, modeling learning dynamics as continuous-time gradient flow. We prove that, under approximately greedy exploration, all zero-loss equilibria violating IGM consistency are unstable saddle points, while only IGM-consistent solutions are stable attractors of the learning dynamics. Extensive experiments on both synthetic matrix games and challenging MARL benchmarks demonstrate that unconstrained, non-monotonic factorization reliably recovers IGM-optimal solutions and consistently outperforms monotonic baselines. Additionally, we investigate the influence of temporal-difference targets and exploration strategies, providing actionable insights for the design of future value-based MARL algorithms.
- Abstract(参考訳): 値分解はマルチエージェント強化学習(MARL)における中心的なアプローチであり、グローバル値関数を局所値に分解することで、分散実行による集中的なトレーニングを可能にする。
個々のグローバル-マックス(IGM)の一貫性を確保するために、既存の手法は表現力を制限する単調性制約を強制するか、アルゴリズムの複雑さを犠牲にしてよりソフトなサロゲートを採用する。
本研究では,非単調値分解の力学系解析を行い,学習力学を連続時間勾配流としてモデル化する。
IGMの一貫性に反する全てのゼロ損失平衡が不安定なサドル点であり、IGMに一貫性のある解のみが学習力学の安定した引力であることを示す。
合成行列ゲームと挑戦的MARLベンチマークの両方に関する広範な実験は、制約のない非単調な分解がIGG最適解を確実に回復し、一律に単調なベースラインを上回ることを示した。
さらに、時間差目標と探索戦略の影響について検討し、将来の価値に基づくMARLアルゴリズムの設計に実用的な洞察を提供する。
関連論文リスト
- Harnessing Consistency for Robust Test-Time LLM Ensemble [88.55393815158608]
CoREは、堅牢なLLMアンサンブルにモデル一貫性を利用するプラグイン・アンド・プレイ技術である。
トークンレベルの一貫性は、ダウンウェイト不確実なトークンにローパスフィルタを適用することで、きめ細かい不一致を捕捉する。
モデルレベルの一貫性は、自己自信の高いモデル出力を促進することで、グローバルな合意をモデル化する。
論文 参考訳(メタデータ) (2025-10-12T04:18:45Z) - WSM: Decay-Free Learning Rate Schedule via Checkpoint Merging for LLM Pre-training [64.0932926819307]
本稿では,学習速度減衰とモデルマージの正式な関係を確立するフレームワークであるWarmup-Stable and Merge(WSM)を紹介する。
WSMは様々な崩壊戦略をエミュレートするための統一された理論基盤を提供する。
私たちのフレームワークは、複数のベンチマークで広く採用されているWarmup-Stable-Decay(WSD)アプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-07-23T16:02:06Z) - Offline Multi-agent Reinforcement Learning via Score Decomposition [51.23590397383217]
オフライン協調型マルチエージェント強化学習(MARL)は、分散シフトによる固有の課題に直面している。
この作業は、オフラインとオンラインのMARL間の分散ギャップを明示的に解決する最初の作業である。
論文 参考訳(メタデータ) (2025-05-09T11:42:31Z) - Small-Scale-Fading-Aware Resource Allocation in Wireless Federated Learning [27.931985523249352]
本稿では,マルチエージェント強化学習(MARL)フレームワークを用いた小規模フェイディング対応リソース割り当て戦略を提案する。
我々は、FLアルゴリズムの一段階収束境界を確立し、リソース割り当て問題を分散化された部分的に観測可能なマルコフ決定プロセスとして定式化する。
我々のフレームワークでは、各クライアントは、各コヒーレンス時間スロット内のスペクトルと電力割り当てを動的に決定するエージェントとして機能する。
論文 参考訳(メタデータ) (2025-05-06T13:41:59Z) - Finite-Time Convergence and Sample Complexity of Actor-Critic Multi-Objective Reinforcement Learning [20.491176017183044]
本稿では多目的強化学習(MORL)問題に取り組む。
MOACと呼ばれる革新的なアクター批判アルゴリズムを導入し、競合する報酬信号間のトレードオフを反復的に行うことでポリシーを見出す。
論文 参考訳(メタデータ) (2024-05-05T23:52:57Z) - Sample-Efficient Robust Multi-Agent Reinforcement Learning in the Face of Environmental Uncertainty [40.55653383218379]
本研究は,ロバストなマルコフゲーム(RMG)の学習に焦点を当てる。
ゲーム理論平衡の様々な概念の頑健な変種を学習するために,有限サンプルの複雑性を保証するサンプル効率モデルベースアルゴリズム(DRNVI)を提案する。
論文 参考訳(メタデータ) (2024-04-29T17:51:47Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - QFree: A Universal Value Function Factorization for Multi-Agent
Reinforcement Learning [2.287186762346021]
マルチエージェント強化学習のための共通値関数分解法QFreeを提案する。
汎用複雑なMARLベンチマーク環境において,QFreeが最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2023-11-01T08:07:16Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。