Fugu-MT 論文翻訳(概要): Descent-Guided Policy Gradient for Scalable Cooperative Multi-Agent Learning

論文の概要: Descent-Guided Policy Gradient for Scalable Cooperative Multi-Agent Learning

arxiv url: http://arxiv.org/abs/2602.20078v1
Date: Mon, 23 Feb 2026 17:45:08 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.931581
Title: Descent-Guided Policy Gradient for Scalable Cooperative Multi-Agent Learning
Title（参考訳）: スケーラブルな協調型マルチエージェント学習のためのDescent-Guided Policy Gradient
Authors: Shan Yang, Yang Liu,
Abstract要約: Descent-Guided Policy Gradient (DG-PG) は、ノイズフリーなエージェントごとのガイダンス勾配を構築するフレームワークである。 DG-PGは、勾配分散を$(N)$から$mathcalO(1)$に減らし、協調ゲームの平衡を保ち、エージェント非依存のサンプル複雑性を実現する。
参考スコア（独自算出の注目度）: 14.185814237633958
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Scaling cooperative multi-agent reinforcement learning (MARL) is fundamentally limited by cross-agent noise: when agents share a common reward, the actions of all $N$ agents jointly determine each agent's learning signal, so cross-agent noise grows with $N$. In the policy gradient setting, per-agent gradient estimate variance scales as $Θ(N)$, yielding sample complexity $\mathcal{O}(N/ε)$. We observe that many domains -- cloud computing, transportation, power systems -- have differentiable analytical models that prescribe efficient system states. In this work, we propose Descent-Guided Policy Gradient (DG-PG), a framework that constructs noise-free per-agent guidance gradients from these analytical models, decoupling each agent's gradient from the actions of all others. We prove that DG-PG reduces gradient variance from $Θ(N)$ to $\mathcal{O}(1)$, preserves the equilibria of the cooperative game, and achieves agent-independent sample complexity $\mathcal{O}(1/ε)$. On a heterogeneous cloud scheduling task with up to 200 agents, DG-PG converges within 10 episodes at every tested scale -- from $N=5$ to $N=200$ -- directly confirming the predicted scale-invariant complexity, while MAPPO and IPPO fail to converge under identical architectures.
Abstract（参考訳）: エージェントが共通の報酬を共有すると、N$エージェントのアクションが各エージェントの学習信号を共同で決定するので、クロスエージェントノイズはN$で増加する。政策勾配設定では、エージェントごとの勾配推定の分散は$(N)$としてスケールし、サンプル複雑性は$\mathcal{O}(N/ε)$となる。我々は、クラウドコンピューティング、輸送、電力システムといった多くのドメインが、効率的なシステム状態を示す異なる分析モデルを持っていることを観察する。本研究では,これらの分析モデルからノイズフリーなエージェントごとのガイダンス勾配を構築するフレームワークであるDescent-Guided Policy Gradient (DG-PG)を提案する。 DG-PGは、勾配のばらつきを$(N)$から$\mathcal{O}(1)$に減らし、協調ゲームの平衡を保ち、エージェント非依存のサンプル複雑性$\mathcal{O}(1/ε)$を達成することを証明している。最大200エージェントのヘテロジニアスクラウドスケジューリングタスクでは、DG-PGは、N=5$から$N=200$まで、テストスケール毎に10エピソード以内に収束するが、MAPPOとIPPOは同じアーキテクチャで収束しない。

関連論文リスト

Learning Approximate Nash Equilibria in Cooperative Multi-Agent Reinforcement Learning via Mean-Field Subsampling [3.396870608435494]
コミュニケーション制約付きシステムにおいて,グローバルエージェントと$n$同質なローカルエージェントによる協調マルコフゲームについて検討する。これらの近似的最適応答ダイナミクスは、$widetildeO (1/sqrtk)$-approximate Nash Equilibriumに収束することを示す。
論文参考訳（メタデータ） (2026-03-04T06:14:24Z)
Graphon Mean-Field Subsampling for Cooperative Heterogeneous Multi-Agent Reinforcement Learning [19.98996237281175]
我々は、異種エージェントインタラクションを備えたスケーラブルな協調MARLのための、$texttGMFS$, a $textbfG$raphon $textbfM$ean-$textbfF$ield $textbfS$ubsamplingフレームワークを紹介した。相互作用強度に応じて$$エージェントをサブサンプリングすることにより、グラノン重み付き平均場を近似し、サンプルの複雑さでポリシーを学ぶ。我々はロボット協調における数値シミュレーションによる理論の検証を行い、$textttGMFS$がほぼ最適性能を実現することを示す。
論文参考訳（メタデータ） (2026-02-18T05:34:07Z)
Phase Transition for Budgeted Multi-Agent Synergy [41.486076708302456]
マルチエージェントシステムは信頼性を向上させることができるが、固定された推論予算の下では、しばしば役立つか、飽和するか、崩壊するかさえある。我々は、現代のエージェントスタックの3つの束縛制約からこれらの状態を予測する最小限の校正可能な理論を開発する。
論文参考訳（メタデータ） (2026-01-24T05:32:50Z)
Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文参考訳（メタデータ） (2025-12-09T06:52:21Z)
Near-Optimal Online Learning for Multi-Agent Submodular Coordination: Tight Approximation and Communication Efficiency [52.60557300927007]
離散部分モジュラー問題を連続的に最適化するために,$textbfMA-OSMA$アルゴリズムを提案する。また、一様分布を混合することによりKLの発散を効果的に活用する、プロジェクションフリーな$textbfMA-OSEA$アルゴリズムも導入する。我々のアルゴリズムは最先端OSGアルゴリズムによって提供される$(frac11+c)$-approximationを大幅に改善する。
論文参考訳（メタデータ） (2025-02-07T15:57:56Z)
Mean-Field Sampling for Cooperative Multi-Agent Reinforcement Learning [8.400105595501158]
我々は、新しい$textttSUBPLE-MFQ$(textbfSubsample$-$textbfMean-$textbfF$ield-$textbfQ$-learning)と、$n$エージェントを持つシステムの分散ランダム化ポリシーを提案する。我々は、この学習されたポリシーが$tilde$O (1/sqrtk)$の順序の最適ポリシーに収束することを証明する。
論文参考訳（メタデータ） (2024-12-01T03:45:17Z)
Asynchronous Federated Reinforcement Learning with Policy Gradient Updates: Algorithm Design and Convergence Analysis [41.75366066380951]
N$エージェント間の協調によりグローバルモデルを構築する非同期強化学習フレームワークAFedPGを提案する。我々は, AFedPGの理論的大域収束境界を解析し, サンプル複雑性と時間複雑性の両方の観点から, 提案アルゴリズムの利点を特徴づける。各種エージェントを多用した4つの MuJoCo 環境における AFedPG の性能改善を実証的に検証した。
論文参考訳（メタデータ） (2024-04-09T04:21:13Z)
Refined Sample Complexity for Markov Games with Independent Linear Function Approximation [49.5660193419984]
マルコフゲーム(MG)はマルチエージェント強化学習(MARL)の重要なモデルである本稿では、WangらによるAVLPRフレームワークを改良し(2023年)、最適部分ギャップの悲観的推定を設計する。マルチエージェントの呪いに取り組み、最適な$O(T-1/2)収束率を達成し、同時に$textpoly(A_max)$依存性を避ける最初のアルゴリズムを与える。
論文参考訳（メタデータ） (2024-02-11T01:51:15Z)
Adaptive, Doubly Optimal No-Regret Learning in Strongly Monotone and Exp-Concave Games with Gradient Feedback [75.29048190099523]
オンライン勾配降下(OGD)は、強い凸性や単調性仮定の下では二重最適であることが知られている。本稿では,これらのパラメータの事前知識を必要としない完全適応型OGDアルゴリズム,textsfAdaOGDを設計する。
論文参考訳（メタデータ） (2023-10-21T18:38:13Z)
Optimal Horizon-Free Reward-Free Exploration for Linear Mixture MDPs [60.40452803295326]
線形マルコフ決定過程(MDP)を学習するための新たな報酬なしアルゴリズムを提案する。我々のアルゴリズムの核心は、探索駆動の擬似回帰を用いた不確実性重み付き値目標回帰である。我々のアルゴリズムは$tilde O(d2varepsilon-2)$ episodesを探索するだけで、$varepsilon$-optimal policyを見つけることができる。
論文参考訳（メタデータ） (2023-03-17T17:53:28Z)
Model-Based Multi-Agent RL in Zero-Sum Markov Games with Near-Optimal Sample Complexity [67.02490430380415]
モデルに基づくMARLは、Nash平衡値(NE)を求めるために$tilde O(|S||B|(gamma)-3epsilon-2)$のサンプル複雑性を実現する。また、アルゴリズムが報酬に依存しない場合、そのようなサンプル境界は最小値(対数因子まで)であり、アルゴリズムは報酬知識のない遷移サンプルを問合せする。
論文参考訳（メタデータ） (2020-07-15T03:25:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。