Fugu-MT 論文翻訳(概要): Mean-Field Reinforcement Learning without Synchrony

論文の概要: Mean-Field Reinforcement Learning without Synchrony

arxiv url: http://arxiv.org/abs/2602.18026v1
Date: Fri, 20 Feb 2026 06:42:08 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-23 18:01:41.25378
Title: Mean-Field Reinforcement Learning without Synchrony
Title（参考訳）: 同期のない平均場強化学習
Authors: Shan Yang,
Abstract要約: 平均場強化学習は、各エージェントの他者への依存を1つの要約統計量(平均行動)に減らし、大集団にスケールする。既存のMF-RL理論は平均作用に基づいて構築され、$に拡張されない。人口分布のスクラッチから$$$のテンポラル平均場(Temporal Mean Field)フレームワークを構築し,全同期から純粋にシーケンシャルな意思決定までの全スペクトルを網羅した。
参考スコア（独自算出の注目度）: 11.907264672363718
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Mean-field reinforcement learning (MF-RL) scales multi-agent RL to large populations by reducing each agent's dependence on others to a single summary statistic -- the mean action. However, this reduction requires every agent to act at every time step; when some agents are idle, the mean action is simply undefined. Addressing asynchrony therefore requires a different summary statistic -- one that remains defined regardless of which agents act. The population distribution $μ\in Δ(\mathcal{O})$ -- the fraction of agents at each observation -- satisfies this requirement: its dimension is independent of $N$, and under exchangeability it fully determines each agent's reward and transition. Existing MF-RL theory, however, is built on the mean action and does not extend to $μ$. We therefore construct the Temporal Mean Field (TMF) framework around the population distribution $μ$ from scratch, covering the full spectrum from fully synchronous to purely sequential decision-making within a single theory. We prove existence and uniqueness of TMF equilibria, establish an $O(1/\sqrt{N})$ finite-population approximation bound that holds regardless of how many agents act per step, and prove convergence of a policy gradient algorithm (TMF-PG) to the unique equilibrium. Experiments on a resource selection game and a dynamic queueing game confirm that TMF-PG achieves near-identical performance whether one agent or all $N$ act per step, with approximation error decaying at the predicted $O(1/\sqrt{N})$ rate.
Abstract（参考訳）: 平均場強化学習(MF-RL)は、各エージェントの依存度を1つの要約統計量に減らし、多エージェントRLを大集団に拡大する。しかし、この減少はすべてのエージェントが毎回作用する必要がある。エージェントがアイドル状態にある場合、平均アクションは単に定義されていない。そのため、非同期に対処するには異なる要約統計量を必要とする。人口分布$μ\in Δ(\mathcal{O})$ -- 各観測におけるエージェントの割合 -- は、この要件を満たす:その次元は$N$とは独立であり、交換性の下では、各エージェントの報酬と遷移を完全に決定する。しかし、既存のMF-RL理論は平均作用に基づいて構築され、$μ$まで拡張されない。したがって、スクラッチからμ$の人口分布を囲む時間平均場(TMF)フレームワークを構築し、完全な同期から純粋にシーケンシャルな意思決定までの全スペクトルを1つの理論でカバーする。我々は、TMF平衡の存在と一意性を証明し、ステップごとに作用するエージェントの数に関係なく、$O(1/\sqrt{N})$有限人口近似を定め、一意平衡へのポリシー勾配アルゴリズム(TMF-PG)の収束を証明した。資源選択ゲームと動的キューゲームの実験により、TMF-PGは、予測された$O(1/\sqrt{N})$レートで近似誤差が減衰する一方のエージェントまたは全ての$N$動作が、ステップ毎にほぼ同一のパフォーマンスを達成することを確認した。

関連論文リスト

Descent-Guided Policy Gradient for Scalable Cooperative Multi-Agent Learning [14.185814237633958]
Descent-Guided Policy Gradient (DG-PG) は、ノイズフリーなエージェントごとのガイダンス勾配を構築するフレームワークである。 DG-PGは、勾配分散を$(N)$から$mathcalO(1)$に減らし、協調ゲームの平衡を保ち、エージェント非依存のサンプル複雑性を実現する。
論文参考訳（メタデータ） (2026-02-23T17:45:08Z)
Graphon Mean-Field Subsampling for Cooperative Heterogeneous Multi-Agent Reinforcement Learning [19.98996237281175]
我々は、異種エージェントインタラクションを備えたスケーラブルな協調MARLのための、$texttGMFS$, a $textbfG$raphon $textbfM$ean-$textbfF$ield $textbfS$ubsamplingフレームワークを紹介した。相互作用強度に応じて$$エージェントをサブサンプリングすることにより、グラノン重み付き平均場を近似し、サンプルの複雑さでポリシーを学ぶ。我々はロボット協調における数値シミュレーションによる理論の検証を行い、$textttGMFS$がほぼ最適性能を実現することを示す。
論文参考訳（メタデータ） (2026-02-18T05:34:07Z)
Socially-Weighted Alignment: A Game-Theoretic Framework for Multi-Agent LLM Systems [17.658093330392052]
本稿では,エージェントの個人目的と集団福祉の推定を補間することにより,推論時間決定の修正を行うゲーム理論フレームワークを提案する。以上の結果から, SWAは, 過負荷下での需要増加のために, エージェントがもはや限界的なインセンティブを持たない, 臨界しきい値$*=(n-)/(n-1)$を誘導することを示した。
論文参考訳（メタデータ） (2026-02-16T05:17:58Z)
Information Fidelity in Tool-Using LLM Agents: A Martingale Analysis of the Model Context Protocol [69.11739400975445]
モデルコンテキストプロトコル(MCP)エージェントにおけるエラー蓄積を解析するための最初の理論的枠組みを紹介する。累積歪みが線形成長と高確率偏差を$O(sqrtT)$で表すことを示す。主な発見は、意味重み付けは歪みを80%減らし、周期的再接地は、エラー制御の約9ステップごとに十分である。
論文参考訳（メタデータ） (2026-02-10T21:08:53Z)
Phase Transition for Budgeted Multi-Agent Synergy [41.486076708302456]
マルチエージェントシステムは信頼性を向上させることができるが、固定された推論予算の下では、しばしば役立つか、飽和するか、崩壊するかさえある。我々は、現代のエージェントスタックの3つの束縛制約からこれらの状態を予測する最小限の校正可能な理論を開発する。
論文参考訳（メタデータ） (2026-01-24T05:32:50Z)
Independent RL for Cooperative-Competitive Agents: A Mean-Field Perspective [11.603515105957461]
強化学習(RL:Reinforcement Learning)とは、各チーム内で協力するが、異なるチーム間での一般競争があるように、チームにグループ化されるエージェントのひとつです。
論文参考訳（メタデータ） (2024-03-17T21:11:55Z)
Refined Sample Complexity for Markov Games with Independent Linear Function Approximation [49.5660193419984]
マルコフゲーム(MG)はマルチエージェント強化学習(MARL)の重要なモデルである本稿では、WangらによるAVLPRフレームワークを改良し(2023年)、最適部分ギャップの悲観的推定を設計する。マルチエージェントの呪いに取り組み、最適な$O(T-1/2)収束率を達成し、同時に$textpoly(A_max)$依存性を避ける最初のアルゴリズムを与える。
論文参考訳（メタデータ） (2024-02-11T01:51:15Z)
Model-Based RL for Mean-Field Games is not Statistically Harder than Single-Agent RL [57.745700271150454]
モデルに基づく関数近似を用いた平均フィールドゲーム(MFG)における強化学習のサンプル複雑性について検討した。本稿では、モデルクラスの複雑性を特徴付けるためのより効果的な概念である部分モデルベースエルダー次元(P-MBED)を紹介する。
論文参考訳（メタデータ） (2024-02-08T14:54:47Z)
Adaptive, Doubly Optimal No-Regret Learning in Strongly Monotone and Exp-Concave Games with Gradient Feedback [75.29048190099523]
オンライン勾配降下(OGD)は、強い凸性や単調性仮定の下では二重最適であることが知られている。本稿では,これらのパラメータの事前知識を必要としない完全適応型OGDアルゴリズム,textsfAdaOGDを設計する。
論文参考訳（メタデータ） (2023-10-21T18:38:13Z)
Towards Faster Non-Asymptotic Convergence for Diffusion-Based Generative Models [49.81937966106691]
我々は拡散モデルのデータ生成過程を理解するための非漸近理論のスイートを開発する。従来の研究とは対照的に,本理論は基本的だが多目的な非漸近的アプローチに基づいて開発されている。
論文参考訳（メタデータ） (2023-06-15T16:30:08Z)
Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。コア最適化問題の実用的なパラメトリゼーションを提供する。
論文参考訳（メタデータ） (2021-07-08T18:01:02Z)
Model Free Reinforcement Learning Algorithm for Stationary Mean field Equilibrium for Multiple Types of Agents [43.21120427632336]
エージェントが複数の型を持つ無限大地平線上のマルチエージェント戦略相互作用を考える。各エージェントはプライベートな状態を持ち、状態は異なるタイプのエージェントの状態の分布とエージェントのアクションに応じて進化する。このような相互作用が、ディフェンダーや敵のサイバー攻撃をどうモデル化するかを示す。
論文参考訳（メタデータ） (2020-12-31T00:12:46Z)
VCG Mechanism Design with Unknown Agent Values under Stochastic Bandit Feedback [104.06766271716774]
本研究では,エージェントが自己の価値を知らない場合に,マルチラウンドの福祉最大化機構設計問題について検討する。まず、福祉に対する後悔の3つの概念、各エージェントの個々のユーティリティ、メカニズムの3つの概念を定義します。当社のフレームワークは価格体系を柔軟に制御し、エージェントと販売者の後悔のトレードオフを可能にする。
論文参考訳（メタデータ） (2020-04-19T18:00:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。