論文の概要: Mean-Field Diffuser: Scaling Offline MARL to Thousands of Agents
- arxiv url: http://arxiv.org/abs/2605.30190v2
- Date: Sun, 31 May 2026 07:55:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 18:24:16.83561
- Title: Mean-Field Diffuser: Scaling Offline MARL to Thousands of Agents
- Title(参考訳): MARLを何千ものエージェントにスケールする平均フィールドディフューザ
- Authors: Wenhao Li, Xiangfeng Wang, Bo Jin,
- Abstract要約: 軌道分布のワッサーシュタイン空間に軌道計画を持ち上げるフレームワークであるMF-Diffuserを紹介する。
我々は、MF-Diffuserが、最適でないオフラインデータと極端なスケールで、ほとんどの設定において最高のリターンを達成することを示す。
- 参考スコア(独自算出の注目度): 18.152109081372544
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion-based planning has achieved strong results in single-agent offline reinforcement learning, yet scaling to many-agent systems remains intractable due to the curse of dimensionality in the joint trajectory space. We introduce MF-Diffuser, a framework that lifts trajectory planning to the Wasserstein space of trajectory distributions, where the propagation of chaos ensures a small representative subset of agents captures the full population dynamics. Our approach features a value-weighted chaotic entropy objective that reconciles generative fidelity with return maximization, and a hierarchical coarse-to-fine strategy that progressively grows the agent population during denoising. We establish end-to-end suboptimality bounds with four interpretable terms, revealing that mean-field approximation error scales as $O(H^2/\sqrt{N})$ while offline distribution shift provably does not grow with population size $N$, and prove the generated policy is an approximate mean-field Nash equilibrium with explicit convergence guarantees. Experiments on three mean-field RL benchmarks -- spanning stage games, sequential dynamics, and adversarial team competition -- show MF-Diffuser achieves the best return in the majority of settings, with the largest gains on suboptimal offline data and at extreme scales ($N \geq 10^3$).
- Abstract(参考訳): 拡散に基づくプランニングは単一エージェントのオフライン強化学習において大きな成果を上げているが、関節軌道空間における次元性の呪いのため、多エージェントシステムへのスケーリングはいまだに困難である。
MF-Diffuser(英語版)は、軌道分布のワッサーシュタイン空間に軌道計画を持ち上げるフレームワークであり、カオスの伝播により、エージェントの小さな代表部分集合が全人口動態を捉えることを保証している。
提案手法は,帰納的最大化を伴う生成的忠実度を再現する,価値重み付きカオスエントロピー目標と,認知の過程でエージェント人口を徐々に増加させる階層的粗大化戦略を特徴とする。
我々は、平均場近似誤差が$O(H^2/\sqrt{N})$であるのに対して、オフライン分布のシフトは、集団サイズが$N$で確実には成長しないことを示す4つの解釈可能な項で終端から終端までの準最適境界を確立し、生成したポリシーが明示的な収束保証を持つ近似平均場ナッシュ均衡であることを証明した。
3つの平均フィールドRLベンチマーク(ステージゲーム、シーケンシャルダイナミクス、敵チームの競争)の実験は、MF-Diffuserがほとんどの設定において最高のリターンを達成し、最適以下のオフラインデータと極端なスケール(N \geq 10^3$)で最大の利益を得ていることを示している。
関連論文リスト
- Holder Policy Optimisation [26.521180498291717]
textbfHlderPOは、一般的なポリシー最適化フレームワークである。
トークンレベルの確率アグリゲーションをHlder平均を介して統一する。
複数の数学ベンチマークにおいて、最先端の平均精度は54.9%である。
論文 参考訳(メタデータ) (2026-05-12T12:45:03Z) - OpenVLThinkerV2: A Generalist Multimodal Reasoning Model for Multi-domain Visual Tasks [81.07598709704628]
標準線形スケーリングを非線形分布マッチングに置き換える新しいRLトレーニング目標を提案する。
また、高度に堅牢で汎用的なマルチモーダルモデルであるOpenVLThinkerV2を提案する。
論文 参考訳(メタデータ) (2026-04-09T17:59:39Z) - Density-Driven Optimal Control: Convergence Guarantees for Stochastic LTI Multi-Agent Systems [0.0]
本稿では,マルチエージェントシステムにおける分散非一様領域カバレッジ問題に対処する。
密度駆動最適制御(D$2$OC)を提案する。
これは、個々のエージェントダイナミクスと集合分布マッチングのギャップを埋める厳密なラグランジアンフレームワークである。
論文 参考訳(メタデータ) (2026-04-09T17:39:25Z) - Diffusing to Coordinate: Efficient Online Multi-Agent Diffusion Policies [51.24079409973799]
拡散に基づく生成モデルは、オンラインマルチエージェント強化学習(MARL)のニーズを満たすために適切に配置されている
我々は、アンダーライン拡散ポリシーを用いて、最初のアンダーラインオフラインアンダーラインMARLフレームワークを提案する。
私たちのキーとなるイノベーションは、拡張された関節のエントロピーを最大化する、緩和された政策目標です。
論文 参考訳(メタデータ) (2026-02-20T15:38:02Z) - Phase Transition for Budgeted Multi-Agent Synergy [41.486076708302456]
マルチエージェントシステムは信頼性を向上させることができるが、固定された推論予算の下では、しばしば役立つか、飽和するか、崩壊するかさえある。
我々は、現代のエージェントスタックの3つの束縛制約からこれらの状態を予測する最小限の校正可能な理論を開発する。
論文 参考訳(メタデータ) (2026-01-24T05:32:50Z) - Beyond the Dirac Delta: Mitigating Diversity Collapse in Reinforcement Fine-Tuning for Versatile Image Generation [51.305316234962554]
textbfDRIFT(textbfDivetextbfRsity-textbfIncentivized Reinforcement textbfFine-textbfTuning for Versatile Image Generation)を提案する。
DRIFTはタスクアライメントとジェネレーションの多様性に関して優れた優位性を達成し、9.08%!sim! 43.46%$多様性等価アライメントレベルの増加と59.65ドルとなる。
論文 参考訳(メタデータ) (2026-01-18T13:25:43Z) - G$^2$RPO: Granular GRPO for Precise Reward in Flow Models [74.21206048155669]
本稿では,サンプリング方向の高精度かつ包括的な報酬評価を実現する新しいグラニュラー-GRPO(G$2$RPO)フレームワークを提案する。
複数の拡散スケールで計算された利点を集約するマルチグラニュラリティ・アドバンテージ・インテグレーション・モジュールを導入する。
G$2$RPOは既存のフローベースGRPOベースラインを著しく上回る。
論文 参考訳(メタデータ) (2025-10-02T12:57:12Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。