論文の概要: Learning Mean-Field Games through Mean-Field Actor-Critic Flow
- arxiv url: http://arxiv.org/abs/2510.12180v2
- Date: Thu, 23 Oct 2025 23:53:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.19364
- Title: Learning Mean-Field Games through Mean-Field Actor-Critic Flow
- Title(参考訳): 平均場アクター・クリティカルフローによる平均場ゲーム学習
- Authors: Mo Zhou, Haosheng Zhou, Ruimeng Hu,
- Abstract要約: 我々は平均場ゲーム(MFG)を解くための連続学習力学である平均場アクター・クライブ(MFAC)フローを提案する。
このフレームワークは、偏微分方程式(PDE)が支配する結合勾配に基づく更新を通じて、制御(アクター)、値関数(批判)、分布成分を共同で進化させる。
中心的な革新は最適輸送測地管流(OTGP)であり、ワッサーシュタイン2測地線に沿った平衡方向の分布を駆動している。
- 参考スコア(独自算出の注目度): 16.489956572274927
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose the Mean-Field Actor-Critic (MFAC) flow, a continuous-time learning dynamics for solving mean-field games (MFGs), combining techniques from reinforcement learning and optimal transport. The MFAC framework jointly evolves the control (actor), value function (critic), and distribution components through coupled gradient-based updates governed by partial differential equations (PDEs). A central innovation is the Optimal Transport Geodesic Picard (OTGP) flow, which drives the distribution toward equilibrium along Wasserstein-2 geodesics. We conduct a rigorous convergence analysis using Lyapunov functionals and establish global exponential convergence of the MFAC flow under a suitable timescale. Our results highlight the algorithmic interplay among actor, critic, and distribution components. Numerical experiments illustrate the theoretical findings and demonstrate the effectiveness of the MFAC framework in computing MFG equilibria.
- Abstract(参考訳): 我々は,平均場ゲーム(MFG)を解くための連続学習力学である平均場アクター・クライブ(MFAC)フローを提案し,強化学習と最適輸送の手法を組み合わせた。
MFACフレームワークは、偏微分方程式(PDE)が支配する結合勾配に基づく更新を通じて、制御(アクター)、値関数(批判)、分布成分を共同で進化させる。
中心的な革新は最適輸送測地管流(OTGP)であり、ワッサーシュタイン2測地線に沿った平衡方向の分布を駆動している。
Lyapunov関数を用いた厳密な収束解析を行い、適切な時間スケールでMFACフローのグローバル指数収束を確立する。
その結果,アクター,批評家,配信コンポーネント間のアルゴリズム的相互作用が強調された。
数値実験により,MFG平衡計算におけるMFACフレームワークの有効性が示された。
関連論文リスト
- Iterative Refinement of Flow Policies in Probability Space for Online Reinforcement Learning [56.47948583452555]
固定ステップのEulerスキームによるフローマッチング推論プロセスの離散化は,最適輸送から変化するJordan-Kinderlehrer-Otto原理と整合する,というキーインサイトに基づいて,SWFP(Stepwise Flow Policy)フレームワークを紹介した。
SWFPは、大域的な流れを、プロキシメート分布間の小さな漸進的な変換の列に分解する。
この分解は、小さな流れブロックのカスケードを介して事前訓練された流れを微調整する効率的なアルゴリズムを導き、大きな利点をもたらす。
論文 参考訳(メタデータ) (2025-10-17T07:43:51Z) - Efficient and Scalable Deep Reinforcement Learning for Mean Field Control Games [16.62770187749295]
平均場制御ゲーム(MFCG)は、無限に多くの相互作用するエージェントのシステムを解析するための強力な理論的枠組みを提供する。
本稿では,MFCGの近似平衡解に対する拡張性のある深層強化学習(RL)手法を提案する。
論文 参考訳(メタデータ) (2024-12-28T02:04:53Z) - Interaction-Force Transport Gradient Flows [45.05400562268213]
本稿では,非負測度および確率測度に対する新しい勾配流散逸幾何学を提案する。
We propose the interaction-force transport (IFT) gradient flow, we proposed the interaction-force transport (IFT) gradient flow。
論文 参考訳(メタデータ) (2024-05-27T11:46:14Z) - Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - Over-the-Air Federated Learning and Optimization [52.5188988624998]
エッジ・ザ・エア計算(AirComp)によるフェデレーション学習(FL)に焦点を当てる。
本稿では,AirComp ベースの FedAvg (AirFedAvg) アルゴリズムの凸および非凸条件下での収束について述べる。
エッジデバイス(モデル、勾配、モデル差など)で送信できるローカルアップデートの種類によって、AirFedAvgで送信するとアグリゲーションエラーが発生する可能性がある。
さらに、より実用的な信号処理方式を検討し、通信効率を改善し、これらの信号処理方式によって引き起こされるモデル集約誤差の異なる形式に収束解析を拡張する。
論文 参考訳(メタデータ) (2023-10-16T05:49:28Z) - Deep Reinforcement Learning for Infinite Horizon Mean Field Problems in Continuous Spaces [1.4999444543328293]
本稿では,平均場ゲーム(MFG)と平均場制御(MFC)問題を統一的に解くために,強化学習(RL)アルゴリズムを提案する。
提案手法は,パラメータ化スコア関数による平均場分布の表現とアクタ・クリティカル(AC)パラダイムを組み合わせて提案する。
アルゴリズムの修正により、混合平均場制御ゲーム(MFCG)を解くことができる。
論文 参考訳(メタデータ) (2023-09-19T22:37:47Z) - Transport meets Variational Inference: Controlled Monte Carlo Diffusions [5.5654189024307685]
本稿では,経路空間上の発散に着目したサンプリングおよび生成モデリングのための原理的かつ体系的な枠組みを提案する。
ベイズ計算のためのemphControlled Monte Carlo Diffusion sampler (CMCD)を開発した。
論文 参考訳(メタデータ) (2023-07-03T14:28:36Z) - Vertical Federated Learning over Cloud-RAN: Convergence Analysis and
System Optimization [82.12796238714589]
高速かつ正確なモデルアグリゲーションを実現するために,クラウド無線アクセスネットワーク(Cloud-RAN)ベースの垂直FLシステムを提案する。
アップリンクとダウンリンクの両方の伝送を考慮した垂直FLアルゴリズムの収束挙動を特徴付ける。
我々は,連続凸近似と代替凸探索に基づくシステム最適化アルゴリズムを開発した,連系トランシーバとフロントホール量子化設計によるシステム最適化フレームワークを構築した。
論文 参考訳(メタデータ) (2023-05-04T09:26:03Z) - Improving and generalizing flow-based generative models with minibatch
optimal transport [90.01613198337833]
連続正規化フロー(CNF)のための一般条件流整合(CFM)技術を導入する。
CFMは、拡散モデルのフローをトレーニングするために使用されるような安定した回帰目標を特徴としているが、決定論的フローモデルの効率的な推論を好んでいる。
我々の目的の変種は最適輸送CFM (OT-CFM) であり、訓練がより安定し、より高速な推論をもたらすより単純なフローを生成する。
論文 参考訳(メタデータ) (2023-02-01T14:47:17Z) - Efficient CDF Approximations for Normalizing Flows [64.60846767084877]
正規化フローの微分同相性に基づいて、閉領域上の累積分布関数(CDF)を推定する。
一般的なフローアーキテクチャとUCIデータセットに関する実験は,従来の推定器と比較して,サンプル効率が著しく向上したことを示している。
論文 参考訳(メタデータ) (2022-02-23T06:11:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。