論文の概要: Recurrent Structural Policy Gradient for Partially Observable Mean Field Games
- arxiv url: http://arxiv.org/abs/2602.20141v1
- Date: Mon, 23 Feb 2026 18:53:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.960882
- Title: Recurrent Structural Policy Gradient for Partially Observable Mean Field Games
- Title(参考訳): 部分観測可能な平均場ゲームのための繰り返し構造ポリシーグラディエント
- Authors: Clarisse Wibault, Johannes Forkel, Sebastian Towers, Tiphaine Wibault, Juan Duque, George Whittle, Andreas Schaab, Yucheng Yang, Chiyuan Wang, Michael Osborne, Benjamin Moll, Jakob Foerster,
- Abstract要約: 平均場ゲーム(MFG)は、大集団モデルにおける相互作用をモデル化するための原則的なフレームワークを提供する。
近年のハイブリッド構造法 (HSM) では, モンテカルロロールアウトを共振器に使用し, 予測した戻り値の正確な推定と組み合わせた。
本稿では,公開情報を含む設定のための履歴認識型HSMであるRecurrent Structure Policy Gradient (RSPG)を提案する。
- 参考スコア(独自算出の注目度): 5.689072709401881
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mean Field Games (MFGs) provide a principled framework for modeling interactions in large population models: at scale, population dynamics become deterministic, with uncertainty entering only through aggregate shocks, or common noise. However, algorithmic progress has been limited since model-free methods are too high variance and exact methods scale poorly. Recent Hybrid Structural Methods (HSMs) use Monte Carlo rollouts for the common noise in combination with exact estimation of the expected return, conditioned on those samples. However, HSMs have not been scaled to Partially Observable settings. We propose Recurrent Structural Policy Gradient (RSPG), the first history-aware HSM for settings involving public information. We also introduce MFAX, our JAX-based framework for MFGs. By leveraging known transition dynamics, RSPG achieves state-of-the-art performance as well as an order-of-magnitude faster convergence and solves, for the first time, a macroeconomics MFG with heterogeneous agents, common noise and history-aware policies. MFAX is publicly available at: https://github.com/CWibault/mfax.
- Abstract(参考訳): 平均場ゲーム(MFG)は、大規模な集団モデルにおける相互作用をモデル化するための原則的な枠組みを提供する。
しかし, モデルフリー法は分散度が高く, 精度が低いため, アルゴリズムの進歩は限られている。
近年のハイブリッド構造法 (HSM) では, モンテカルロロールアウトを実測値の正確な推定値と組み合わせて適用している。
しかし、HSMは部分的に観測可能な設定に拡張されていない。
本稿では,公開情報を含む設定のための履歴認識型HSMであるRecurrent Structure Policy Gradient (RSPG)を提案する。
MFGのためのJAXベースのフレームワークであるMFAXも導入しています。
RSPGは、既知の遷移力学を活用することにより、最先端の性能と、より高速な収束を実現し、異種エージェントを持つマクロ経済学のMFG、一般的なノイズ、履歴対応ポリシーを初めて解決する。
MFAXは、https://github.com/CWibault/mfax.comで公開されている。
関連論文リスト
- SoliReward: Mitigating Susceptibility to Reward Hacking and Annotation Noise in Video Generation Reward Models [53.19726629537694]
ビデオ生成モデルと人間の好みのトレーニング後のアライメントは、重要な目標である。
現在のデータ収集パラダイムは、プロンプト内のペアワイズアノテーションに依存しており、ノイズのラベル付けに悩まされている。
ビデオRMトレーニングのための体系的フレームワークであるSoliRewardを提案する。
論文 参考訳(メタデータ) (2025-12-17T14:28:23Z) - Agentic World Modeling for 6G: Near-Real-Time Generative State-Space Reasoning [70.56067503630486]
第6世代(6G)インテリジェンスは、流動的なトークン予測ではなく、想像と選択の能力を校正している、と我々は主張する。
We showed that WM-MS3M cuts mean absolute error (MAE) by 1.69% vs MS3M with 32% less parameters and similar latency, and achieve a 35-80% lower root mean squared error (RMSE) than attention/hybrid baselines with 2.3-4.1x faster inference。
論文 参考訳(メタデータ) (2025-11-04T17:22:22Z) - Galerkin-ARIMA: A Two-Stage Polynomial Regression Framework for Fast Rolling One-Step-Ahead Forecasting [9.953821298617473]
Galerkin-ARIMAは、Galerkinプロジェクション技術と古典的なARIMAモデルを統合する時系列予測フレームワークである。
ガレルキン・アリバは, ローリング予測タスクにおいて, マグニチュード・オブ・マグニチュード・スピードアップを達成しつつ, アリバの予測精度と一致するか, あるいは密接に近似していることを示す。
論文 参考訳(メタデータ) (2025-07-10T06:53:18Z) - Elucidated Rolling Diffusion Models for Probabilistic Weather Forecasting [52.6508222408558]
Eucidated Rolling Diffusion Models (ERDM)を紹介する。
ERDMはEucidated Diffusion Models (EDM) の原理的, 性能的設計とローリング予測構造を統一する最初のフレームワークである
2D Navier-StokesシミュレーションとERA5グローバル気象予報の1.5円解像度では、ERDMはキー拡散ベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2025-06-24T21:44:31Z) - NoiseAR: AutoRegressing Initial Noise Prior for Diffusion Models [50.51982871889886]
NoiseARは拡散モデルに先立つ自己回帰初期雑音の新しい手法である。
空間パッチやトークン上での自己回帰的確率的モデリングタスクとして,初期雑音先行パラメータの生成を定式化する。
実験により,ノイズレーダが初期雑音を発生させることで,サンプル品質が向上し,条件付き入力との整合性が向上することを示した。
論文 参考訳(メタデータ) (2025-06-02T05:32:35Z) - Modular Jump Gaussian Processes [2.5217038883901086]
JGP (Jump GP) は、突然の変化のあるプロセスや出力変数の「ジャンプ」からのデータモデリングのために開発された。
我々は、よりモジュール化された設定を提案し、ジョイント推論を誘発するが、メインのJGPテーマを保持することで、単純化することを目指している。
a) と (b) のそれぞれが、ジャンプを伴うプロセスのモデリングにおいて、個別に劇的な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2025-05-21T14:16:56Z) - ARMAX identification of low rank graphical models [0.6906005491572401]
大規模システムでは複雑な内部関係がしばしば存在し、このような相互接続システムは低階のプロセスによって効果的に記述できる。
既存の下級識別アプローチは、ノイズを明示的に考慮しないことが多く、弱い雑音の下でも無視できない不正確さにつながった。
論文 参考訳(メタデータ) (2025-01-16T15:43:32Z) - One More Step: A Versatile Plug-and-Play Module for Rectifying Diffusion
Schedule Flaws and Enhancing Low-Frequency Controls [77.42510898755037]
One More Step (OMS) は、推論中に単純だが効果的なステップを付加したコンパクトネットワークである。
OMSは画像の忠実度を高め、トレーニングと推論の二分法を調和させ、元のモデルパラメータを保存する。
トレーニングが完了すると、同じ潜在ドメインを持つ様々な事前訓練された拡散モデルが同じOMSモジュールを共有することができる。
論文 参考訳(メタデータ) (2023-11-27T12:02:42Z) - Reinforcement Learning for SBM Graphon Games with Re-Sampling [4.6648272529750985]
我々は,リサンプリング(GGR-S)モデルを用いたグラフゲームに基づく新しい学習フレームワークを開発した。
我々はGGR-Sのダイナミクスを解析し,MP-MFGのダイナミックスへの収束を確立する。
論文 参考訳(メタデータ) (2023-10-25T03:14:48Z) - Riemannian Score-Based Generative Modeling [56.20669989459281]
経験的性能を示すスコアベース生成モデル(SGM)を紹介する。
現在のSGMは、そのデータが平坦な幾何学を持つユークリッド多様体上で支えられているという前提を定めている。
これにより、ロボット工学、地球科学、タンパク質モデリングの応用にこれらのモデルを使用することができない。
論文 参考訳(メタデータ) (2022-02-06T11:57:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。