論文の概要: Convergence of Actor-Critic Learning for Mean Field Games and Mean Field Control in Continuous Spaces
- arxiv url: http://arxiv.org/abs/2511.06812v1
- Date: Mon, 10 Nov 2025 07:55:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.145717
- Title: Convergence of Actor-Critic Learning for Mean Field Games and Mean Field Control in Continuous Spaces
- Title(参考訳): 平均場ゲームにおけるアクター批判学習の収束と連続空間における平均場制御
- Authors: Jean-Pierre Fouque, Mathieu Laurière, Mengrui Zhang,
- Abstract要約: 我々は[Angiuli et al., 2023a]に提示されたディープアクター・クリティック・強化学習アルゴリズムの収束を確立する。
このアルゴリズムは、2つの学習率の比率に応じて平均場ゲーム(MFG)または平均場制御(MFC)問題の解を提供する。
- 参考スコア(独自算出の注目度): 2.130420850671229
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We establish the convergence of the deep actor-critic reinforcement learning algorithm presented in [Angiuli et al., 2023a] in the setting of continuous state and action spaces with an infinite discrete-time horizon. This algorithm provides solutions to Mean Field Game (MFG) or Mean Field Control (MFC) problems depending on the ratio between two learning rates: one for the value function and the other for the mean field term. In the MFC case, to rigorously identify the limit, we introduce a discretization of the state and action spaces, following the approach used in the finite-space case in [Angiuli et al., 2023b]. The convergence proofs rely on a generalization of the two-timescale framework introduced in [Borkar, 1997]. We further extend our convergence results to Mean Field Control Games, which involve locally cooperative and globally competitive populations. Finally, we present numerical experiments for linear-quadratic problems in one and two dimensions, for which explicit solutions are available.
- Abstract(参考訳): 本研究では, [Angiuli et al , 2023a] に提示される深いアクター・クリティック・強化学習アルゴリズムを, 無限の離散時間地平線を持つ連続状態と行動空間の設定において収束させる。
このアルゴリズムは、2つの学習率(値関数の場合と平均フィールド項の場合)の比に依存する平均場ゲーム(MFG)または平均場制御(MFC)問題の解を提供する。
MFCの場合、極限を厳密に特定するために、[Angiuli et al , 2023b] の有限空間の場合で用いられるアプローチに従って、状態と作用空間の離散化を導入する。
収束証明は[Borkar, 1997]で導入された2時間スケールのフレームワークの一般化に依存する。
我々はさらに,地域協力型およびグローバル競争型人口を含む平均場制御ゲーム(Mean Field Control Games)に収束結果を拡張した。
最後に, 1次元と2次元の線形二乗問題に対する数値実験を行い, 明確な解が得られた。
関連論文リスト
- Ordering-based Conditions for Global Convergence of Policy Gradient Methods [73.6366483406033]
線形関数近似を持つ有限腕バンディットに対して、ポリシー勾配法(PG)のグローバル収束はポリシー更新と表現の間の関係性に依存することを証明した。
全体として、これらの観測は線形関数近似の下でのPG法の大域収束を特徴づけるための適切な量として、疑問近似誤差を訴えている。
論文 参考訳(メタデータ) (2025-04-02T21:06:28Z) - Analysis of Multiscale Reinforcement Q-Learning Algorithms for Mean Field Control Games [2.3833208322103605]
MFCG(Mean Field Control Games)は、多数のエージェント間の競争ゲームである。
MFCGを解くために,3次元強化Q-Learning (RL) アルゴリズムの収束性を証明する。
論文 参考訳(メタデータ) (2024-05-27T10:01:52Z) - Deep Reinforcement Learning for Infinite Horizon Mean Field Problems in Continuous Spaces [1.4999444543328293]
本稿では,平均場ゲーム(MFG)と平均場制御(MFC)問題を統一的に解くために,強化学習(RL)アルゴリズムを提案する。
提案手法は,パラメータ化スコア関数による平均場分布の表現とアクタ・クリティカル(AC)パラダイムを組み合わせて提案する。
アルゴリズムの修正により、混合平均場制御ゲーム(MFCG)を解くことができる。
論文 参考訳(メタデータ) (2023-09-19T22:37:47Z) - Context-aware Domain Adaptation for Time Series Anomaly Detection [69.3488037353497]
時系列異常検出は、幅広い現実世界の応用において難しい課題である。
近年,類似分野の知識を活用するため,時系列領域適応への取り組みが進められている。
本研究では,コンテキストサンプリングと異常検出を併用した共同学習手法を提案する。
論文 参考訳(メタデータ) (2023-04-15T02:28:58Z) - Tight Guarantees for Interactive Decision Making with the
Decision-Estimation Coefficient [51.37720227675476]
我々は、決定推定係数の新たな変種を導入し、それを用いて、3つの面における事前の作業を改善する新しい下界を導出する。
我々は同じ量でスケールした後悔について上界を与え、フォスター等における上界と下界の間のギャップの1つを除いて全てを閉じる。
この結果は、後悔のフレームワークとPACフレームワークの両方に適用され、我々が期待するいくつかの新しい分析とアルゴリズム設計技術を利用して、より広範な利用が期待できる。
論文 参考訳(メタデータ) (2023-01-19T18:24:08Z) - Approximation of optimization problems with constraints through kernel
Sum-Of-Squares [77.27820145069515]
我々は、点的不等式が非負の kSoS 関数のクラス内で等式となることを示す。
また, 等式制約に焦点をあてることで, 散乱不等式を用いることで, 制約のサンプリングにおける次元性の呪いを軽減することができることを示す。
論文 参考訳(メタデータ) (2023-01-16T10:30:04Z) - Lifting the Convex Conjugate in Lagrangian Relaxations: A Tractable
Approach for Continuous Markov Random Fields [53.31927549039624]
断片的な離散化は既存の離散化問題と矛盾しないことを示す。
この理論を2つの画像のマッチング問題に適用する。
論文 参考訳(メタデータ) (2021-07-13T12:31:06Z) - Cross-Domain Grouping and Alignment for Domain Adaptive Semantic
Segmentation [74.3349233035632]
深層畳み込みニューラルネットワーク(CNN)内のソースドメインとターゲットドメインにセマンティックセグメンテーションネットワークを適用する既存の技術は、対象ドメイン自身や推定カテゴリ内のクラス間変異を考慮していない。
学習可能なクラスタリングモジュールと、クロスドメイングルーピングとアライメントと呼ばれる新しいドメイン適応フレームワークを導入する。
本手法はセマンティクスセグメンテーションにおける適応性能を一貫して向上させ,様々なドメイン適応設定において最先端を上回っている。
論文 参考訳(メタデータ) (2020-12-15T11:36:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。