論文の概要: Efficient and Scalable Deep Reinforcement Learning for Mean Field Control Games
- arxiv url: http://arxiv.org/abs/2501.00052v1
- Date: Sat, 28 Dec 2024 02:04:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 20:43:21.267359
- Title: Efficient and Scalable Deep Reinforcement Learning for Mean Field Control Games
- Title(参考訳): 平均場制御ゲームにおける効率的かつスケーラブルな深部強化学習
- Authors: Nianli Peng, Yilin Wang,
- Abstract要約: 平均場制御ゲーム(MFCG)は、無限に多くの相互作用するエージェントのシステムを解析するための強力な理論的枠組みを提供する。
本稿では,MFCGの近似平衡解に対する拡張性のある深層強化学習(RL)手法を提案する。
- 参考スコア(独自算出の注目度): 16.62770187749295
- License:
- Abstract: Mean Field Control Games (MFCGs) provide a powerful theoretical framework for analyzing systems of infinitely many interacting agents, blending elements from Mean Field Games (MFGs) and Mean Field Control (MFC). However, solving the coupled Hamilton-Jacobi-Bellman and Fokker-Planck equations that characterize MFCG equilibria remains a significant computational challenge, particularly in high-dimensional or complex environments. This paper presents a scalable deep Reinforcement Learning (RL) approach to approximate equilibrium solutions of MFCGs. Building on previous works, We reformulate the infinite-agent stochastic control problem as a Markov Decision Process, where each representative agent interacts with the evolving mean field distribution. We use the actor-critic based algorithm from a previous paper (Angiuli et.al., 2024) as the baseline and propose several versions of more scalable and efficient algorithms, utilizing techniques including parallel sample collection (batching); mini-batching; target network; proximal policy optimization (PPO); generalized advantage estimation (GAE); and entropy regularization. By leveraging these techniques, we effectively improved the efficiency, scalability, and training stability of the baseline algorithm. We evaluate our method on a linear-quadratic benchmark problem, where an analytical solution to the MFCG equilibrium is available. Our results show that some versions of our proposed approach achieve faster convergence and closely approximate the theoretical optimum, outperforming the baseline algorithm by an order of magnitude in sample efficiency. Our work lays the foundation for adapting deep RL to solve more complicated MFCGs closely related to real life, such as large-scale autonomous transportation systems, multi-firm economic competition, and inter-bank borrowing problems.
- Abstract(参考訳): 平均場制御ゲーム(MFCG)は、無限に多くの相互作用するエージェントのシステムを解析し、平均場ゲーム(MFG)と平均場制御(MFC)の要素を混合する強力な理論フレームワークを提供する。
しかし、MFCG平衡を特徴づけるハミルトン・ヤコビ・ベルマン方程式とフォッカー・プランク方程式の結合を解くことは、特に高次元または複素環境において重要な計算課題である。
本稿では,MFCGの近似平衡解に対する拡張性のある深層強化学習(RL)手法を提案する。
従来の研究に基づいて、各代表エージェントが平均場分布と相互作用するマルコフ決定過程として、無限エージェント確率制御問題を再構成する。
本稿では,従来の論文(Angiuli et.al.,2024)から得られたアクタ批判に基づくアルゴリズムをベースラインとして,並列サンプル収集(バッチ),ミニバッチ,ターゲットネットワーク,PPO,GAE,エントロピー正則化といった手法を用いて,よりスケーラブルで効率的なアルゴリズムを提案する。
これらの手法を利用することで、ベースラインアルゴリズムの効率性、スケーラビリティ、およびトレーニング安定性を効果的に改善する。
我々は,MFCG平衡に対する解析解が利用できる線形2次ベンチマーク問題に対して,本手法の評価を行った。
提案手法のいくつかのバージョンは, より高速な収束を実現し, 理論的最適性を近似し, サンプル効率の桁違いでベースラインアルゴリズムより優れていることを示す。
我々の研究は、大規模自律輸送システム、多確認経済競争、銀行間借り問題など、より複雑なMFCGを現実の生活に密接な関係で解決するために、深いRLに適応するための基盤を築き上げている。
関連論文リスト
- LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。
このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-03T18:12:29Z) - Sample-Efficient Multi-Agent RL: An Optimization Perspective [103.35353196535544]
一般関数近似に基づく汎用マルコフゲーム(MG)のためのマルチエージェント強化学習(MARL)について検討した。
汎用MGに対するマルチエージェントデカップリング係数(MADC)と呼ばれる新しい複雑性尺度を導入する。
我々のアルゴリズムは既存の研究に匹敵するサブリニアな後悔を与えることを示す。
論文 参考訳(メタデータ) (2023-10-10T01:39:04Z) - Federated Conditional Stochastic Optimization [110.513884892319]
条件付き最適化は、不変学習タスク、AUPRC、AMLなど、幅広い機械学習タスクで見られる。
本稿では,分散フェデレーション学習のためのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-04T01:47:37Z) - Deep Reinforcement Learning for Infinite Horizon Mean Field Problems in Continuous Spaces [1.4999444543328293]
本稿では,平均場ゲーム(MFG)と平均場制御(MFC)問題を統一的に解くために,強化学習(RL)アルゴリズムを提案する。
提案手法は,パラメータ化スコア関数による平均場分布の表現とアクタ・クリティカル(AC)パラダイムを組み合わせて提案する。
アルゴリズムの修正により、混合平均場制御ゲーム(MFCG)を解くことができる。
論文 参考訳(メタデータ) (2023-09-19T22:37:47Z) - Faster Last-iterate Convergence of Policy Optimization in Zero-Sum
Markov Games [63.60117916422867]
本稿では,対戦型マルチエージェントRLの最も基本的な設定,すなわち2プレーヤゼロサムマルコフゲームに焦点を当てる。
両エージェントから対称更新を施した単一ループポリシー最適化手法を提案し,この手法はエントロピー規則化楽観的乗算重み更新法(OMWU)によって更新される。
我々の収束結果は、最もよく知られた複雑性を改善し、競合するマルコフゲームにおけるポリシー最適化をよりよく理解する。
論文 参考訳(メタデータ) (2022-10-03T16:05:43Z) - Pretrained Cost Model for Distributed Constraint Optimization Problems [37.79733538931925]
分散制約最適化問題(DCOP)は、最適化問題の重要なサブクラスである。
本稿では,DCOPのための新しい非巡回グラフスキーマ表現を提案し,グラフ表現を組み込むためにグラフ注意ネットワーク(GAT)を利用する。
我々のモデルであるGAT-PCMは、幅広いDCOPアルゴリズムを向上するために、オフラインで最適なラベル付きデータで事前訓練される。
論文 参考訳(メタデータ) (2021-12-08T09:24:10Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Compositionality of Linearly Solvable Optimal Control in Networked
Multi-Agent Systems [27.544923751902807]
マルチエージェントシステム(MAS)における学習されたコンポーネントタスクから未学習の複合タスクへの最適制御則の一般化手法について議論する。
提案手法は, 離散時間と連続時間の両方において, 協調MASフレームワーク内で同時に制御動作の構成性と最適性を実現する。
論文 参考訳(メタデータ) (2020-09-28T20:21:48Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。