論文の概要: Deep Reinforcement Learning for Infinite Horizon Mean Field Problems in Continuous Spaces
- arxiv url: http://arxiv.org/abs/2309.10953v2
- Date: Thu, 2 May 2024 21:20:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-06 18:06:46.063894
- Title: Deep Reinforcement Learning for Infinite Horizon Mean Field Problems in Continuous Spaces
- Title(参考訳): 連続空間における無限水平平均場問題に対する深部強化学習
- Authors: Andrea Angiuli, Jean-Pierre Fouque, Ruimeng Hu, Alan Raydan,
- Abstract要約: 本稿では,平均場ゲーム(MFG)と平均場制御(MFC)問題を統一的に解くために,強化学習(RL)アルゴリズムを提案する。
提案手法は,パラメータ化スコア関数による平均場分布の表現とアクタ・クリティカル(AC)パラダイムを組み合わせて提案する。
アルゴリズムの修正により、混合平均場制御ゲーム(MFCG)を解くことができる。
- 参考スコア(独自算出の注目度): 1.4999444543328293
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present the development and analysis of a reinforcement learning (RL) algorithm designed to solve continuous-space mean field game (MFG) and mean field control (MFC) problems in a unified manner. The proposed approach pairs the actor-critic (AC) paradigm with a representation of the mean field distribution via a parameterized score function, which can be efficiently updated in an online fashion, and uses Langevin dynamics to obtain samples from the resulting distribution. The AC agent and the score function are updated iteratively to converge, either to the MFG equilibrium or the MFC optimum for a given mean field problem, depending on the choice of learning rates. A straightforward modification of the algorithm allows us to solve mixed mean field control games (MFCGs). The performance of our algorithm is evaluated using linear-quadratic benchmarks in the asymptotic infinite horizon framework.
- Abstract(参考訳): 連続空間平均場ゲーム(MFG)と平均場制御(MFC)問題を統一的に解くために設計された強化学習(RL)アルゴリズムの開発と解析を行う。
提案手法は,パラメータ化スコア関数による平均場分布の表現とアクタ・クリティカル(AC)パラダイムを組み合わせ,オンライン手法で効率的に更新し,Langevin Dynamics を用いて結果の分布からサンプルを得る。
ACエージェントとスコア関数は、学習率の選択に応じて、所定の平均場問題に対してMFG平衡またはMFC最適化のいずれかに収束するように反復的に更新される。
アルゴリズムの簡単な修正により、混合平均場制御ゲーム(MFCG)を解くことができる。
このアルゴリズムの性能は漸近無限地平線フレームワークにおける線形四分法ベンチマークを用いて評価する。
関連論文リスト
- Unified continuous-time q-learning for mean-field game and mean-field control problems [4.416317245952636]
分離型(非結合型Iq-関数)で統合されたq-関数を導入し、値関数とともにそのマーチンゲール特性を確立する。
我々は,平均場ゲーム(MFG)と平均場制御(MFC)の両問題に対して,一貫したQ-ラーニングアルゴリズムを考案した。
ジャンプ拡散設定におけるいくつかの例では、LQ フレームワーク内外において、分離した Iq-函数と値関数の正確なパラメータ化が得られる。
論文 参考訳(メタデータ) (2024-07-05T14:06:59Z) - Fast Value Tracking for Deep Reinforcement Learning [7.648784748888187]
強化学習(Reinforcement Learning, RL)は、環境と対話するエージェントを作成することによって、シーケンシャルな意思決定問題に取り組む。
既存のアルゴリズムはしばしばこれらの問題を静的とみなし、期待される報酬を最大化するためにモデルパラメータの点推定に重点を置いている。
我々の研究は、カルマンパラダイムを活用して、Langevinized Kalman TemporalTDと呼ばれる新しい定量化およびサンプリングアルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-03-19T22:18:19Z) - Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - Ensemble Kalman Filtering Meets Gaussian Process SSM for Non-Mean-Field and Online Inference [47.460898983429374]
我々は,非平均場(NMF)変動推定フレームワークにアンサンブルカルマンフィルタ(EnKF)を導入し,潜在状態の後方分布を近似する。
EnKFとGPSSMのこの新しい結婚は、変分分布の学習における広範なパラメータ化の必要性をなくすだけでなく、エビデンスの下限(ELBO)の解釈可能でクローズドな近似を可能にする。
得られたEnKF支援オンラインアルゴリズムは、データ適合精度を確保しつつ、モデル正規化を組み込んで過度適合を緩和し、目的関数を具現化する。
論文 参考訳(メタデータ) (2023-12-10T15:22:30Z) - PARL: A Unified Framework for Policy Alignment in Reinforcement Learning from Human Feedback [106.63518036538163]
我々は、強化学習におけるポリシーアライメントの最近強調された重要な問題に対処するために、新しい統合された二段階最適化ベースのフレームワーク、textsfPARLを提案する。
本フレームワークは, 上向きの目標(逆設計)の分布を, 下向きの最適変数で明示的にパラメータ化することにより, これらの問題に対処する。
その結果,提案したtextsfPARL が RL のアライメントの懸念に対処できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-03T18:03:44Z) - Stochastic Unrolled Federated Learning [85.6993263983062]
本稿では,UnRolled Federated Learning (SURF)を導入する。
提案手法は,この拡張における2つの課題,すなわち,非学習者へのデータセット全体の供給の必要性と,フェデレート学習の分散的性質に対処する。
論文 参考訳(メタデータ) (2023-05-24T17:26:22Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Reinforcement Learning in Non-Stationary Discrete-Time Linear-Quadratic
Mean-Field Games [14.209473797379667]
離散時間線形四角形平均場ゲーム(LQ-MFG)の文脈における大集団多エージェント強化学習(RL)について検討する。
我々の設定は、無限の地平線上の非定常 MFG を考えるという点で、MFG に対するRL に関するほとんどの既存の研究とは異なる。
本稿では,LQ-MFGの平均場平衡(MFE)を反復的に計算するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-09-09T15:17:52Z) - Global Convergence of Policy Gradient for Linear-Quadratic Mean-Field
Control/Game in Continuous Time [109.06623773924737]
線形二乗平均場制御とゲームに対するポリシー勾配法について検討する。
線形速度で最適解に収束し, 合成シミュレーションにより検証した。
論文 参考訳(メタデータ) (2020-08-16T06:34:11Z) - Unified Reinforcement Q-Learning for Mean Field Game and Control
Problems [0.0]
本稿では、無限水平平均場ゲーム(MFG)と平均場制御(MFC)問題を解決するために強化学習(RL)アルゴリズムを提案する。
このアルゴリズムは,2つの学習パラメータの比率を単純に調整することで,MFGとMFCのどちらでも学習することができる。
論文 参考訳(メタデータ) (2020-06-24T17:45:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。