論文の概要: Unified continuous-time q-learning for mean-field game and mean-field control problems
- arxiv url: http://arxiv.org/abs/2407.04521v1
- Date: Fri, 5 Jul 2024 14:06:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 13:20:52.753798
- Title: Unified continuous-time q-learning for mean-field game and mean-field control problems
- Title(参考訳): 平均場ゲームと平均場制御問題に対する一貫した連続時間q-ラーニング
- Authors: Xiaoli Wei, Xiang Yu, Fengyi Yuan,
- Abstract要約: 分離型(非結合型Iq-関数)で統合されたq-関数を導入し、値関数とともにそのマーチンゲール特性を確立する。
我々は,平均場ゲーム(MFG)と平均場制御(MFC)の両問題に対して,一貫したQ-ラーニングアルゴリズムを考案した。
ジャンプ拡散設定におけるいくつかの例では、LQ フレームワーク内外において、分離した Iq-函数と値関数の正確なパラメータ化が得られる。
- 参考スコア(独自算出の注目度): 4.416317245952636
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies the continuous-time q-learning in the mean-field jump-diffusion models from the representative agent's perspective. To overcome the challenge when the population distribution may not be directly observable, we introduce the integrated q-function in decoupled form (decoupled Iq-function) and establish its martingale characterization together with the value function, which provides a unified policy evaluation rule for both mean-field game (MFG) and mean-field control (MFC) problems. Moreover, depending on the task to solve the MFG or MFC problem, we can employ the decoupled Iq-function by different means to learn the mean-field equilibrium policy or the mean-field optimal policy respectively. As a result, we devise a unified q-learning algorithm for both MFG and MFC problems by utilizing all test policies stemming from the mean-field interactions. For several examples in the jump-diffusion setting, within and beyond the LQ framework, we can obtain the exact parameterization of the decoupled Iq-functions and the value functions, and illustrate our algorithm from the representative agent's perspective with satisfactory performance.
- Abstract(参考訳): 本稿では,代表エージェントの視点から,平均フィールドジャンプ拡散モデルにおける連続時間q-ラーニングについて検討する。
人口分布が直接観測できない場合の課題を克服するため、分離された形(分離されたIq関数)の統合q関数を導入し、そのマーチンゲール特性を値関数と共に確立し、平均場ゲーム(MFG)と平均場制御(MFC)の両問題に対して統一的なポリシー評価ルールを提供する。
さらに,MFG や MFC の問題を解決するタスクによって,分離した Iq 関数をそれぞれ異なる方法で利用して,平均場均衡政策や平均場最適政策を学習することができる。
その結果,MFGとMFCの両問題に対して,平均場相互作用から生じる全てのテストポリシを活用することにより,一貫したQ-ラーニングアルゴリズムを考案した。
LQフレームワークの内外におけるジャンプ拡散設定におけるいくつかの例では、分離したIq関数と値関数の正確なパラメータ化を求め、代表エージェントの視点からそのアルゴリズムを満足な性能で説明することができる。
関連論文リスト
- Continuous-time q-Learning for Jump-Diffusion Models under Tsallis Entropy [8.924830900790713]
本稿では,Tsallisエントロピー正規化の下で,Q-ラーニング(Q-ラーニングの連続的対応)を特徴とするジャンプ拡散モデルの連続時間強化学習について検討する。
最適ポートフォリオ清算問題と非LQ制御問題という2つのファイナンシャル・アプリケーションについて検討する。
論文 参考訳(メタデータ) (2024-07-04T12:26:31Z) - Deep Reinforcement Learning for Infinite Horizon Mean Field Problems in Continuous Spaces [1.4999444543328293]
本稿では,平均場ゲーム(MFG)と平均場制御(MFC)問題を統一的に解くために,強化学習(RL)アルゴリズムを提案する。
提案手法は,パラメータ化スコア関数による平均場分布の表現とアクタ・クリティカル(AC)パラダイムを組み合わせて提案する。
アルゴリズムの修正により、混合平均場制御ゲーム(MFCG)を解くことができる。
論文 参考訳(メタデータ) (2023-09-19T22:37:47Z) - Continuous-time q-learning for mean-field control problems [4.3715546759412325]
我々は最近,Jia と Zhou (2023) による Q-learning の連続時間版として作られた q-learning を,Mckean-Vlasov 制御問題に対して検討した。
2つのq-函数が全てのテストポリシーの下で積分表現によって関連していることが示される。
弱いマーチンゲール条件とテストポリシーの探索法に基づいて,いくつかのモデルフリー学習アルゴリズムを考案した。
論文 参考訳(メタデータ) (2023-06-28T13:43:46Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Global Convergence of Policy Gradient for Linear-Quadratic Mean-Field
Control/Game in Continuous Time [109.06623773924737]
線形二乗平均場制御とゲームに対するポリシー勾配法について検討する。
線形速度で最適解に収束し, 合成シミュレーションにより検証した。
論文 参考訳(メタデータ) (2020-08-16T06:34:11Z) - Information Freshness-Aware Task Offloading in Air-Ground Integrated
Edge Computing Systems [49.80033982995667]
本稿では,空域統合マルチアクセスエッジコンピューティングシステムにおける情報更新性を考慮したタスクオフロードの問題について検討する。
サードパーティのリアルタイムアプリケーションサービスプロバイダは、InPからの限られた通信と計算リソースで、加入したモバイルユーザ(MU)にコンピューティングサービスを提供する。
本稿では,各MUに2つの個別の深度Q-networksを適用し,Q-factorと後Q-factorを近似する新しい深度強化学習手法を提案する。
論文 参考訳(メタデータ) (2020-07-15T21:32:43Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z) - Unified Reinforcement Q-Learning for Mean Field Game and Control
Problems [0.0]
本稿では、無限水平平均場ゲーム(MFG)と平均場制御(MFC)問題を解決するために強化学習(RL)アルゴリズムを提案する。
このアルゴリズムは,2つの学習パラメータの比率を単純に調整することで,MFGとMFCのどちらでも学習することができる。
論文 参考訳(メタデータ) (2020-06-24T17:45:44Z) - Feature Quantization Improves GAN Training [126.02828112121874]
識別器の特徴量子化(FQ)は、真と偽のデータの両方を共有離散空間に埋め込む。
本手法は,既存のGANモデルに容易に接続でき,訓練における計算オーバーヘッドがほとんどない。
論文 参考訳(メタデータ) (2020-04-05T04:06:50Z) - Conditional Self-Attention for Query-based Summarization [49.616774159367516]
条件依存モデリング用に設計されたニューラルネットワークモジュールであるテキスト条件自己アテンション(CSA)を提案する。
DebatepediaとHotpotQAベンチマークデータセットの実験は、CSAがバニラトランスフォーマーを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2020-02-18T02:22:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。