Fugu-MT 論文翻訳(概要): Unified continuous-time q-learning for mean-field game and mean-field control problems

論文の概要: Unified continuous-time q-learning for mean-field game and mean-field control problems

arxiv url: http://arxiv.org/abs/2407.04521v1
Date: Fri, 5 Jul 2024 14:06:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-08 13:20:52.753798
Title: Unified continuous-time q-learning for mean-field game and mean-field control problems
Title（参考訳）: 平均場ゲームと平均場制御問題に対する一貫した連続時間q-ラーニング
Authors: Xiaoli Wei, Xiang Yu, Fengyi Yuan,
Abstract要約: 分離型(非結合型Iq-関数)で統合されたq-関数を導入し、値関数とともにそのマーチンゲール特性を確立する。我々は,平均場ゲーム(MFG)と平均場制御(MFC)の両問題に対して,一貫したQ-ラーニングアルゴリズムを考案した。ジャンプ拡散設定におけるいくつかの例では、LQ フレームワーク内外において、分離した Iq-函数と値関数の正確なパラメータ化が得られる。
参考スコア（独自算出の注目度）: 4.416317245952636
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper studies the continuous-time q-learning in the mean-field jump-diffusion models from the representative agent's perspective. To overcome the challenge when the population distribution may not be directly observable, we introduce the integrated q-function in decoupled form (decoupled Iq-function) and establish its martingale characterization together with the value function, which provides a unified policy evaluation rule for both mean-field game (MFG) and mean-field control (MFC) problems. Moreover, depending on the task to solve the MFG or MFC problem, we can employ the decoupled Iq-function by different means to learn the mean-field equilibrium policy or the mean-field optimal policy respectively. As a result, we devise a unified q-learning algorithm for both MFG and MFC problems by utilizing all test policies stemming from the mean-field interactions. For several examples in the jump-diffusion setting, within and beyond the LQ framework, we can obtain the exact parameterization of the decoupled Iq-functions and the value functions, and illustrate our algorithm from the representative agent's perspective with satisfactory performance.
Abstract（参考訳）: 本稿では,代表エージェントの視点から,平均フィールドジャンプ拡散モデルにおける連続時間q-ラーニングについて検討する。人口分布が直接観測できない場合の課題を克服するため、分離された形(分離されたIq関数)の統合q関数を導入し、そのマーチンゲール特性を値関数と共に確立し、平均場ゲーム(MFG)と平均場制御(MFC)の両問題に対して統一的なポリシー評価ルールを提供する。さらに,MFG や MFC の問題を解決するタスクによって,分離した Iq 関数をそれぞれ異なる方法で利用して,平均場均衡政策や平均場最適政策を学習することができる。その結果,MFGとMFCの両問題に対して,平均場相互作用から生じる全てのテストポリシを活用することにより,一貫したQ-ラーニングアルゴリズムを考案した。 LQフレームワークの内外におけるジャンプ拡散設定におけるいくつかの例では、分離したIq関数と値関数の正確なパラメータ化を求め、代表エージェントの視点からそのアルゴリズムを満足な性能で説明することができる。

関連論文リスト

Continuous-time q-Learning for Jump-Diffusion Models under Tsallis Entropy [8.924830900790713]
本稿では,Tsallisエントロピー正規化の下で,Q-ラーニング(Q-ラーニングの連続的対応)を特徴とするジャンプ拡散モデルの連続時間強化学習について検討する。最適ポートフォリオ清算問題と非LQ制御問題という2つのファイナンシャル・アプリケーションについて検討する。
論文参考訳（メタデータ） (2024-07-04T12:26:31Z)
Learning a Diffusion Model Policy from Rewards via Q-Score Matching [93.0191910132874]
本稿では,拡散モデルポリシの構造を学習されたQ-関数に関連付ける理論的枠組みを提案する。本稿では,この理論からQスコアマッチングを示す新しいポリシー更新手法を提案する。
論文参考訳（メタデータ） (2023-12-18T23:31:01Z)
Deep Reinforcement Learning for Infinite Horizon Mean Field Problems in Continuous Spaces [1.4999444543328293]
本稿では,平均場ゲーム(MFG)と平均場制御(MFC)問題を統一的に解くために,強化学習(RL)アルゴリズムを提案する。提案手法は,パラメータ化スコア関数による平均場分布の表現とアクタ・クリティカル(AC)パラダイムを組み合わせて提案する。アルゴリズムの修正により、混合平均場制御ゲーム(MFCG)を解くことができる。
論文参考訳（メタデータ） (2023-09-19T22:37:47Z)
Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。モデルに基づくベイズ強化学習の観点から問題を考察する。本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文参考訳（メタデータ） (2023-08-12T14:59:19Z)
Continuous-time q-learning for mean-field control problems [4.3715546759412325]
我々は最近,Jia と Zhou (2023) による Q-learning の連続時間版として作られた q-learning を,Mckean-Vlasov 制御問題に対して検討した。 2つのq-函数が全てのテストポリシーの下で積分表現によって関連していることが示される。弱いマーチンゲール条件とテストポリシーの探索法に基づいて,いくつかのモデルフリー学習アルゴリズムを考案した。
論文参考訳（メタデータ） (2023-06-28T13:43:46Z)
Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。コア最適化問題の実用的なパラメトリゼーションを提供する。
論文参考訳（メタデータ） (2021-07-08T18:01:02Z)
Global Convergence of Policy Gradient for Linear-Quadratic Mean-Field Control/Game in Continuous Time [109.06623773924737]
線形二乗平均場制御とゲームに対するポリシー勾配法について検討する。線形速度で最適解に収束し, 合成シミュレーションにより検証した。
論文参考訳（メタデータ） (2020-08-16T06:34:11Z)
Information Freshness-Aware Task Offloading in Air-Ground Integrated Edge Computing Systems [49.80033982995667]
本稿では,空域統合マルチアクセスエッジコンピューティングシステムにおける情報更新性を考慮したタスクオフロードの問題について検討する。サードパーティのリアルタイムアプリケーションサービスプロバイダは、InPからの限られた通信と計算リソースで、加入したモバイルユーザ(MU)にコンピューティングサービスを提供する。本稿では,各MUに2つの個別の深度Q-networksを適用し,Q-factorと後Q-factorを近似する新しい深度強化学習手法を提案する。
論文参考訳（メタデータ） (2020-07-15T21:32:43Z)
Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC) 半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文参考訳（メタデータ） (2020-07-13T02:52:18Z)
Unified Reinforcement Q-Learning for Mean Field Game and Control Problems [0.0]
本稿では、無限水平平均場ゲーム(MFG)と平均場制御(MFC)問題を解決するために強化学習(RL)アルゴリズムを提案する。このアルゴリズムは,2つの学習パラメータの比率を単純に調整することで,MFGとMFCのどちらでも学習することができる。
論文参考訳（メタデータ） (2020-06-24T17:45:44Z)
Feature Quantization Improves GAN Training [126.02828112121874]
識別器の特徴量子化(FQ)は、真と偽のデータの両方を共有離散空間に埋め込む。本手法は,既存のGANモデルに容易に接続でき,訓練における計算オーバーヘッドがほとんどない。
論文参考訳（メタデータ） (2020-04-05T04:06:50Z)
Conditional Self-Attention for Query-based Summarization [49.616774159367516]
条件依存モデリング用に設計されたニューラルネットワークモジュールであるテキスト条件自己アテンション(CSA)を提案する。 DebatepediaとHotpotQAベンチマークデータセットの実験は、CSAがバニラトランスフォーマーを一貫して上回っていることを示している。
論文参考訳（メタデータ） (2020-02-18T02:22:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。