論文の概要: Continuous-Time q-learning for McKean-Vlasov Control Problems
- arxiv url: http://arxiv.org/abs/2306.16208v1
- Date: Wed, 28 Jun 2023 13:43:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-29 13:54:16.726231
- Title: Continuous-Time q-learning for McKean-Vlasov Control Problems
- Title(参考訳): McKean-Vlasov制御問題に対する連続時間q-ラーニング
- Authors: Xiaoli Wei, Xiang Yu
- Abstract要約: 本稿では,Jia と Zhou (2022c) による Q-learning の連続学習として最近作られた q-learning について考察する。
2つのq-函数が全てのテストポリシーの下で積分表現によって関連していることが示される。
モデルフリーのオフラインおよびオンライン学習アルゴリズムが考案されている。
- 参考スコア(独自算出の注目度): 6.564096909289731
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies the q-learning, recently coined as the continuous-time
counterpart of Q-learning by Jia and Zhou (2022c), for continuous time
Mckean-Vlasov control problems in the setting of entropy-regularized
reinforcement learning. In contrast to the single agent's control problem in
Jia and Zhou (2022c), the mean-field interaction of agents render the
definition of q-function more subtle, for which we reveal that two distinct
q-functions naturally arise: (i) the integrated q-function (denoted by $q$) as
the first-order approximation of the integrated Q-function introduced in Gu,
Guo, Wei and Xu (2023) that can be learnt by a weak martingale condition
involving test policies; and (ii) the essential q-function (denoted by $q_e$)
that is employed in the policy improvement iterations. We show that two
q-functions are related via an integral representation under all test policies.
Based on the weak martingale condition of the integrated q-function and our
proposed searching method of test policies, some model-free offline and online
learning algorithms are devised. In two financial applications, one in LQ
control framework and one beyond LQ control framework, we can obtain the exact
parameterization of the value function and two q-functions and illustrate our
algorithms with simulation experiments.
- Abstract(参考訳): 本稿では,最近Jia と Zhou (2022c) による Q-learning の連続的対応として作られた q-learning を,エントロピー規則化強化学習の設定における Mckean-Vlasov 制御問題に対して検討する。
Jia と Zhou (2022c) における単一のエージェントの制御問題とは対照的に、エージェントの平均場相互作用は q-函数の定義をより微妙に表現し、2つの異なる q-函数が自然に生じることを示した。
i) テストポリシを含む弱いマルティンゲール条件で学習可能な統合Q関数(Gu, Guo, Wei, Xu (2023))の1次近似としての統合q関数($q$で記述)
(ii)政策改善イテレーションで使用される本質的なq-関数($q_e$で示される)。
2つのq関数は、すべてのテストポリシーの下で積分表現を介して関連していることを示す。
統合q関数の弱martingale条件と提案するテストポリシー探索法に基づき,モデルフリーのオフラインおよびオンライン学習アルゴリズムを考案した。
LQ制御フレームワークとLQ制御フレームワーク以外の2つの金融アプリケーションにおいて、値関数と2つのq-関数の正確なパラメータ化を求め、シミュレーション実験でアルゴリズムを説明できる。
関連論文リスト
- Unified continuous-time q-learning for mean-field game and mean-field control problems [4.416317245952636]
分離型(非結合型Iq-関数)で統合されたq-関数を導入し、値関数とともにそのマーチンゲール特性を確立する。
我々は,平均場ゲーム(MFG)と平均場制御(MFC)の両問題に対して,一貫したQ-ラーニングアルゴリズムを考案した。
ジャンプ拡散設定におけるいくつかの例では、LQ フレームワーク内外において、分離した Iq-函数と値関数の正確なパラメータ化が得られる。
論文 参考訳(メタデータ) (2024-07-05T14:06:59Z) - Continuous-time q-Learning for Jump-Diffusion Models under Tsallis Entropy [8.924830900790713]
本稿では,Tsallisエントロピー正規化の下で,Q-ラーニング(Q-ラーニングの連続的対応)を特徴とするジャンプ拡散モデルの連続時間強化学習について検討する。
最適ポートフォリオ清算問題と非LQ制御問題という2つのファイナンシャル・アプリケーションについて検討する。
論文 参考訳(メタデータ) (2024-07-04T12:26:31Z) - Two-Step Q-Learning [0.0]
そこで本研究では,重要でない2段階のQ-ラーニングアルゴリズムを提案する。
数値実験により、2段階のQ-ラーニングとそのスムーズな変形の優れた性能が示された。
論文 参考訳(メタデータ) (2024-07-02T15:39:00Z) - Unifying (Quantum) Statistical and Parametrized (Quantum) Algorithms [65.268245109828]
我々はカーンズのSQオラクルとヴァリアントの弱い評価オラクルからインスピレーションを得ます。
評価クエリから学習するための非条件の下限を出力する,広範かつ直感的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-26T18:23:21Z) - QADYNAMICS: Training Dynamics-Driven Synthetic QA Diagnostic for
Zero-Shot Commonsense Question Answering [48.25449258017601]
State-of-the-artはCommonSense Knowledge Basesから構築されたQAペア上での微調整言語モデルにアプローチする。
本稿では,QA診断と改善のためのトレーニング動的フレームワークQADYNAMICSを提案する。
論文 参考訳(メタデータ) (2023-10-17T14:27:34Z) - An Empirical Comparison of LM-based Question and Answer Generation
Methods [79.31199020420827]
質問と回答の生成(QAG)は、コンテキストが与えられた質問と回答のペアのセットを生成することで構成される。
本稿では,シーケンス・ツー・シーケンス言語モデル(LM)を微調整する3つの異なるQAG手法を用いて,ベースラインを確立する。
実験により、学習時間と推論時間の両方で計算的に軽量なエンドツーエンドQAGモデルが一般に堅牢であり、他のより複雑なアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-26T14:59:53Z) - Toward Unsupervised Realistic Visual Question Answering [70.67698100148414]
現実的なVQA(RVQA)の問題について検討し、モデルが答えられない質問(UQ)を拒絶し、答えられる質問(AQ)に答えなければならない。
1)データセットには不整合UQが多すぎること,(2)多数の注釈付きUQがトレーニングに必要とされること,の2つの欠点を最初に指摘した。
我々は、既存のVQAデータセットのAQと約29万の人間の注釈付きUQを組み合わせた新しいテストデータセットRGQAを提案する。
これは、画像と質問をランダムにペアリングして得られる擬似UQと、それを結合する。
論文 参考訳(メタデータ) (2023-03-09T06:58:29Z) - q-Learning in Continuous Time [1.4213973379473654]
エントロピー規則化探索拡散過程の定式化による強化学習(RL)におけるQ-ラーニングの連続的対応について検討した。
我々は、時間離散化とは無関係なq-函数に関するq-ラーニング理論を開発する。
我々は、根底にある問題を解決するために、異なるアクター批判アルゴリズムを考案する。
論文 参考訳(メタデータ) (2022-07-02T02:20:41Z) - Online Target Q-learning with Reverse Experience Replay: Efficiently
finding the Optimal Policy for Linear MDPs [50.75812033462294]
我々は,Q-ラーニングの実践的成功と悲観的理論的結果とのギャップを埋める。
本稿では,新しいQ-Rex法とQ-RexDaReを提案する。
Q-Rex は線形 MDP の最適ポリシを効率的に見つけることができる。
論文 参考訳(メタデータ) (2021-10-16T01:47:41Z) - Hamilton-Jacobi Deep Q-Learning for Deterministic Continuous-Time
Systems with Lipschitz Continuous Controls [2.922007656878633]
リプシッツ連続制御を用いた連続時間決定論的最適制御問題に対するQ-learningアルゴリズムを提案する。
HJB方程式の新たな半離散バージョンが提案され、離散時間で収集されたデータを用いて、システムの力学を離散化したり近似したりすることなく、Q-ラーニングアルゴリズムを設計する。
論文 参考訳(メタデータ) (2020-10-27T06:11:04Z) - Finite-Time Analysis for Double Q-learning [50.50058000948908]
二重Q-ラーニングのための非漸近的有限時間解析を初めて提供する。
同期と非同期の二重Q-ラーニングの両方が,グローバル最適化の$epsilon$-accurate近辺に収束することが保証されていることを示す。
論文 参考訳(メタデータ) (2020-09-29T18:48:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。