Fugu-MT 論文翻訳(概要): Continuous-Time q-learning for McKean-Vlasov Control Problems

論文の概要: Continuous-Time q-learning for McKean-Vlasov Control Problems

arxiv url: http://arxiv.org/abs/2306.16208v1
Date: Wed, 28 Jun 2023 13:43:46 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-29 13:54:16.726231
Title: Continuous-Time q-learning for McKean-Vlasov Control Problems
Title（参考訳）: McKean-Vlasov制御問題に対する連続時間q-ラーニング
Authors: Xiaoli Wei, Xiang Yu
Abstract要約: 本稿では,Jia と Zhou (2022c) による Q-learning の連続学習として最近作られた q-learning について考察する。 2つのq-函数が全てのテストポリシーの下で積分表現によって関連していることが示される。モデルフリーのオフラインおよびオンライン学習アルゴリズムが考案されている。
参考スコア（独自算出の注目度）: 6.564096909289731
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper studies the q-learning, recently coined as the continuous-time counterpart of Q-learning by Jia and Zhou (2022c), for continuous time Mckean-Vlasov control problems in the setting of entropy-regularized reinforcement learning. In contrast to the single agent's control problem in Jia and Zhou (2022c), the mean-field interaction of agents render the definition of q-function more subtle, for which we reveal that two distinct q-functions naturally arise: (i) the integrated q-function (denoted by $q$) as the first-order approximation of the integrated Q-function introduced in Gu, Guo, Wei and Xu (2023) that can be learnt by a weak martingale condition involving test policies; and (ii) the essential q-function (denoted by $q_e$) that is employed in the policy improvement iterations. We show that two q-functions are related via an integral representation under all test policies. Based on the weak martingale condition of the integrated q-function and our proposed searching method of test policies, some model-free offline and online learning algorithms are devised. In two financial applications, one in LQ control framework and one beyond LQ control framework, we can obtain the exact parameterization of the value function and two q-functions and illustrate our algorithms with simulation experiments.
Abstract（参考訳）: 本稿では,最近Jia と Zhou (2022c) による Q-learning の連続的対応として作られた q-learning を,エントロピー規則化強化学習の設定における Mckean-Vlasov 制御問題に対して検討する。 Jia と Zhou (2022c) における単一のエージェントの制御問題とは対照的に、エージェントの平均場相互作用は q-函数の定義をより微妙に表現し、2つの異なる q-函数が自然に生じることを示した。 i) テストポリシを含む弱いマルティンゲール条件で学習可能な統合Q関数(Gu, Guo, Wei, Xu (2023))の1次近似としての統合q関数($q$で記述) (ii)政策改善イテレーションで使用される本質的なq-関数($q_e$で示される)。 2つのq関数は、すべてのテストポリシーの下で積分表現を介して関連していることを示す。統合q関数の弱martingale条件と提案するテストポリシー探索法に基づき,モデルフリーのオフラインおよびオンライン学習アルゴリズムを考案した。 LQ制御フレームワークとLQ制御フレームワーク以外の2つの金融アプリケーションにおいて、値関数と2つのq-関数の正確なパラメータ化を求め、シミュレーション実験でアルゴリズムを説明できる。

関連論文リスト

Unified continuous-time q-learning for mean-field game and mean-field control problems [4.416317245952636]
分離型(非結合型Iq-関数)で統合されたq-関数を導入し、値関数とともにそのマーチンゲール特性を確立する。我々は,平均場ゲーム(MFG)と平均場制御(MFC)の両問題に対して,一貫したQ-ラーニングアルゴリズムを考案した。ジャンプ拡散設定におけるいくつかの例では、LQ フレームワーク内外において、分離した Iq-函数と値関数の正確なパラメータ化が得られる。
論文参考訳（メタデータ） (2024-07-05T14:06:59Z)
Continuous-time q-Learning for Jump-Diffusion Models under Tsallis Entropy [8.924830900790713]
本稿では,Tsallisエントロピー正規化の下で,Q-ラーニング(Q-ラーニングの連続的対応)を特徴とするジャンプ拡散モデルの連続時間強化学習について検討する。最適ポートフォリオ清算問題と非LQ制御問題という2つのファイナンシャル・アプリケーションについて検討する。
論文参考訳（メタデータ） (2024-07-04T12:26:31Z)
Two-Step Q-Learning [0.0]
そこで本研究では,重要でない2段階のQ-ラーニングアルゴリズムを提案する。数値実験により、2段階のQ-ラーニングとそのスムーズな変形の優れた性能が示された。
論文参考訳（メタデータ） (2024-07-02T15:39:00Z)
Unifying (Quantum) Statistical and Parametrized (Quantum) Algorithms [65.268245109828]
我々はカーンズのSQオラクルとヴァリアントの弱い評価オラクルからインスピレーションを得ます。評価クエリから学習するための非条件の下限を出力する,広範かつ直感的なフレームワークを提案する。
論文参考訳（メタデータ） (2023-10-26T18:23:21Z)
QADYNAMICS: Training Dynamics-Driven Synthetic QA Diagnostic for Zero-Shot Commonsense Question Answering [48.25449258017601]
State-of-the-artはCommonSense Knowledge Basesから構築されたQAペア上での微調整言語モデルにアプローチする。本稿では,QA診断と改善のためのトレーニング動的フレームワークQADYNAMICSを提案する。
論文参考訳（メタデータ） (2023-10-17T14:27:34Z)
An Empirical Comparison of LM-based Question and Answer Generation Methods [79.31199020420827]
質問と回答の生成(QAG)は、コンテキストが与えられた質問と回答のペアのセットを生成することで構成される。本稿では,シーケンス・ツー・シーケンス言語モデル(LM)を微調整する3つの異なるQAG手法を用いて,ベースラインを確立する。実験により、学習時間と推論時間の両方で計算的に軽量なエンドツーエンドQAGモデルが一般に堅牢であり、他のより複雑なアプローチよりも優れていることが示された。
論文参考訳（メタデータ） (2023-05-26T14:59:53Z)
Toward Unsupervised Realistic Visual Question Answering [70.67698100148414]
現実的なVQA(RVQA)の問題について検討し、モデルが答えられない質問(UQ)を拒絶し、答えられる質問(AQ)に答えなければならない。 1)データセットには不整合UQが多すぎること,(2)多数の注釈付きUQがトレーニングに必要とされること,の2つの欠点を最初に指摘した。我々は、既存のVQAデータセットのAQと約29万の人間の注釈付きUQを組み合わせた新しいテストデータセットRGQAを提案する。これは、画像と質問をランダムにペアリングして得られる擬似UQと、それを結合する。
論文参考訳（メタデータ） (2023-03-09T06:58:29Z)
q-Learning in Continuous Time [1.4213973379473654]
エントロピー規則化探索拡散過程の定式化による強化学習(RL)におけるQ-ラーニングの連続的対応について検討した。我々は、時間離散化とは無関係なq-函数に関するq-ラーニング理論を開発する。我々は、根底にある問題を解決するために、異なるアクター批判アルゴリズムを考案する。
論文参考訳（メタデータ） (2022-07-02T02:20:41Z)
Online Target Q-learning with Reverse Experience Replay: Efficiently finding the Optimal Policy for Linear MDPs [50.75812033462294]
我々は,Q-ラーニングの実践的成功と悲観的理論的結果とのギャップを埋める。本稿では,新しいQ-Rex法とQ-RexDaReを提案する。 Q-Rex は線形 MDP の最適ポリシを効率的に見つけることができる。
論文参考訳（メタデータ） (2021-10-16T01:47:41Z)
Hamilton-Jacobi Deep Q-Learning for Deterministic Continuous-Time Systems with Lipschitz Continuous Controls [2.922007656878633]
リプシッツ連続制御を用いた連続時間決定論的最適制御問題に対するQ-learningアルゴリズムを提案する。 HJB方程式の新たな半離散バージョンが提案され、離散時間で収集されたデータを用いて、システムの力学を離散化したり近似したりすることなく、Q-ラーニングアルゴリズムを設計する。
論文参考訳（メタデータ） (2020-10-27T06:11:04Z)
Finite-Time Analysis for Double Q-learning [50.50058000948908]
二重Q-ラーニングのための非漸近的有限時間解析を初めて提供する。同期と非同期の二重Q-ラーニングの両方が,グローバル最適化の$epsilon$-accurate近辺に収束することが保証されていることを示す。
論文参考訳（メタデータ） (2020-09-29T18:48:21Z)
SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。 SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文参考訳（メタデータ） (2020-07-09T17:08:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。