論文の概要: Continuous-time q-Learning for Jump-Diffusion Models under Tsallis Entropy
- arxiv url: http://arxiv.org/abs/2407.03888v1
- Date: Thu, 4 Jul 2024 12:26:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 18:03:13.910231
- Title: Continuous-time q-Learning for Jump-Diffusion Models under Tsallis Entropy
- Title(参考訳): Tsallisエントロピー下におけるジャンプ拡散モデルの連続Qラーニング
- Authors: Lijun Bo, Yijie Huang, Xiang Yu, Tingting Zhang,
- Abstract要約: 我々は,Tsallisエントロピー正規化の下で,q-関数とq-学習アルゴリズムを特徴付けることで,制御されたジャンプ拡散モデルの連続時間強化学習について検討した。
これに対し、Tsallisエントロピーの下でq関数のマーチンゲール特性を確立し、ラグランジュ乗算器を明示的に導出できるか否かに応じて2つのq-ラーニングアルゴリズムを考案する。
- 参考スコア(独自算出の注目度): 8.924830900790713
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies continuous-time reinforcement learning for controlled jump-diffusion models by featuring the q-function (the continuous-time counterpart of Q-function) and the q-learning algorithms under the Tsallis entropy regularization. Contrary to the conventional Shannon entropy, the general form of Tsallis entropy renders the optimal policy not necessary a Gibbs measure, where some Lagrange multiplier and KKT multiplier naturally arise from certain constraints to ensure the learnt policy to be a probability distribution. As a consequence,the relationship between the optimal policy and the q-function also involves the Lagrange multiplier. In response, we establish the martingale characterization of the q-function under Tsallis entropy and devise two q-learning algorithms depending on whether the Lagrange multiplier can be derived explicitly or not. In the latter case, we need to consider different parameterizations of the q-function and the policy and update them alternatively. Finally, we examine two financial applications, namely an optimal portfolio liquidation problem and a non-LQ control problem. It is interesting to see therein that the optimal policies under the Tsallis entropy regularization can be characterized explicitly, which are distributions concentrate on some compact support. The satisfactory performance of our q-learning algorithm is illustrated in both examples.
- Abstract(参考訳): 本稿では,Tsallisエントロピー正規化の下で,q-関数(Q-関数の連続的対応)とq-学習アルゴリズムを特徴付けることで,制御されたジャンプ拡散モデルの連続時間強化学習について検討する。
従来のシャノンエントロピーとは対照的に、Tsallisエントロピーの一般的な形式はギブス測度を必要としない最適ポリシーを表現し、そこではラグランジュ乗算器とKKT乗算器がある種の制約から自然に生じて、学習したポリシーが確率分布であることを保証する。
その結果、最適ポリシーとq-函数の関係はラグランジュ乗算器にも関係する。
これに対し、Tsallisエントロピーの下でq関数のマーチンゲール特性を確立し、ラグランジュ乗算器を明示的に導出できるか否かに応じて2つのq-ラーニングアルゴリズムを考案する。
後者の場合、q関数とポリシーの異なるパラメータ化を検討し、代わりに更新する必要がある。
最後に、最適ポートフォリオ清算問題と非LQ制御問題という2つのファイナンシャル・アプリケーションについて検討する。
ここで興味深いのは、Tsallisエントロピー正則化の下での最適ポリシーが明確に特徴づけられることである。
いずれの例においても,q-learningアルゴリズムの良好な性能が示されている。
関連論文リスト
- Unified continuous-time q-learning for mean-field game and mean-field control problems [4.416317245952636]
分離型(非結合型Iq-関数)で統合されたq-関数を導入し、値関数とともにそのマーチンゲール特性を確立する。
我々は,平均場ゲーム(MFG)と平均場制御(MFC)の両問題に対して,一貫したQ-ラーニングアルゴリズムを考案した。
ジャンプ拡散設定におけるいくつかの例では、LQ フレームワーク内外において、分離した Iq-函数と値関数の正確なパラメータ化が得られる。
論文 参考訳(メタデータ) (2024-07-05T14:06:59Z) - Value-Distributional Model-Based Reinforcement Learning [63.32053223422317]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - Stability of Q-Learning Through Design and Optimism [0.0]
本論文は近似とQ-ラーニングに関するチュートリアルである。
これは、2023年6月にナンシー・フランスで発表されたINFORMS APS inaugural Applied Probability Trust Plenary Lectureの詳細を提供する。
また,これらのアルゴリズムの安定性を確保するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-05T20:04:26Z) - Continuous-time q-learning for mean-field control problems [5.164412742802911]
我々は最近,Jia と Zhou (2023) による Q-learning の連続時間版として作られた q-learning を,Mckean-Vlasov 制御問題に対して検討した。
2つのq-函数が全てのテストポリシーの下で積分表現によって関連していることが示される。
弱いマーチンゲール条件とテストポリシーの探索法に基づいて,いくつかのモデルフリー学習アルゴリズムを考案した。
論文 参考訳(メタデータ) (2023-06-28T13:43:46Z) - Offline Minimax Soft-Q-learning Under Realizability and Partial Coverage [100.8180383245813]
オフライン強化学習(RL)のための値ベースアルゴリズムを提案する。
ソフトマージン条件下でのバニラQ関数の類似した結果を示す。
我々のアルゴリズムの損失関数は、推定問題を非線形凸最適化問題とラグランジフィケーションとしてキャストすることによって生じる。
論文 参考訳(メタデータ) (2023-02-05T14:22:41Z) - q-Learning in Continuous Time [1.4213973379473654]
エントロピー規則化探索拡散過程の定式化による強化学習(RL)におけるQ-ラーニングの連続的対応について検討した。
我々は、時間離散化とは無関係なq-函数に関するq-ラーニング理論を開発する。
我々は、根底にある問題を解決するために、異なるアクター批判アルゴリズムを考案する。
論文 参考訳(メタデータ) (2022-07-02T02:20:41Z) - Optimization Induced Equilibrium Networks [76.05825996887573]
暗黙の方程式によって定義されるディープニューラルネットワーク(DNN)のような暗黙の平衡モデルは最近ますます魅力的になりつつある。
我々は,パラメータが少ない場合でも,OptEqが従来の暗黙的モデルより優れていることを示す。
論文 参考訳(メタデータ) (2021-05-27T15:17:41Z) - Hamilton-Jacobi Deep Q-Learning for Deterministic Continuous-Time
Systems with Lipschitz Continuous Controls [2.922007656878633]
リプシッツ連続制御を用いた連続時間決定論的最適制御問題に対するQ-learningアルゴリズムを提案する。
HJB方程式の新たな半離散バージョンが提案され、離散時間で収集されたデータを用いて、システムの力学を離散化したり近似したりすることなく、Q-ラーニングアルゴリズムを設計する。
論文 参考訳(メタデータ) (2020-10-27T06:11:04Z) - Finite-Time Analysis for Double Q-learning [50.50058000948908]
二重Q-ラーニングのための非漸近的有限時間解析を初めて提供する。
同期と非同期の二重Q-ラーニングの両方が,グローバル最適化の$epsilon$-accurate近辺に収束することが保証されていることを示す。
論文 参考訳(メタデータ) (2020-09-29T18:48:21Z) - Global Convergence of Policy Gradient for Linear-Quadratic Mean-Field
Control/Game in Continuous Time [109.06623773924737]
線形二乗平均場制御とゲームに対するポリシー勾配法について検討する。
線形速度で最適解に収束し, 合成シミュレーションにより検証した。
論文 参考訳(メタデータ) (2020-08-16T06:34:11Z) - Exponentially Weighted l_2 Regularization Strategy in Constructing
Reinforced Second-order Fuzzy Rule-based Model [72.57056258027336]
従来の高木スゲノカン(TSK)型ファジィモデルでは、定数あるいは線形関数がファジィ規則の連続部分として使用されるのが普通である。
調和解析で遭遇する重み関数理論にインスパイアされた指数重みアプローチを導入する。
論文 参考訳(メタデータ) (2020-07-02T15:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。