論文の概要: Continuous-time q-Learning for Jump-Diffusion Models under Tsallis Entropy
- arxiv url: http://arxiv.org/abs/2407.03888v2
- Date: Thu, 17 Oct 2024 08:45:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:15:46.399380
- Title: Continuous-time q-Learning for Jump-Diffusion Models under Tsallis Entropy
- Title(参考訳): Tsallisエントロピー下におけるジャンプ拡散モデルの連続Qラーニング
- Authors: Lijun Bo, Yijie Huang, Xiang Yu, Tingting Zhang,
- Abstract要約: 本稿では,Tsallisエントロピー正規化の下で,Q-ラーニング(Q-ラーニングの連続的対応)を特徴とするジャンプ拡散モデルの連続時間強化学習について検討する。
最適ポートフォリオ清算問題と非LQ制御問題という2つのファイナンシャル・アプリケーションについて検討する。
- 参考スコア(独自算出の注目度): 8.924830900790713
- License:
- Abstract: This paper studies the continuous-time reinforcement learning in jump-diffusion models by featuring the q-learning (the continuous-time counterpart of Q-learning) under Tsallis entropy regularization. Contrary to the Shannon entropy, the general form of Tsallis entropy renders the optimal policy not necessary a Gibbs measure, where the Lagrange and KKT multipliers naturally arise from some constraints to ensure the learnt policy to be a probability density function. As a consequence, the characterization of the optimal policy using the q-function also involves a Lagrange multiplier. In response, we establish the martingale characterization of the q-function under Tsallis entropy and devise two q-learning algorithms depending on whether the Lagrange multiplier can be derived explicitly or not. In the latter case, we need to consider different parameterizations of the optimal q-function and the optimal policy and update them alternatively in an Actor-Critic manner. We also study two financial applications, namely, an optimal portfolio liquidation problem and a non-LQ control problem. It is interesting to see therein that the optimal policies under the Tsallis entropy regularization can be characterized explicitly, which are distributions concentrated on some compact support. The satisfactory performance of our q-learning algorithms is illustrated in each example.
- Abstract(参考訳): 本稿では,Tsallisエントロピー正規化の下で,Q-ラーニング(Q-ラーニングの連続的対応)を特徴とするジャンプ拡散モデルの連続時間強化学習について検討する。
シャノンエントロピーとは対照的に、ツァリスエントロピーの一般的な形式はギブス測度(英語版)を必要とせず、ラグランジュとKKT乗算器がある種の制約から自然に生じて、学習したポリシーが確率密度関数であることを保証する。
結果として、q-函数を用いた最適ポリシーの特徴付けはラグランジュ乗算器も含む。
これに対し、Tsallisエントロピーの下でq関数のマーチンゲール特性を確立し、ラグランジュ乗算器を明示的に導出できるか否かに応じて2つのq-ラーニングアルゴリズムを考案する。
後者の場合、最適q-函数と最適ポリシーの異なるパラメータ化を考慮し、アクター・クリティカルな方法でそれらを更新する必要がある。
また、最適ポートフォリオ清算問題と非LQ制御問題という2つの金融応用についても検討する。
ここで興味深いのは、Tsallisエントロピー正則化の下での最適ポリシーが、いくつかのコンパクトな支持に集中した分布である、明確に特徴づけられることである。
ここでは,q-learningアルゴリズムの性能を例に示す。
関連論文リスト
- Unified continuous-time q-learning for mean-field game and mean-field control problems [4.416317245952636]
分離型(非結合型Iq-関数)で統合されたq-関数を導入し、値関数とともにそのマーチンゲール特性を確立する。
我々は,平均場ゲーム(MFG)と平均場制御(MFC)の両問題に対して,一貫したQ-ラーニングアルゴリズムを考案した。
ジャンプ拡散設定におけるいくつかの例では、LQ フレームワーク内外において、分離した Iq-函数と値関数の正確なパラメータ化が得られる。
論文 参考訳(メタデータ) (2024-07-05T14:06:59Z) - Stochastic Q-learning for Large Discrete Action Spaces [79.1700188160944]
離散的な行動空間を持つ複雑な環境では、強化学習(RL)において効果的な意思決定が重要である
我々は、$n$アクションの集合全体を最適化するのとは対照的に、おそらく$mathcalO(log(n)$)$のような変数の集合のみを考える。
提示された値ベースのRL手法には、Q-learning、StochDQN、StochDDQNなどが含まれる。
論文 参考訳(メタデータ) (2024-05-16T17:58:44Z) - Stability of Q-Learning Through Design and Optimism [0.0]
本論文は近似とQ-ラーニングに関するチュートリアルである。
これは、2023年6月にナンシー・フランスで発表されたINFORMS APS inaugural Applied Probability Trust Plenary Lectureの詳細を提供する。
また,これらのアルゴリズムの安定性を確保するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-05T20:04:26Z) - Offline Minimax Soft-Q-learning Under Realizability and Partial Coverage [100.8180383245813]
オフライン強化学習(RL)のための値ベースアルゴリズムを提案する。
ソフトマージン条件下でのバニラQ関数の類似した結果を示す。
我々のアルゴリズムの損失関数は、推定問題を非線形凸最適化問題とラグランジフィケーションとしてキャストすることによって生じる。
論文 参考訳(メタデータ) (2023-02-05T14:22:41Z) - q-Learning in Continuous Time [1.4213973379473654]
エントロピー規則化探索拡散過程の定式化による強化学習(RL)におけるQ-ラーニングの連続的対応について検討した。
我々は、時間離散化とは無関係なq-函数に関するq-ラーニング理論を開発する。
我々は、根底にある問題を解決するために、異なるアクター批判アルゴリズムを考案する。
論文 参考訳(メタデータ) (2022-07-02T02:20:41Z) - Optimization Induced Equilibrium Networks [76.05825996887573]
暗黙の方程式によって定義されるディープニューラルネットワーク(DNN)のような暗黙の平衡モデルは最近ますます魅力的になりつつある。
我々は,パラメータが少ない場合でも,OptEqが従来の暗黙的モデルより優れていることを示す。
論文 参考訳(メタデータ) (2021-05-27T15:17:41Z) - Tightening the Dependence on Horizon in the Sample Complexity of
Q-Learning [59.71676469100807]
この研究は、同期Q-ラーニングのサンプルの複雑さを、任意の$0varepsilon 1$に対して$frac|mathcalS| (1-gamma)4varepsilon2$の順序に絞る。
計算やストレージを余分に必要とせずに、高速なq-learningにマッチするvanilla q-learningの有効性を明らかにした。
論文 参考訳(メタデータ) (2021-02-12T14:22:05Z) - Solving optimal stopping problems with Deep Q-Learning [0.6445605125467574]
本稿では,オプションタイプの製品に対して最適なエクササイズ戦略をモデル化するための強化学習(RL)手法を提案する。
基本関数の仕様を必要としない深層ニューラルネットワークを用いてQ関数を近似する。
我々は、トレーニングされたニューラルネットワークから得られるオプション価格と、停止問題の2つの定式化から得られる上限を低くする。
論文 参考訳(メタデータ) (2021-01-24T10:05:46Z) - Hamilton-Jacobi Deep Q-Learning for Deterministic Continuous-Time
Systems with Lipschitz Continuous Controls [2.922007656878633]
リプシッツ連続制御を用いた連続時間決定論的最適制御問題に対するQ-learningアルゴリズムを提案する。
HJB方程式の新たな半離散バージョンが提案され、離散時間で収集されたデータを用いて、システムの力学を離散化したり近似したりすることなく、Q-ラーニングアルゴリズムを設計する。
論文 参考訳(メタデータ) (2020-10-27T06:11:04Z) - Global Convergence of Policy Gradient for Linear-Quadratic Mean-Field
Control/Game in Continuous Time [109.06623773924737]
線形二乗平均場制御とゲームに対するポリシー勾配法について検討する。
線形速度で最適解に収束し, 合成シミュレーションにより検証した。
論文 参考訳(メタデータ) (2020-08-16T06:34:11Z) - Exponentially Weighted l_2 Regularization Strategy in Constructing
Reinforced Second-order Fuzzy Rule-based Model [72.57056258027336]
従来の高木スゲノカン(TSK)型ファジィモデルでは、定数あるいは線形関数がファジィ規則の連続部分として使用されるのが普通である。
調和解析で遭遇する重み関数理論にインスパイアされた指数重みアプローチを導入する。
論文 参考訳(メタデータ) (2020-07-02T15:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。