論文の概要: Reinforcement Learning for Speculative Trading under Exploratory Framework
- arxiv url: http://arxiv.org/abs/2604.02035v1
- Date: Thu, 02 Apr 2026 13:41:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.823973
- Title: Reinforcement Learning for Speculative Trading under Exploratory Framework
- Title(参考訳): 探索的枠組みによる投機的取引の強化学習
- Authors: Yun Zhao, Alex S. L. Tse, Harry Zheng,
- Abstract要約: 探索的強化学習フレームワークにおける投機的取引問題について検討する。
まず、停止時間がCoxプロセスのジャンプ時間によってモデル化される問題の緩和版を考える。
探索的定式化の下では、エージェントのランダム化制御はジャンプ強度の確率測定によって特徴づけられる。
- 参考スコア(独自算出の注目度): 2.6759949490503296
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study a speculative trading problem within the exploratory reinforcement learning (RL) framework of Wang et al. [2020]. The problem is formulated as a sequential optimal stopping problem over entry and exit times under general utility function and price process. We first consider a relaxed version of the problem in which the stopping times are modeled by the jump times of Cox processes driven by bounded, non-randomized intensity controls. Under the exploratory formulation, the agent's randomized control is characterized via the probability measure over the jump intensities, and their objective function is regularized by Shannon's differential entropy. This yields a system of the exploratory HJB equations and Gibbs distributions in closed-form as the optimal policy. Error estimates and convergence of the RL objective to the value function of the original problem are established. Finally, an RL algorithm is designed, and its implementation is showcased in a pairs-trading application.
- Abstract(参考訳): We study a speculative trading problem in the exploratory reinforcement learning (RL) framework of Wang et al [2020]。
一般実用機能および価格プロセス下での入退避時間に対する逐次的最適停止問題として定式化する。
まず,有界非ランダム化強度制御によって駆動されるCoxプロセスのジャンプ時間によって停止時間がモデル化される問題を緩和したバージョンを考える。
探索的定式化の下では、エージェントのランダム化制御はジャンプ強度の確率測定によって特徴づけられ、それらの目的関数はシャノンの微分エントロピーによって正規化される。
これにより、探索的 HJB 方程式とギブス分布の系を最適ポリシーとして閉形式で得ることができる。
元の問題の値関数に対するRL目標の誤差推定と収束を確立する。
最後に、RLアルゴリズムを設計し、その実装をペアトレーディングアプリケーションで示す。
関連論文リスト
- Controllable Exploration in Hybrid-Policy RLVR for Multi-Modal Reasoning [88.42566960813438]
CalibRLは、制御可能な探索と専門家のガイダンスをサポートするハイブリッド政治RLVRフレームワークである。
CalibRLは政策エントロピーを誘導的に増加させ、目標分布を明らかにする。
ドメイン内設定とドメイン外設定の両方を含む8つのベンチマークの実験は、一貫した改善を示している。
論文 参考訳(メタデータ) (2026-02-22T07:23:36Z) - The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward [57.56453588632619]
Reinforcement Learning with Verifiable Reward (RLVR) を用いた細調整大型言語モデル(LLM)における中心的パラドックスは、多目的性能の頻繁な劣化である。
これはしばしば破滅的な忘れが伴い、モデルが以前獲得したスキルを失う。
我々は,標準RLVR目標には知識保持のための重要なメカニズムが欠如していると主張している。
論文 参考訳(メタデータ) (2025-09-09T06:34:32Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - Reinforcement Learning with Non-Exponential Discounting [28.092095671829508]
本稿では,任意の割引関数に一般化した連続時間モデルに基づく強化学習の理論を提案する。
提案手法は, 逐次意思決定タスクにおける人的割引の分析方法を開くものである。
論文 参考訳(メタデータ) (2022-09-27T14:13:16Z) - Optimal scheduling of entropy regulariser for continuous-time
linear-quadratic reinforcement learning [9.779769486156631]
ここで、エージェントは最適な緩和ポリシーに従って分散されたノイズ制御を生成することで環境と相互作用する。
この探索-探索トレードオフはエントロピー正則化の強さによって決定される。
どちらの学習アルゴリズムも、$mathcalO(sqrtN)$(対数係数まで)を$N$のエピソードよりも高く、文献から最もよく知られた結果と一致することを証明している。
論文 参考訳(メタデータ) (2022-08-08T23:36:40Z) - Distributional Hamilton-Jacobi-Bellman Equations for Continuous-Time
Reinforcement Learning [39.07307690074323]
本研究では,連続した環境下で対話するエージェントによって得られるリターンの分布を予測することの問題点を考察する。
正確なリターン予測は、リスクに敏感な制御、状態表現、マルチエージェント調整などのための最適なポリシーを決定するのに有用であることが証明されている。
本稿では、オンライン制御アルゴリズムで実装可能なJKOスキームに基づいて、分布HJBを近似的に解くことのできるトラクタブルアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-24T16:33:54Z) - Regularization Guarantees Generalization in Bayesian Reinforcement
Learning through Algorithmic Stability [48.62272919754204]
ベイズ RL の一般化を、おそらくほぼ正しい (PAC) フレームワークで研究する。
我々の主な貢献は、正規化を加えることで、最適な政策が適切な意味で安定することを示しています。
論文 参考訳(メタデータ) (2021-09-24T07:48:34Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。