論文の概要: Deep reinforcement learning for optimal trading with partial information
- arxiv url: http://arxiv.org/abs/2511.00190v1
- Date: Fri, 31 Oct 2025 18:48:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.66115
- Title: Deep reinforcement learning for optimal trading with partial information
- Title(参考訳): 部分情報を用いた最適取引のための深層強化学習
- Authors: Andrea Macrì, Sebastian Jaimungal, Fabrizio Lillo,
- Abstract要約: 取引信号がオルンシュタイン-ウレンベック過程とレジームスイッチングダイナミックスに追従する最適取引問題について検討する。
RLとリカレントニューラルネットワーク(Recurrent Neural Networks, RNN)のブレンドを用いて, 遅延パラメータを用いたトレーディング信号から基礎情報を抽出する。
- 参考スコア(独自算出の注目度): 0.254890465057467
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning (RL) applied to financial problems has been the subject of a lively area of research. The use of RL for optimal trading strategies that exploit latent information in the market is, to the best of our knowledge, not widely tackled. In this paper we study an optimal trading problem, where a trading signal follows an Ornstein-Uhlenbeck process with regime-switching dynamics. We employ a blend of RL and Recurrent Neural Networks (RNN) in order to make the most at extracting underlying information from the trading signal with latent parameters. The latent parameters driving mean reversion, speed, and volatility are filtered from observations of the signal, and trading strategies are derived via RL. To address this problem, we propose three Deep Deterministic Policy Gradient (DDPG)-based algorithms that integrate Gated Recurrent Unit (GRU) networks to capture temporal dependencies in the signal. The first, a one -step approach (hid-DDPG), directly encodes hidden states from the GRU into the RL trader. The second and third are two-step methods: one (prob-DDPG) makes use of posterior regime probability estimates, while the other (reg-DDPG) relies on forecasts of the next signal value. Through extensive simulations with increasingly complex Markovian regime dynamics for the trading signal's parameters, as well as an empirical application to equity pair trading, we find that prob-DDPG achieves superior cumulative rewards and exhibits more interpretable strategies. By contrast, reg-DDPG provides limited benefits, while hid-DDPG offers intermediate performance with less interpretable strategies. Our results show that the quality and structure of the information supplied to the agent are crucial: embedding probabilistic insights into latent regimes substantially improves both profitability and robustness of reinforcement learning-based trading strategies.
- Abstract(参考訳): 金融問題に適用される強化学習(RL)は、活発な研究対象となっている。
市場における潜伏情報を利用する最適なトレーディング戦略にRLを使用することは、私たちの知る限りでは、広く取り組まれていない。
本稿では,オルンシュタイン-ウレンベック過程に追従する取引信号とレジームスイッチングダイナミクスを併用した最適取引問題について検討する。
RLとリカレントニューラルネットワーク(Recurrent Neural Networks, RNN)のブレンドを用いて, 遅延パラメータを用いたトレーディング信号から基礎情報を抽出する。
信号の観測から平均回帰、速度、ボラティリティを駆動する潜在パラメータをフィルタリングし、RLを介して取引戦略を導出する。
この問題に対処するために,GRU(Gated Recurrent Unit)ネットワークを統合して信号の時間依存性を捉える,DDPG(Deep Deterministic Policy Gradient)ベースの3つのアルゴリズムを提案する。
1つ目の1ステップアプローチ(hid-DDPG)は、GRUからRLトレーダーに隠された状態を直接エンコードする。
第2と第3の方法は2段階であり、一方(prob-DDPG)は後続状態の確率推定を使い、もう一方(reg-DDPG)は次の信号値の予測に依存する。
トレーディングシグナルのパラメータに対するマルコフの体系力学による広範なシミュレーションと、エクイティペアトレーディングへの実証的な応用により、prob-DDPGは優れた累積報酬を達成し、より解釈可能な戦略を示すことが判明した。
対照的に、reg-DDPGは限られた利点を提供し、hid-DDPGは解釈可能な戦略の少ない中間性能を提供する。
エージェントに提供された情報の品質と構造は重要であり,潜伏体制に確率的洞察を組み込むことで,強化学習に基づく貿易戦略の収益性と堅牢性を大幅に向上させることができる。
関連論文リスト
- Demystifying Reinforcement Learning in Agentic Reasoning [90.3737088727791]
エージェント推論における強化学習のデミスティフィケーションのための包括的かつ体系的な調査を行う。
i) 縫合された合成軌道を、実際のエンドツーエンドのツール・ツー・ユース・トラジェクトリに置き換えることで、より強力なSFTが得られる。
探索フレンドリーな技術は、高いクリップ、過剰な報酬形成、適切なポリシーエントロピーの維持といったエージェントRLにとって不可欠であり、訓練効率を向上させることができる。
論文 参考訳(メタデータ) (2025-10-13T17:57:15Z) - Token Hidden Reward: Steering Exploration-Exploitation in Group Relative Deep Reinforcement Learning [64.04741347596938]
Token Hidden Reward (THR) はトークンレベルのメトリクスで、それぞれのトークンが正しい応答の確率に与える影響を定量化する。
トレーニングダイナミクスは、高い絶対THR値を持つトークンの小さなサブセットに支配されている。
この知見は、GRPOの学習信号を修正し、エクスプロイトや探索に向けて明示的にバイアストレーニングを行うTHR誘導再重み付けアルゴリズムを示唆している。
論文 参考訳(メタデータ) (2025-10-04T04:49:44Z) - Group-Relative REINFORCE Is Secretly an Off-Policy Algorithm: Demystifying Some Myths About GRPO and Its Friends [64.71326476563213]
大規模言語モデル(LLM)の非政治強化学習が注目されている。
本稿では,特定のトレーニングデータ分布を仮定することなく,グループ化型REINFORCEの第一原理導出について述べる。
この観点は、REINFORCEを非政治的な設定に適応するための2つの一般的な原則をもたらす。
論文 参考訳(メタデータ) (2025-09-29T02:34:54Z) - Learning Efficient and Generalizable Graph Retriever for Knowledge-Graph Question Answering [75.12322966980003]
大規模言語モデル(LLM)は、様々な領域にわたって強い帰納的推論能力を示している。
既存のRAGパイプラインのほとんどは非構造化テキストに依存しており、解釈可能性と構造化推論を制限する。
近年,知識グラフ解答のための知識グラフとLLMの統合について検討している。
KGQAにおける効率的なグラフ検索のための新しいフレームワークであるRAPLを提案する。
論文 参考訳(メタデータ) (2025-06-11T12:03:52Z) - Your Offline Policy is Not Trustworthy: Bilevel Reinforcement Learning for Sequential Portfolio Optimization [82.03139922490796]
強化学習(Reinforcement Learning, RL)は、過去のデータを用いたリスクを最小限にしつつ累積リターンを最大化することを目的とした、株式取引のような逐次的ポートフォリオ最適化タスクにおいて、大きな可能性を示してきた。
従来のRLアプローチは、固定データセット内での振る舞いの購入と販売を最適に記憶するだけのポリシーを生成することが多い。
当社のアプローチでは,ポートフォリオ最適化を新たなタイプの部分オフラインRL問題として捉え,2つの技術的貢献を行う。
論文 参考訳(メタデータ) (2025-05-19T06:37:25Z) - Risk-averse policies for natural gas futures trading using distributional reinforcement learning [0.0]
本稿では,天然ガス先物取引における3つの分散RLアルゴリズムの有効性について検討する。
私たちの知る限りでは、これらのアルゴリズムはトレーディングの文脈で一度も適用されていない。
CVaR を最大化するために C51 と IQN を訓練すると, リスク回避性のあるリスク感受性ポリシーが得られた。
論文 参考訳(メタデータ) (2025-01-08T11:11:25Z) - Hierarchical Reinforced Trader (HRT): A Bi-Level Approach for Optimizing Stock Selection and Execution [0.9553307596675155]
本稿では,階層強化学習フレームワークを用いた新たなトレーディング戦略である階層強化トレーサ(HRT)を紹介する。
HRTは、戦略的株式選択のためのPPO(Proximal Policy Optimization)ベースのHigh-Level Controller(HLC)をDDPG(Deep Deterministic Policy Gradient)ベースのLow-Level Controller(LLC)と統合する。
論文 参考訳(メタデータ) (2024-10-19T01:29:38Z) - Logic-Q: Improving Deep Reinforcement Learning-based Quantitative Trading via Program Sketch-based Tuning [9.039809980024852]
論理Qと呼ばれるQトレーディングのための普遍的な論理誘導型深層強化学習フレームワークを提案する。
特に、Logic-Qは、スケッチによるプログラム合成を採用し、軽量でプラグアンドプレイの市場トレンド対応のプログラムスケッチを活用して、市場の動向を決定するロジック誘導モデル設計を導入する。
2つの一般的な量的トレーディングタスクの広範囲な評価は、Logic-Qが従来の最先端DRLトレーディング戦略の性能を大幅に改善できることを示している。
論文 参考訳(メタデータ) (2023-10-09T09:20:13Z) - Bayesian Distributional Policy Gradients [2.28438857884398]
分布強化学習は、報酬対移動の確率分布全体を維持する。
返品だ
Bayesian Distributional Policy Gradients (BDPG) は、共同コントラスト学習における逆行訓練を用いて、リターンから変動後部を推定する。
論文 参考訳(メタデータ) (2021-03-20T23:42:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。