論文の概要: FineFT: Efficient and Risk-Aware Ensemble Reinforcement Learning for Futures Trading
- arxiv url: http://arxiv.org/abs/2512.23773v1
- Date: Mon, 29 Dec 2025 11:56:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.157838
- Title: FineFT: Efficient and Risk-Aware Ensemble Reinforcement Learning for Futures Trading
- Title(参考訳): FineFT:先物取引のための効率的かつリスク対応型エンサンブル・エンサンブル・エンハンスメント・ラーニング
- Authors: Molei Qin, Xinyu Cai, Yewen Li, Haochong Xia, Chuqiao Zong, Shuo Sun, Xinrun Wang, Bo An,
- Abstract要約: The Efficient and Risk-Aware Ensemble Reinforcement Learning for Futures Trading (FineFT)は、安定したトレーニングと適切なリスク管理を備えた新しいアンサンブルフレームワークである。
ファイナンシャルFTは6つの財務指標において12SOTAベースラインを上回り、リスクを40%以上削減する一方で、ランナーに比べて優れた収益性を実現している。
- 参考スコア(独自算出の注目度): 39.845446417892525
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Futures are contracts obligating the exchange of an asset at a predetermined date and price, notable for their high leverage and liquidity and, therefore, thrive in the Crypto market. RL has been widely applied in various quantitative tasks. However, most methods focus on the spot and could not be directly applied to the futures market with high leverage because of 2 challenges. First, high leverage amplifies reward fluctuations, making training stochastic and difficult to converge. Second, prior works lacked self-awareness of capability boundaries, exposing them to the risk of significant loss when encountering new market state (e.g.,a black swan event like COVID-19). To tackle these challenges, we propose the Efficient and Risk-Aware Ensemble Reinforcement Learning for Futures Trading (FineFT), a novel three-stage ensemble RL framework with stable training and proper risk management. In stage I, ensemble Q learners are selectively updated by ensemble TD errors to improve convergence. In stage II, we filter the Q-learners based on their profitabilities and train VAEs on market states to identify the capability boundaries of the learners. In stage III, we choose from the filtered ensemble and a conservative policy, guided by trained VAEs, to maintain profitability and mitigate risk with new market states. Through extensive experiments on crypto futures in a high-frequency trading environment with high fidelity and 5x leverage, we demonstrate that FineFT outperforms 12 SOTA baselines in 6 financial metrics, reducing risk by more than 40% while achieving superior profitability compared to the runner-up. Visualization of the selective update mechanism shows that different agents specialize in distinct market dynamics, and ablation studies certify routing with VAEs reduces maximum drawdown effectively, and selective update improves convergence and performance.
- Abstract(参考訳): 将来は、所定の日と価格で資産の交換を義務付ける契約であり、高いレバレッジと流動性で注目され、暗号市場において繁栄する。
RLは様々な量的タスクに広く応用されている。
しかし、ほとんどの手法は現場に集中しており、2つの課題のために高いレバレッジで先進市場に直接適用できなかった。
まず、ハイレバレッジは報酬変動を増幅し、トレーニングを確率的にし、収束を難しくする。
第2に、以前の作業では機能境界の自己認識が欠如していたため、新たな市場状態(例えば、新型コロナウイルスのような黒い白鳥のイベント)に遭遇した場合、重大な損失のリスクが露呈した。
これらの課題に対処するため、我々は、安定したトレーニングと適切なリスク管理を備えた新しい3段階のアンサンブルRLフレームワークである、Efficient and Risk-Aware Ensemble Reinforcement Learning for Futures Trading (FineFT)を提案する。
ステージIでは、アンサンブルQ学習者がTD誤差をアンサンブルすることで選択的に更新され、収束が向上する。
ステージIIでは、利益率に基づいてQ-ラーナーをフィルタリングし、市場国家でVAEを訓練し、学習者の能力境界を特定する。
第三段階において、我々は、新しい市場国家との利益性を維持し、リスクを軽減するために、フィルタリングされたアンサンブルと、訓練されたVAEによって導かれる保守的な政策から選択する。
高い忠実度と5倍レバレッジを持つ高周波取引環境における暗号の将来性に関する広範な実験を通じて、FinFTは6つの金融指標において12 SOTAベースラインを上回り、リスクを40%以上低減し、ランナーよりも優れた利益率を達成することを実証した。
選択的更新機構の可視化により、異なるエージェントが異なる市場ダイナミクスを専門としており、VAEによるルーティングを認証するアブレーション研究は、最大ドローダウンを効果的に低減し、選択的更新により収束と性能が向上することが示された。
関連論文リスト
- Robust Reinforcement Learning in Finance: Modeling Market Impact with Elliptic Uncertainty Sets [57.179679246370114]
金融分野では、強化学習(RL)エージェントは、価格に影響を与えない歴史的データに基づいて訓練されることが多い。
展開中、これらのエージェントは、自身の取引が資産価格を変えることができるライブマーケットで取引する。
従来のロバストなRLアプローチは、不確実性の集合に対して最悪のパフォーマンスを最適化することで、このモデルの誤特定に対処する。
楕円型不確実性集合の新たなクラスを開発し,効率的かつ堅牢な政策評価を可能にする。
論文 参考訳(メタデータ) (2025-10-22T18:22:25Z) - Learn to Rank Risky Investors: A Case Study of Predicting Retail Traders' Behaviour and Profitability [3.731289189298451]
本稿では、リスクトレーダーをランク付けタスクとして識別する問題を再編成するリスクランク付け手法(PA-RiskRanker)を提案する。
提案手法は,Profit-Aware binary cross entropy (PA-BCE) 損失関数と,セルフクロストレーダアテンションパイプラインで拡張されたトランスフォーマーベースのロータを備える。
本研究は,貿易リスク管理における既存の深層学習に基づくLETORアルゴリズムの限界について批判的に検討する。
論文 参考訳(メタデータ) (2025-09-20T10:41:13Z) - Optimizing Portfolio with Two-Sided Transactions and Lending: A Reinforcement Learning Framework [0.0]
本研究では,リスクの高い環境に適した強化学習に基づくポートフォリオ管理モデルを提案する。
マルチヘッドアテンションを持つ畳み込みニューラルネットワークを用いたソフトアクタ・クリティカル(SAC)エージェントを用いてモデルを実装した。
市場のボラティリティ(変動性)が変化する2つの16カ月間にわたってテストされたこのモデルは、ベンチマークを著しく上回った。
論文 参考訳(メタデータ) (2024-08-09T23:36:58Z) - MacroHFT: Memory Augmented Context-aware Reinforcement Learning On High Frequency Trading [20.3106468936159]
強化学習(RL)は、高周波取引(HFT)のもう一つの魅力あるアプローチとなっている。
我々は,新しいメモリ拡張コンテキスト認識強化学習手法であるOn HFT, empha.k. MacroHFTを提案する。
マイクロレベルのトレーディングタスクにおいて,MacroHFTは最先端のパフォーマンスを実現することができることを示す。
論文 参考訳(メタデータ) (2024-06-20T17:48:24Z) - Diffusion Variational Autoencoder for Tackling Stochasticity in
Multi-Step Regression Stock Price Prediction [54.21695754082441]
長期的地平線上での多段階の株価予測は、ボラティリティの予測に不可欠である。
多段階の株価予測に対する現在の解決策は、主に単一段階の分類に基づく予測のために設計されている。
深層階層型変分オートコーダ(VAE)と拡散確率的手法を組み合わせてセック2seqの株価予測を行う。
本モデルでは, 予測精度と分散性の観点から, 最先端の解よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-18T16:21:15Z) - Quantitative Stock Investment by Routing Uncertainty-Aware Trading
Experts: A Multi-Task Learning Approach [29.706515133374193]
既存のディープラーニング手法はランダムなシードやネットワークルータに敏感であることを示す。
本稿では,成功した取引会社の効果的なボトムアップトレーディング戦略設計ワークフローを模倣する,量的投資のための新しい2段階混成(MoE)フレームワークを提案する。
AlphaMixは4つの財務基準において、最先端のベースラインを大きく上回っている。
論文 参考訳(メタデータ) (2022-06-07T08:58:00Z) - DeepScalper: A Risk-Aware Reinforcement Learning Framework to Capture
Fleeting Intraday Trading Opportunities [33.28409845878758]
日内取引のための深層強化学習フレームワークであるDeepScalperを提案する。
我々は、DeepScalperが4つの財務基準において、最先端のベースラインを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2021-12-15T15:24:02Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z) - Reinforcement-Learning based Portfolio Management with Augmented Asset
Movement Prediction States [71.54651874063865]
ポートフォリオマネジメント(PM)は、最大利益や最小リスクといった投資目標を達成することを目的としている。
本稿では,PMのための新しいステート拡張RLフレームワークであるSARLを提案する。
当社の枠組みは, 金融PMにおける2つのユニークな課題に対処することを目的としている。(1) データの異種データ -- 資産毎の収集情報は通常, 多様性, ノイズ, 不均衡(ニュース記事など), (2) 環境の不確実性 -- 金融市場は多様で非定常である。
論文 参考訳(メタデータ) (2020-02-09T08:10:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。