Fugu-MT 論文翻訳(概要): Dynamic Multi-Pair Trading Strategy in Cryptocurrency Markets with Deep Reinforcement Learning

論文の概要: Dynamic Multi-Pair Trading Strategy in Cryptocurrency Markets with Deep Reinforcement Learning

arxiv url: http://arxiv.org/abs/2606.04574v1
Date: Wed, 03 Jun 2026 08:10:33 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-04 20:44:18.61943
Title: Dynamic Multi-Pair Trading Strategy in Cryptocurrency Markets with Deep Reinforcement Learning
Title（参考訳）: 深層強化学習を伴う暗号市場における動的マルチペア取引戦略
Authors: Damian Lebiedź, Robert Ślepaczuk,
Abstract要約: この論文は、統計的仲裁とDRL実行ポリシーを組み合わせたハイブリッドアーキテクチャを導入することで、定量的ファイナンス文学に寄与する。決定論的遮蔽(deterministic shielding)を通じて安全な強化学習のための新しいフレームワークを提供し、統計的に堅牢な境界にニューラルポリシーを固定することで、深刻な分散リスクを軽減できることを示した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: This study aims to determine whether the application of Deep Reinforcement Learning (DRL) as a specialized execution overlay can enhance pair trading in highly volatile cryptocurrency markets. Although classical implementations of the strategy have proven successful in traditional equities, they frequently exhibit rigidity and suffer from severe divergence risks when applied to high-variance environments. To address this need, this research introduces novel concepts. To construct a robust system, we developed a hierarchical "Filter-then-Rank" pair selection methodology and a proprietary "Fixed Risk, Adaptive Mean" execution model. The system employs a Proximal Policy Optimization (PPO) agent with a Long Short-Term Memory (LSTM) layer to govern execution decisions within strict deterministic risk management boundaries. Evaluated on 1-hour interval data from the Binance USD-M Futures market, the optimized RL policy achieved an out-of-sample performance that substantially outperformed the heuristic baseline. A stationary circular block bootstrap robustness check confirms that the agent's risk-adjusted outperformance is statistically significant at the 10 percent level. Although falling marginally short of the stricter 5 percent threshold, this result highlights the extreme idiosyncratic variance characteristic of digital assets. Ultimately, this thesis contributes to the quantitative finance literature by introducing a hybrid architecture that combines statistical arbitrage with DRL execution policies. Furthermore, it delivers a novel framework for safe reinforcement learning via deterministic shielding, proving that anchoring a neural policy to statistically robust boundaries successfully mitigates severe divergence risks.
Abstract（参考訳）: 本研究の目的は,高度に不安定な暗号通貨市場において,特殊な実行オーバレイとしてのDeep Reinforcement Learning(DRL)の適用がペア取引を促進できるかどうかを判断することである。戦略の古典的な実装は伝統的な株式で成功したが、しばしば剛性を示し、高分散環境に適用した場合に深刻な分散リスクに悩まされる。このニーズに対処するために,本研究では新しい概念を紹介する。頑健なシステムを構築するために,階層的な"Filter-then-Rank"ペア選択手法と,独自の"Fixed Risk, Adaptive Mean"実行モデルを開発した。このシステムは、厳密な決定論的リスク管理境界内での実行決定を管理するために、LSTM(Long Short-Term Memory)層を備えたPPO(Proximal Policy Optimization)エージェントを使用する。 Binance USD-M Futuresの1時間間隔のデータに基づいて評価され、最適化されたRLポリシーは、ヒューリスティックなベースラインを大幅に上回った。固定されたブロックブートストラップの堅牢性チェックは、エージェントのリスク調整されたアウトパフォーマンスが統計的に10%のレベルで重要であることを確認します。厳密な5%の閾値をわずかに下回っているが、この結果はデジタル資産の極端に同調的な分散特性を浮き彫りにしている。最終的に、この論文は、統計的仲裁とDRL実行ポリシーを組み合わせたハイブリッドアーキテクチャを導入することで、定量的金融文献に寄与する。さらに、決定論的遮蔽(deterministic shielding)を通じて安全な強化学習のための新しいフレームワークを提供し、統計的に堅牢な境界にニューラルネットワークポリシーを固定することで、深刻な分散リスクを軽減できることを示した。

関連論文リスト

Taming the Black Swan: A Momentum-Gated Hierarchical Optimisation Framework for Asymmetric Alpha Generation [0.0]
本研究は,成長と安定のトレードオフを再設計する新しい枠組みであるアダプティブ・エクイティ・ジェネレーション・アンド・免疫システム(AEGIS)を提案する。ボラティリティ調整運動量フィルタを用いてトレンド強度を同定し、最小相関アルゴリズムを用いて構造的多様化を強制する。 2008年のGlobal Financial Crisisのような重要なストレスイベントをカバーする総合的な20年間のウォーキングフォワードバックテスト(2006-2025)による実証検証は、このフレームワークが標準のS&P 500ベンチマークと比較してかなり過剰なアルファを生成することを確認している。
論文参考訳（メタデータ） (2026-04-10T07:39:27Z)
BAPO: Boundary-Aware Policy Optimization for Reliable Agentic Search [72.87861928940929]
バウンダリ・アウェア・ポリシー・オプティマイゼーション(BAPO)は、信頼性の高い境界認識を精度を損なうことなく育成する新しいRLフレームワークである。 BAPOは2つの重要な要素を導入する: (i) グループベースの境界対応報酬(i) 推論が限界に達したときのみIDK応答を促進させる) 適応報酬変調器(ii) 早期探索中にこの報酬を戦略的に停止させ、モデルがIDKをショートカットとして利用するのを防ぐ。
論文参考訳（メタデータ） (2026-01-16T07:06:58Z)
Robust Reinforcement Learning in Finance: Modeling Market Impact with Elliptic Uncertainty Sets [57.179679246370114]
金融分野では、強化学習(RL)エージェントは、価格に影響を与えない歴史的データに基づいて訓練されることが多い。展開中、これらのエージェントは、自身の取引が資産価格を変えることができるライブマーケットで取引する。従来のロバストなRLアプローチは、不確実性の集合に対して最悪のパフォーマンスを最適化することで、このモデルの誤特定に対処する。楕円型不確実性集合の新たなクラスを開発し,効率的かつ堅牢な政策評価を可能にする。
論文参考訳（メタデータ） (2025-10-22T18:22:25Z)
Deep Reinforcement Learning for Optimal Asset Allocation Using DDPG with TiDE [14.43580976228378]
本研究は,マルコフ決定過程(MDP)における逐次決定課題として最適2段階割当問題を定式化する。このフレームワークは、シミュレーションされた金融シナリオに基づいて動的ポリシーを開発するための強化学習(RL)機構の適用を可能にする。我々はDDPG-TiDEを、単純な離散的なQ-learning RLフレームワークとパッシブ・バイ・アンド・ホールド投資戦略と比較した。
論文参考訳（メタデータ） (2025-08-12T11:59:55Z)
MARS: A Meta-Adaptive Reinforcement Learning Framework for Risk-Aware Multi-Agent Portfolio Management [7.740995234462868]
強化学習は、自動ポートフォリオ管理において大きな可能性を秘めている。リスク認識システム(MARS)のためのメタ制御エージェントを提案する。 MARSは異種エージェントアンサンブルを使用しており、各エージェントは固有の固有のリスクプロファイルを持っている。
論文参考訳（メタデータ） (2025-08-02T03:23:41Z)
Risk-averse policies for natural gas futures trading using distributional reinforcement learning [0.0]
本稿では,天然ガス先物取引における3つの分散RLアルゴリズムの有効性について検討する。私たちの知る限りでは、これらのアルゴリズムはトレーディングの文脈で一度も適用されていない。 CVaR を最大化するために C51 と IQN を訓練すると, リスク回避性のあるリスク感受性ポリシーが得られた。
論文参考訳（メタデータ） (2025-01-08T11:11:25Z)
Hierarchical Reinforced Trader (HRT): A Bi-Level Approach for Optimizing Stock Selection and Execution [0.9553307596675155]
本稿では,階層強化学習フレームワークを用いた新たなトレーディング戦略である階層強化トレーサ(HRT)を紹介する。 HRTは、戦略的株式選択のためのPPO(Proximal Policy Optimization)ベースのHigh-Level Controller(HLC)をDDPG(Deep Deterministic Policy Gradient)ベースのLow-Level Controller(LLC)と統合する。
論文参考訳（メタデータ） (2024-10-19T01:29:38Z)
Provable Risk-Sensitive Distributional Reinforcement Learning with General Function Approximation [54.61816424792866]
本稿では,リスク感性分布強化学習(RS-DisRL)と静的リプシッツリスク対策(LRM),一般関数近似について紹介する。モデルに基づく関数近似のためのモデルベース戦略であるtextttRS-DisRL-M と、一般値関数近似のためのモデルフリーアプローチである textttRS-DisRL-V の2つの革新的なメタアルゴリズムを設計する。
論文参考訳（メタデータ） (2024-02-28T08:43:18Z)
REX: Rapid Exploration and eXploitation for AI Agents [103.68453326880456]
本稿では、REXと呼ばれるAIエージェントのための高速探索およびeXploitationのための改良されたアプローチを提案する。 REXは追加の報酬層を導入し、アッパー信頼境界(UCB)スコアに似た概念を統合し、より堅牢で効率的なAIエージェントのパフォーマンスをもたらす。
論文参考訳（メタデータ） (2023-07-18T04:26:33Z)
Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文参考訳（メタデータ） (2022-05-10T19:40:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。