論文の概要: Hierarchical Deep Reinforcement Learning for VWAP Strategy Optimization
- arxiv url: http://arxiv.org/abs/2212.14670v1
- Date: Sun, 11 Dec 2022 07:35:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-09 13:47:30.338566
- Title: Hierarchical Deep Reinforcement Learning for VWAP Strategy Optimization
- Title(参考訳): VWAP戦略最適化のための階層的深層強化学習
- Authors: Xiaodong Li, Pangjing Wu, Chenxin Zou, Qing Li
- Abstract要約: 本稿では,市場パターンを把握し,時間スケールの異なる命令を実行するための,深層学習と階層型強化学習アーキテクチャを提案する。
提案手法は,VWAPスリップにおけるベースラインよりも高い性能を示し,平均コストは,最適ベースラインと比較して1.16塩基ポイントである。
- 参考スコア(独自算出の注目度): 9.430129571478629
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Designing an intelligent volume-weighted average price (VWAP) strategy is a
critical concern for brokers, since traditional rule-based strategies are
relatively static that cannot achieve a lower transaction cost in a dynamic
market. Many studies have tried to minimize the cost via reinforcement
learning, but there are bottlenecks in improvement, especially for
long-duration strategies such as the VWAP strategy. To address this issue, we
propose a deep learning and hierarchical reinforcement learning jointed
architecture termed Macro-Meta-Micro Trader (M3T) to capture market patterns
and execute orders from different temporal scales. The Macro Trader first
allocates a parent order into tranches based on volume profiles as the
traditional VWAP strategy does, but a long short-term memory neural network is
used to improve the forecasting accuracy. Then the Meta Trader selects a
short-term subgoal appropriate to instant liquidity within each tranche to form
a mini-tranche. The Micro Trader consequently extracts the instant market state
and fulfils the subgoal with the lowest transaction cost. Our experiments over
stocks listed on the Shanghai stock exchange demonstrate that our approach
outperforms baselines in terms of VWAP slippage, with an average cost saving of
1.16 base points compared to the optimal baseline.
- Abstract(参考訳): インテリジェントなボリューム重み付き平均価格(VWAP)戦略を設計することはブローカーにとって重要な関心事である。
多くの研究は、強化学習によるコストの最小化を試みたが、特にVWAP戦略のような長期戦略において、改善のボトルネックがある。
この問題に対処するために,マクロ・メタ・マイクロトレーダー(M3T)と呼ばれる,深層学習と階層的強化学習の統合アーキテクチャを提案する。
マクロトレーダーは、従来のVWAP戦略と同じように、ボリュームプロファイルに基づいて親注文をトランシェに割り当てるが、予測精度を向上させるために長期記憶ニューラルネットワークを使用する。
次に、メタトレーダは、各トランシェ内の即時流動性に適した短期サブゴアを選択してミニトランシェを形成する。
その結果、マイクロトレーダーは、即時市場状態を抽出し、最低の取引コストでサブゴールを満たす。
上海証券取引所に上場した株式に対する実験では、VWAPスリップの基準値よりも高い性能を示し、最適基準値と比較すると平均コストは1.16ポイントである。
関連論文リスト
- The N-Grammys: Accelerating Autoregressive Inference with Learning-Free Batched Speculation [48.52206677611072]
投機的復号化は、より小さなドラフトモデルによって生成されたトークンを並列に検証することで、言語モデルの自己回帰生成を高速化することを目的としている。
単純な戦略の組み合わせは、異なるタスクに対して大きな推論スピードアップを達成できることを示す。
論文 参考訳(メタデータ) (2024-11-06T09:23:50Z) - VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment [66.80143024475635]
VinePPOは不偏のモンテカルロ推定を計算するための簡単な手法である。
我々は、VinePPOが、MATHおよびGSM8Kデータセット間でPPOや他のRLフリーベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - Deep Reinforcement Learning and Mean-Variance Strategies for Responsible Portfolio Optimization [49.396692286192206]
本研究では,ESG状態と目的を取り入れたポートフォリオ最適化のための深層強化学習について検討する。
以上の結果から,ポートフォリオアロケーションに対する平均分散アプローチに対して,深層強化学習政策が競争力を発揮する可能性が示唆された。
論文 参考訳(メタデータ) (2024-03-25T12:04:03Z) - MERMAIDE: Learning to Align Learners using Model-Based Meta-Learning [62.065503126104126]
本研究では,先見のつかない学習エージェントの報酬を効率よく効果的に介入し,望ましい結果を導き出す方法について検討する。
これはオークションや課税のような現実世界の多くの設定に関係しており、プリンシパルは学習行動や実際の人々の報酬を知らないかもしれない。
モデルに基づくメタ学習フレームワークであるMERMAIDEを導入し,配布外エージェントに迅速に適応できるプリンシパルを訓練する。
論文 参考訳(メタデータ) (2023-04-10T15:44:50Z) - Intelligent Systematic Investment Agent: an ensemble of deep learning
and evolutionary strategies [0.0]
本稿では,進化的アルゴリズムと深層学習モデルを組み合わせた長期投資戦略開発手法を提案する。
本手法は, 長期投資計画(SIP)におけるETF決定を一定期間にわたって改善することにより, 長期的富の創出に重点を置いている。
論文 参考訳(メタデータ) (2022-03-24T15:39:05Z) - A Meta-Method for Portfolio Management Using Machine Learning for
Adaptive Strategy Selection [0.0]
MPMは2つのリスクベースのポートフォリオ割り当て戦略を切り替える方法を学ぶためにXGBoostを使用している。
MPMはシャープ比で測定されるように、優れたサンプル外リスク・リワードプロファイルを有することが示されている。
論文 参考訳(メタデータ) (2021-11-10T20:46:43Z) - Bitcoin Transaction Strategy Construction Based on Deep Reinforcement
Learning [8.431365407963629]
本研究では,PPO(Deep reinforcement Learning Algorithm-proximal Policy Optimization)に基づく,高速ビットコイン自動取引のためのフレームワークを提案する。
提案したフレームワークは、ボラティリティと急上昇の期間を通じて過剰なリターンを得ることができるため、ディープラーニングに基づく単一暗号通貨取引戦略を構築するための扉を開くことができる。
論文 参考訳(メタデータ) (2021-09-30T01:24:03Z) - Slow Momentum with Fast Reversion: A Trading Strategy Using Deep
Learning and Changepoint Detection [2.9005223064604078]
我々は、Deep Momentum Network (DMN) パイプラインにオンライン変更点検出(CPD)モジュールを導入する。
我々のCPDモジュールは、変化点の位置と重大度スコアを出力し、モデルが不均衡の度合いに反応することを学べる。
1990-2020年の間、50, Liquid, Continuous Futures のポートフォリオを使用して CPD モジュールを追加することで、Sharpe 比が 33%$ になる。
論文 参考訳(メタデータ) (2021-05-28T10:46:53Z) - Universal Trading for Order Execution with Oracle Policy Distillation [99.57416828489568]
本稿では,不完全な市場状態と注文実行のための最適な行動シーケンスとのギャップを埋める,新たなユニバーサル取引ポリシー最適化フレームワークを提案する。
本研究の枠組みは,完全情報を持つ託宣教師による実践的最適実行に向けて,共通政策の学習を指導する上で有効であることを示す。
論文 参考訳(メタデータ) (2021-01-28T05:52:18Z) - Deep Stock Trading: A Hierarchical Reinforcement Learning Framework for
Portfolio Optimization and Order Execution [26.698261314897195]
ポートフォリオマネジメントのための階層型株取引システム(HRPM)を提案する。
我々は、取引プロセスを取引実行よりもポートフォリオ管理の階層に分解し、対応する政策を訓練する。
HRPMは多くの最先端アプローチに対して大幅な改善を実現している。
論文 参考訳(メタデータ) (2020-12-23T12:09:26Z) - Deep Stock Predictions [58.720142291102135]
本稿では,Long Short Term Memory (LSTM) ニューラルネットワークを用いてポートフォリオ最適化を行うトレーディング戦略の設計について考察する。
次に、LSTMのトレーニングに使用する損失関数をカスタマイズし、利益を上げる。
カスタマイズされた損失関数を持つLSTMモデルは、ARIMAのような回帰ベースライン上でのトレーニングボットの性能を向上させる。
論文 参考訳(メタデータ) (2020-06-08T23:37:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。