論文の概要: Hierarchical Deep Reinforcement Learning for VWAP Strategy Optimization
- arxiv url: http://arxiv.org/abs/2212.14670v1
- Date: Sun, 11 Dec 2022 07:35:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-09 13:47:30.338566
- Title: Hierarchical Deep Reinforcement Learning for VWAP Strategy Optimization
- Title(参考訳): VWAP戦略最適化のための階層的深層強化学習
- Authors: Xiaodong Li, Pangjing Wu, Chenxin Zou, Qing Li
- Abstract要約: 本稿では,市場パターンを把握し,時間スケールの異なる命令を実行するための,深層学習と階層型強化学習アーキテクチャを提案する。
提案手法は,VWAPスリップにおけるベースラインよりも高い性能を示し,平均コストは,最適ベースラインと比較して1.16塩基ポイントである。
- 参考スコア(独自算出の注目度): 9.430129571478629
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Designing an intelligent volume-weighted average price (VWAP) strategy is a
critical concern for brokers, since traditional rule-based strategies are
relatively static that cannot achieve a lower transaction cost in a dynamic
market. Many studies have tried to minimize the cost via reinforcement
learning, but there are bottlenecks in improvement, especially for
long-duration strategies such as the VWAP strategy. To address this issue, we
propose a deep learning and hierarchical reinforcement learning jointed
architecture termed Macro-Meta-Micro Trader (M3T) to capture market patterns
and execute orders from different temporal scales. The Macro Trader first
allocates a parent order into tranches based on volume profiles as the
traditional VWAP strategy does, but a long short-term memory neural network is
used to improve the forecasting accuracy. Then the Meta Trader selects a
short-term subgoal appropriate to instant liquidity within each tranche to form
a mini-tranche. The Micro Trader consequently extracts the instant market state
and fulfils the subgoal with the lowest transaction cost. Our experiments over
stocks listed on the Shanghai stock exchange demonstrate that our approach
outperforms baselines in terms of VWAP slippage, with an average cost saving of
1.16 base points compared to the optimal baseline.
- Abstract(参考訳): インテリジェントなボリューム重み付き平均価格(VWAP)戦略を設計することはブローカーにとって重要な関心事である。
多くの研究は、強化学習によるコストの最小化を試みたが、特にVWAP戦略のような長期戦略において、改善のボトルネックがある。
この問題に対処するために,マクロ・メタ・マイクロトレーダー(M3T)と呼ばれる,深層学習と階層的強化学習の統合アーキテクチャを提案する。
マクロトレーダーは、従来のVWAP戦略と同じように、ボリュームプロファイルに基づいて親注文をトランシェに割り当てるが、予測精度を向上させるために長期記憶ニューラルネットワークを使用する。
次に、メタトレーダは、各トランシェ内の即時流動性に適した短期サブゴアを選択してミニトランシェを形成する。
その結果、マイクロトレーダーは、即時市場状態を抽出し、最低の取引コストでサブゴールを満たす。
上海証券取引所に上場した株式に対する実験では、VWAPスリップの基準値よりも高い性能を示し、最適基準値と比較すると平均コストは1.16ポイントである。
関連論文リスト
- Deep Learning for VWAP Execution in Crypto Markets: Beyond the Volume Curve [0.0]
Volume-Weighted Average Price (VWAP) は、おそらく取引実行の最も一般的なベンチマークである。
VWAPの達成は、ボリュームと価格の2つの動的要因に依存しているため、本質的に困難である。
本稿では,ボリューム曲線予測の中間段階をバイパスすることで,VWAP実行目標を直接最適化するディープラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-19T13:49:51Z) - Benchmarking Post-Training Quantization in LLMs: Comprehensive Taxonomy, Unified Evaluation, and Comparative Analysis [89.60263788590893]
後学習量子化(PTQ)技術は大規模言語モデル(LLM)圧縮に広く採用されている。
既存のアルゴリズムは主にパフォーマンスに重点を置いており、モデルサイズ、パフォーマンス、量子化ビット幅間のトレードオフを見越している。
論文 参考訳(メタデータ) (2025-02-18T07:35:35Z) - Universal Model Routing for Efficient LLM Inference [72.65083061619752]
我々は,これまで観測されていなかった新しいLLMがテスト時に利用可能となる動的ルーティングの問題を考察する。
本稿では,各LSMを特徴ベクトルとして表現する手法を提案する。
これらの戦略が理論的に最適なルーティングルールの推定であり、エラーを定量化するための過剰なリスクを提供する。
論文 参考訳(メタデータ) (2025-02-12T20:30:28Z) - Regret-Optimized Portfolio Enhancement through Deep Reinforcement Learning and Future Looking Rewards [3.9795751586546766]
本稿では、PPO(Proximal Policy Optimization)を用いた既存のポートフォリオ戦略を強化するためのエージェントベースの新しいアプローチを提案する。
従来のポートフォリオ構築にのみ焦点をあてるのではなく、当社のアプローチは、PPOとOracleエージェントによって駆動される動的リバランスを通じて、すでに高性能な戦略を改善することを目的としています。
論文 参考訳(メタデータ) (2025-02-04T11:45:59Z) - The N-Grammys: Accelerating Autoregressive Inference with Learning-Free Batched Speculation [48.52206677611072]
投機的復号化は、より小さなドラフトモデルによって生成されたトークンを並列に検証することで、言語モデルの自己回帰生成を高速化することを目的としている。
単純な戦略の組み合わせは、異なるタスクに対して大きな推論スピードアップを達成できることを示す。
論文 参考訳(メタデータ) (2024-11-06T09:23:50Z) - VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment [66.80143024475635]
VinePPOは不偏のモンテカルロ推定を計算するための簡単な手法である。
我々は、VinePPOが、MATHおよびGSM8Kデータセット間でPPOや他のRLフリーベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - Intelligent Systematic Investment Agent: an ensemble of deep learning
and evolutionary strategies [0.0]
本稿では,進化的アルゴリズムと深層学習モデルを組み合わせた長期投資戦略開発手法を提案する。
本手法は, 長期投資計画(SIP)におけるETF決定を一定期間にわたって改善することにより, 長期的富の創出に重点を置いている。
論文 参考訳(メタデータ) (2022-03-24T15:39:05Z) - Bitcoin Transaction Strategy Construction Based on Deep Reinforcement
Learning [8.431365407963629]
本研究では,PPO(Deep reinforcement Learning Algorithm-proximal Policy Optimization)に基づく,高速ビットコイン自動取引のためのフレームワークを提案する。
提案したフレームワークは、ボラティリティと急上昇の期間を通じて過剰なリターンを得ることができるため、ディープラーニングに基づく単一暗号通貨取引戦略を構築するための扉を開くことができる。
論文 参考訳(メタデータ) (2021-09-30T01:24:03Z) - Universal Trading for Order Execution with Oracle Policy Distillation [99.57416828489568]
本稿では,不完全な市場状態と注文実行のための最適な行動シーケンスとのギャップを埋める,新たなユニバーサル取引ポリシー最適化フレームワークを提案する。
本研究の枠組みは,完全情報を持つ託宣教師による実践的最適実行に向けて,共通政策の学習を指導する上で有効であることを示す。
論文 参考訳(メタデータ) (2021-01-28T05:52:18Z) - Deep Stock Trading: A Hierarchical Reinforcement Learning Framework for
Portfolio Optimization and Order Execution [26.698261314897195]
ポートフォリオマネジメントのための階層型株取引システム(HRPM)を提案する。
我々は、取引プロセスを取引実行よりもポートフォリオ管理の階層に分解し、対応する政策を訓練する。
HRPMは多くの最先端アプローチに対して大幅な改善を実現している。
論文 参考訳(メタデータ) (2020-12-23T12:09:26Z) - Deep Stock Predictions [58.720142291102135]
本稿では,Long Short Term Memory (LSTM) ニューラルネットワークを用いてポートフォリオ最適化を行うトレーディング戦略の設計について考察する。
次に、LSTMのトレーニングに使用する損失関数をカスタマイズし、利益を上げる。
カスタマイズされた損失関数を持つLSTMモデルは、ARIMAのような回帰ベースライン上でのトレーニングボットの性能を向上させる。
論文 参考訳(メタデータ) (2020-06-08T23:37:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。