Fugu-MT 論文翻訳(概要): Hierarchical Deep Reinforcement Learning for VWAP Strategy Optimization

論文の概要: Hierarchical Deep Reinforcement Learning for VWAP Strategy Optimization

arxiv url: http://arxiv.org/abs/2212.14670v1
Date: Sun, 11 Dec 2022 07:35:26 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-09 13:47:30.338566
Title: Hierarchical Deep Reinforcement Learning for VWAP Strategy Optimization
Title（参考訳）: VWAP戦略最適化のための階層的深層強化学習
Authors: Xiaodong Li, Pangjing Wu, Chenxin Zou, Qing Li
Abstract要約: 本稿では,市場パターンを把握し,時間スケールの異なる命令を実行するための,深層学習と階層型強化学習アーキテクチャを提案する。提案手法は,VWAPスリップにおけるベースラインよりも高い性能を示し,平均コストは,最適ベースラインと比較して1.16塩基ポイントである。
参考スコア（独自算出の注目度）: 9.430129571478629
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Designing an intelligent volume-weighted average price (VWAP) strategy is a critical concern for brokers, since traditional rule-based strategies are relatively static that cannot achieve a lower transaction cost in a dynamic market. Many studies have tried to minimize the cost via reinforcement learning, but there are bottlenecks in improvement, especially for long-duration strategies such as the VWAP strategy. To address this issue, we propose a deep learning and hierarchical reinforcement learning jointed architecture termed Macro-Meta-Micro Trader (M3T) to capture market patterns and execute orders from different temporal scales. The Macro Trader first allocates a parent order into tranches based on volume profiles as the traditional VWAP strategy does, but a long short-term memory neural network is used to improve the forecasting accuracy. Then the Meta Trader selects a short-term subgoal appropriate to instant liquidity within each tranche to form a mini-tranche. The Micro Trader consequently extracts the instant market state and fulfils the subgoal with the lowest transaction cost. Our experiments over stocks listed on the Shanghai stock exchange demonstrate that our approach outperforms baselines in terms of VWAP slippage, with an average cost saving of 1.16 base points compared to the optimal baseline.
Abstract（参考訳）: インテリジェントなボリューム重み付き平均価格(VWAP)戦略を設計することはブローカーにとって重要な関心事である。多くの研究は、強化学習によるコストの最小化を試みたが、特にVWAP戦略のような長期戦略において、改善のボトルネックがある。この問題に対処するために,マクロ・メタ・マイクロトレーダー(M3T)と呼ばれる,深層学習と階層的強化学習の統合アーキテクチャを提案する。マクロトレーダーは、従来のVWAP戦略と同じように、ボリュームプロファイルに基づいて親注文をトランシェに割り当てるが、予測精度を向上させるために長期記憶ニューラルネットワークを使用する。次に、メタトレーダは、各トランシェ内の即時流動性に適した短期サブゴアを選択してミニトランシェを形成する。その結果、マイクロトレーダーは、即時市場状態を抽出し、最低の取引コストでサブゴールを満たす。上海証券取引所に上場した株式に対する実験では、VWAPスリップの基準値よりも高い性能を示し、最適基準値と比較すると平均コストは1.16ポイントである。

関連論文リスト

Deep Learning for VWAP Execution in Crypto Markets: Beyond the Volume Curve [0.0]
Volume-Weighted Average Price (VWAP) は、おそらく取引実行の最も一般的なベンチマークである。 VWAPの達成は、ボリュームと価格の2つの動的要因に依存しているため、本質的に困難である。本稿では,ボリューム曲線予測の中間段階をバイパスすることで,VWAP実行目標を直接最適化するディープラーニングフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-19T13:49:51Z)
Benchmarking Post-Training Quantization in LLMs: Comprehensive Taxonomy, Unified Evaluation, and Comparative Analysis [89.60263788590893]
後学習量子化(PTQ)技術は大規模言語モデル(LLM)圧縮に広く採用されている。既存のアルゴリズムは主にパフォーマンスに重点を置いており、モデルサイズ、パフォーマンス、量子化ビット幅間のトレードオフを見越している。本稿では LLM PTQ のための新しいベンチマークを提案する。
論文参考訳（メタデータ） (2025-02-18T07:35:35Z)
EPO: Explicit Policy Optimization for Strategic Reasoning in LLMs via Reinforcement Learning [69.55982246413046]
戦略的推論のための明示的なポリシー最適化(EPO)を提案する。 EPOはオープンなアクション空間で戦略を提供し、任意のLLMエージェントにプラグインすることで、ゴール指向の振る舞いを動機付けることができる。社会的および物理的領域にわたる実験は、EPOの長期的なゴールアライメント能力を示す。
論文参考訳（メタデータ） (2025-02-18T03:15:55Z)
Regret-Optimized Portfolio Enhancement through Deep Reinforcement Learning and Future Looking Rewards [3.9795751586546766]
本稿では、PPO(Proximal Policy Optimization)を用いた既存のポートフォリオ戦略を強化するためのエージェントベースの新しいアプローチを提案する。従来のポートフォリオ構築にのみ焦点をあてるのではなく、当社のアプローチは、PPOとOracleエージェントによって駆動される動的リバランスを通じて、すでに高性能な戦略を改善することを目的としています。
論文参考訳（メタデータ） (2025-02-04T11:45:59Z)
The N-Grammys: Accelerating Autoregressive Inference with Learning-Free Batched Speculation [48.52206677611072]
投機的復号化は、より小さなドラフトモデルによって生成されたトークンを並列に検証することで、言語モデルの自己回帰生成を高速化することを目的としている。単純な戦略の組み合わせは、異なるタスクに対して大きな推論スピードアップを達成できることを示す。
論文参考訳（メタデータ） (2024-11-06T09:23:50Z)
VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment [66.80143024475635]
VinePPOは不偏のモンテカルロ推定を計算するための簡単な手法である。我々は、VinePPOが、MATHおよびGSM8Kデータセット間でPPOや他のRLフリーベースラインを一貫して上回ることを示す。
論文参考訳（メタデータ） (2024-10-02T15:49:30Z)
Deep Reinforcement Learning and Mean-Variance Strategies for Responsible Portfolio Optimization [49.396692286192206]
本研究では,ESG状態と目的を取り入れたポートフォリオ最適化のための深層強化学習について検討する。以上の結果から,ポートフォリオアロケーションに対する平均分散アプローチに対して,深層強化学習政策が競争力を発揮する可能性が示唆された。
論文参考訳（メタデータ） (2024-03-25T12:04:03Z)
MERMAIDE: Learning to Align Learners using Model-Based Meta-Learning [62.065503126104126]
本研究では,先見のつかない学習エージェントの報酬を効率よく効果的に介入し,望ましい結果を導き出す方法について検討する。これはオークションや課税のような現実世界の多くの設定に関係しており、プリンシパルは学習行動や実際の人々の報酬を知らないかもしれない。モデルに基づくメタ学習フレームワークであるMERMAIDEを導入し,配布外エージェントに迅速に適応できるプリンシパルを訓練する。
論文参考訳（メタデータ） (2023-04-10T15:44:50Z)
Intelligent Systematic Investment Agent: an ensemble of deep learning and evolutionary strategies [0.0]
本稿では,進化的アルゴリズムと深層学習モデルを組み合わせた長期投資戦略開発手法を提案する。本手法は, 長期投資計画(SIP)におけるETF決定を一定期間にわたって改善することにより, 長期的富の創出に重点を置いている。
論文参考訳（メタデータ） (2022-03-24T15:39:05Z)
A Meta-Method for Portfolio Management Using Machine Learning for Adaptive Strategy Selection [0.0]
MPMは2つのリスクベースのポートフォリオ割り当て戦略を切り替える方法を学ぶためにXGBoostを使用している。 MPMはシャープ比で測定されるように、優れたサンプル外リスク・リワードプロファイルを有することが示されている。
論文参考訳（メタデータ） (2021-11-10T20:46:43Z)
Bitcoin Transaction Strategy Construction Based on Deep Reinforcement Learning [8.431365407963629]
本研究では,PPO(Deep reinforcement Learning Algorithm-proximal Policy Optimization)に基づく,高速ビットコイン自動取引のためのフレームワークを提案する。提案したフレームワークは、ボラティリティと急上昇の期間を通じて過剰なリターンを得ることができるため、ディープラーニングに基づく単一暗号通貨取引戦略を構築するための扉を開くことができる。
論文参考訳（メタデータ） (2021-09-30T01:24:03Z)
Slow Momentum with Fast Reversion: A Trading Strategy Using Deep Learning and Changepoint Detection [2.9005223064604078]
我々は、Deep Momentum Network (DMN) パイプラインにオンライン変更点検出(CPD)モジュールを導入する。我々のCPDモジュールは、変化点の位置と重大度スコアを出力し、モデルが不均衡の度合いに反応することを学べる。 1990-2020年の間、50, Liquid, Continuous Futures のポートフォリオを使用して CPD モジュールを追加することで、Sharpe 比が 33%$ になる。
論文参考訳（メタデータ） (2021-05-28T10:46:53Z)
Universal Trading for Order Execution with Oracle Policy Distillation [99.57416828489568]
本稿では,不完全な市場状態と注文実行のための最適な行動シーケンスとのギャップを埋める,新たなユニバーサル取引ポリシー最適化フレームワークを提案する。本研究の枠組みは,完全情報を持つ託宣教師による実践的最適実行に向けて,共通政策の学習を指導する上で有効であることを示す。
論文参考訳（メタデータ） (2021-01-28T05:52:18Z)
Deep Stock Trading: A Hierarchical Reinforcement Learning Framework for Portfolio Optimization and Order Execution [26.698261314897195]
ポートフォリオマネジメントのための階層型株取引システム(HRPM)を提案する。我々は、取引プロセスを取引実行よりもポートフォリオ管理の階層に分解し、対応する政策を訓練する。 HRPMは多くの最先端アプローチに対して大幅な改善を実現している。
論文参考訳（メタデータ） (2020-12-23T12:09:26Z)
Deep Stock Predictions [58.720142291102135]
本稿では,Long Short Term Memory (LSTM) ニューラルネットワークを用いてポートフォリオ最適化を行うトレーディング戦略の設計について考察する。次に、LSTMのトレーニングに使用する損失関数をカスタマイズし、利益を上げる。カスタマイズされた損失関数を持つLSTMモデルは、ARIMAのような回帰ベースライン上でのトレーニングボットの性能を向上させる。
論文参考訳（メタデータ） (2020-06-08T23:37:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。