論文の概要: Deep Stock Trading: A Hierarchical Reinforcement Learning Framework for
Portfolio Optimization and Order Execution
- arxiv url: http://arxiv.org/abs/2012.12620v2
- Date: Sun, 7 Feb 2021 12:37:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-26 01:35:01.312961
- Title: Deep Stock Trading: A Hierarchical Reinforcement Learning Framework for
Portfolio Optimization and Order Execution
- Title(参考訳): Deep Stock Trading: ポートフォリオ最適化と注文実行のための階層的強化学習フレームワーク
- Authors: Rundong Wang, Hongxin Wei, Bo An, Zhouyan Feng, Jun Yao
- Abstract要約: ポートフォリオマネジメントのための階層型株取引システム(HRPM)を提案する。
我々は、取引プロセスを取引実行よりもポートフォリオ管理の階層に分解し、対応する政策を訓練する。
HRPMは多くの最先端アプローチに対して大幅な改善を実現している。
- 参考スコア(独自算出の注目度): 26.698261314897195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Portfolio management via reinforcement learning is at the forefront of
fintech research, which explores how to optimally reallocate a fund into
different financial assets over the long term by trial-and-error. Existing
methods are impractical since they usually assume each reallocation can be
finished immediately and thus ignoring the price slippage as part of the
trading cost. To address these issues, we propose a hierarchical reinforced
stock trading system for portfolio management (HRPM). Concretely, we decompose
the trading process into a hierarchy of portfolio management over trade
execution and train the corresponding policies. The high-level policy gives
portfolio weights at a lower frequency to maximize the long term profit and
invokes the low-level policy to sell or buy the corresponding shares within a
short time window at a higher frequency to minimize the trading cost. We train
two levels of policies via pre-training scheme and iterative training scheme
for data efficiency. Extensive experimental results in the U.S. market and the
China market demonstrate that HRPM achieves significant improvement against
many state-of-the-art approaches.
- Abstract(参考訳): 強化学習によるポートフォリオ管理はfintech researchの最前線にあり、試行錯誤によって長期にわたってファンドを異なる金融資産に最適に再配置する方法を探求している。
既存の方法は、通常、各再配置が直ちに完了すると仮定し、取引コストの一部として価格下落を無視しているため、現実的ではない。
そこで本稿では,ポートフォリオ管理のための階層的強化株取引システム(hrpm)を提案する。
具体的には、取引プロセスを取引実行よりもポートフォリオ管理の階層に分解し、対応する政策を訓練する。
高水準政策は、長期利益を最大化するためにポートフォリオ重量を低い周波数で与え、トレーディングコストを最小限に抑えるために、短時間の窓口で対応する株を高頻度で売り買いする低水準政策を呼び起こす。
データ効率のための事前学習スキームと反復訓練スキームを用いて2段階の政策を訓練する。
米国市場と中国市場における大規模な実験結果から、HRPMは多くの最先端のアプローチに対して大幅な改善を達成していることがわかる。
関連論文リスト
- Hierarchical Reinforced Trader (HRT): A Bi-Level Approach for Optimizing Stock Selection and Execution [0.9553307596675155]
本稿では,階層強化学習フレームワークを用いた新たなトレーディング戦略である階層強化トレーサ(HRT)を紹介する。
HRTは、戦略的株式選択のためのPPO(Proximal Policy Optimization)ベースのHigh-Level Controller(HLC)をDDPG(Deep Deterministic Policy Gradient)ベースのLow-Level Controller(LLC)と統合する。
論文 参考訳(メタデータ) (2024-10-19T01:29:38Z) - VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment [66.80143024475635]
VinePPOは不偏のモンテカルロ推定を計算するための簡単な手法である。
我々は、VinePPOが、MATHおよびGSM8Kデータセット間でPPOや他のRLフリーベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - Portfolio Management using Deep Reinforcement Learning [0.0]
我々は、資産への重みの配分を補助する強化ポートフォリオマネジャーを提案する。
環境はマネージャに、資産を長く、さらには短くする自由を与えます。
マネジャーは、取引料金なしで、仮定された流動市場において金融取引を行う。
論文 参考訳(メタデータ) (2024-05-01T22:28:55Z) - Deep Reinforcement Learning for Traveling Purchaser Problems [63.37136587778153]
旅行購入問題(TPP)は幅広いアプリケーションにおいて重要な最適化問題である。
本稿では,ルート構築と購入計画を個別に扱う,深層強化学習(DRL)に基づく新しいアプローチを提案する。
メタラーニング戦略を導入することで、大規模なTPPインスタンス上で安定してポリシーネットワークをトレーニングすることができる。
論文 参考訳(メタデータ) (2024-04-03T05:32:10Z) - Learning Multi-Agent Intention-Aware Communication for Optimal
Multi-Order Execution in Finance [96.73189436721465]
まず,現実的な制約を考慮したマルチオーダー実行のためのマルチエージェントRL(MARL)手法を提案する。
本稿では,学習可能なマルチラウンド通信プロトコルを提案する。
2つの実世界の市場のデータに関する実験では、優れたパフォーマンスを示し、コラボレーションの有効性が著しく向上した。
論文 参考訳(メタデータ) (2023-07-06T16:45:40Z) - Optimizing Trading Strategies in Quantitative Markets using Multi-Agent
Reinforcement Learning [11.556829339947031]
本稿では、固定比率ポートフォリオ保険(CPPI)と時間不変ポートフォリオ保護(TIPP)の2つの確立された金融取引戦略の統合について検討する。
本稿では,量的市場における戦略的取引の探索に適した2つの新しいマルチエージェントRL(MARL)手法,CPPI-MADDPGとTIPP-MADDPGを紹介する。
実験の結果,CPPI-MADDPGとTIPP-MADDPGの戦略は従来よりも一貫して優れていた。
論文 参考訳(メタデータ) (2023-03-15T11:47:57Z) - Uniswap Liquidity Provision: An Online Learning Approach [49.145538162253594]
分散取引所(DEX)は、テクノロジーを活用した新しいタイプのマーケットプレイスである。
そのようなDECの1つ、Unixwap v3は、流動性プロバイダが資金のアクティブな価格間隔を指定することで、より効率的に資金を割り当てることを可能にする。
これにより、価格間隔を選択するための最適な戦略を見出すことが問題となる。
我々は、この問題を非確率的な報酬を伴うオンライン学習問題として定式化する。
論文 参考訳(メタデータ) (2023-02-01T17:21:40Z) - Hierarchical Deep Reinforcement Learning for VWAP Strategy Optimization [9.430129571478629]
本稿では,市場パターンを把握し,時間スケールの異なる命令を実行するための,深層学習と階層型強化学習アーキテクチャを提案する。
提案手法は,VWAPスリップにおけるベースラインよりも高い性能を示し,平均コストは,最適ベースラインと比較して1.16塩基ポイントである。
論文 参考訳(メタデータ) (2022-12-11T07:35:26Z) - MetaTrader: An Reinforcement Learning Approach Integrating Diverse
Policies for Portfolio Optimization [17.759687104376855]
ポートフォリオ管理のための新しい2段階的アプローチを提案する。
最初の段階では、強化学習フレームワークに模倣学習を組み込む。
第2段階では、メタ政治を学び、市場状況を認識し、従うべき最も適切な学習方針を決定する。
論文 参考訳(メタデータ) (2022-09-01T07:58:06Z) - Universal Trading for Order Execution with Oracle Policy Distillation [99.57416828489568]
本稿では,不完全な市場状態と注文実行のための最適な行動シーケンスとのギャップを埋める,新たなユニバーサル取引ポリシー最適化フレームワークを提案する。
本研究の枠組みは,完全情報を持つ託宣教師による実践的最適実行に向けて,共通政策の学習を指導する上で有効であることを示す。
論文 参考訳(メタデータ) (2021-01-28T05:52:18Z) - A Deep Reinforcement Learning Framework for Continuous Intraday Market
Bidding [69.37299910149981]
再生可能エネルギー源統合の成功の鍵となる要素は、エネルギー貯蔵の利用である。
欧州の継続的な日内市場におけるエネルギー貯蔵の戦略的関与をモデル化するための新しい枠組みを提案する。
本アルゴリズムの分散バージョンは, サンプル効率のため, この問題を解決するために選択される。
その結果, エージェントは, ベンチマーク戦略よりも平均的収益率の高い政策に収束することが示唆された。
論文 参考訳(メタデータ) (2020-04-13T13:50:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。