Fugu-MT 論文翻訳(概要): Deep Stock Trading: A Hierarchical Reinforcement Learning Framework for Portfolio Optimization and Order Execution

論文の概要: Deep Stock Trading: A Hierarchical Reinforcement Learning Framework for Portfolio Optimization and Order Execution

arxiv url: http://arxiv.org/abs/2012.12620v2
Date: Sun, 7 Feb 2021 12:37:07 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-26 01:35:01.312961
Title: Deep Stock Trading: A Hierarchical Reinforcement Learning Framework for Portfolio Optimization and Order Execution
Title（参考訳）: Deep Stock Trading: ポートフォリオ最適化と注文実行のための階層的強化学習フレームワーク
Authors: Rundong Wang, Hongxin Wei, Bo An, Zhouyan Feng, Jun Yao
Abstract要約: ポートフォリオマネジメントのための階層型株取引システム(HRPM)を提案する。我々は、取引プロセスを取引実行よりもポートフォリオ管理の階層に分解し、対応する政策を訓練する。 HRPMは多くの最先端アプローチに対して大幅な改善を実現している。
参考スコア（独自算出の注目度）: 26.698261314897195
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Portfolio management via reinforcement learning is at the forefront of fintech research, which explores how to optimally reallocate a fund into different financial assets over the long term by trial-and-error. Existing methods are impractical since they usually assume each reallocation can be finished immediately and thus ignoring the price slippage as part of the trading cost. To address these issues, we propose a hierarchical reinforced stock trading system for portfolio management (HRPM). Concretely, we decompose the trading process into a hierarchy of portfolio management over trade execution and train the corresponding policies. The high-level policy gives portfolio weights at a lower frequency to maximize the long term profit and invokes the low-level policy to sell or buy the corresponding shares within a short time window at a higher frequency to minimize the trading cost. We train two levels of policies via pre-training scheme and iterative training scheme for data efficiency. Extensive experimental results in the U.S. market and the China market demonstrate that HRPM achieves significant improvement against many state-of-the-art approaches.
Abstract（参考訳）: 強化学習によるポートフォリオ管理はfintech researchの最前線にあり、試行錯誤によって長期にわたってファンドを異なる金融資産に最適に再配置する方法を探求している。既存の方法は、通常、各再配置が直ちに完了すると仮定し、取引コストの一部として価格下落を無視しているため、現実的ではない。そこで本稿では,ポートフォリオ管理のための階層的強化株取引システム(hrpm)を提案する。具体的には、取引プロセスを取引実行よりもポートフォリオ管理の階層に分解し、対応する政策を訓練する。高水準政策は、長期利益を最大化するためにポートフォリオ重量を低い周波数で与え、トレーディングコストを最小限に抑えるために、短時間の窓口で対応する株を高頻度で売り買いする低水準政策を呼び起こす。データ効率のための事前学習スキームと反復訓練スキームを用いて2段階の政策を訓練する。米国市場と中国市場における大規模な実験結果から、HRPMは多くの最先端のアプローチに対して大幅な改善を達成していることがわかる。

関連論文リスト

Building crypto portfolios with agentic AI [46.348283638884425]
暗号通貨市場の急速な成長は投資家に新たな機会を与えたが、同時に高いボラティリティがもたらされた。本稿では,暗号アロケーションを自律的に構築し,評価するためのマルチエージェントシステムの実用化について述べる。
論文参考訳（メタデータ） (2025-07-11T18:03:51Z)
Your Offline Policy is Not Trustworthy: Bilevel Reinforcement Learning for Sequential Portfolio Optimization [82.03139922490796]
強化学習(Reinforcement Learning, RL)は、過去のデータを用いたリスクを最小限にしつつ累積リターンを最大化することを目的とした、株式取引のような逐次的ポートフォリオ最適化タスクにおいて、大きな可能性を示してきた。従来のRLアプローチは、固定データセット内での振る舞いの購入と販売を最適に記憶するだけのポリシーを生成することが多い。当社のアプローチでは,ポートフォリオ最適化を新たなタイプの部分オフラインRL問題として捉え,2つの技術的貢献を行う。
論文参考訳（メタデータ） (2025-05-19T06:37:25Z)
Regret-Optimized Portfolio Enhancement through Deep Reinforcement Learning and Future Looking Rewards [3.9795751586546766]
本稿では、PPO(Proximal Policy Optimization)を用いた既存のポートフォリオ戦略を強化するためのエージェントベースの新しいアプローチを提案する。従来のポートフォリオ構築にのみ焦点をあてるのではなく、当社のアプローチは、PPOとOracleエージェントによって駆動される動的リバランスを通じて、すでに高性能な戦略を改善することを目的としています。
論文参考訳（メタデータ） (2025-02-04T11:45:59Z)
Hierarchical Reinforced Trader (HRT): A Bi-Level Approach for Optimizing Stock Selection and Execution [0.9553307596675155]
本稿では,階層強化学習フレームワークを用いた新たなトレーディング戦略である階層強化トレーサ(HRT)を紹介する。 HRTは、戦略的株式選択のためのPPO(Proximal Policy Optimization)ベースのHigh-Level Controller(HLC)をDDPG(Deep Deterministic Policy Gradient)ベースのLow-Level Controller(LLC)と統合する。
論文参考訳（メタデータ） (2024-10-19T01:29:38Z)
VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment [66.80143024475635]
VinePPOは不偏のモンテカルロ推定を計算するための簡単な手法である。我々は、VinePPOが、MATHおよびGSM8Kデータセット間でPPOや他のRLフリーベースラインを一貫して上回ることを示す。
論文参考訳（メタデータ） (2024-10-02T15:49:30Z)
Portfolio Management using Deep Reinforcement Learning [0.0]
我々は、資産への重みの配分を補助する強化ポートフォリオマネジャーを提案する。環境はマネージャに、資産を長く、さらには短くする自由を与えます。マネジャーは、取引料金なしで、仮定された流動市場において金融取引を行う。
論文参考訳（メタデータ） (2024-05-01T22:28:55Z)
Deep Reinforcement Learning for Traveling Purchaser Problems [63.37136587778153]
旅行購入問題(TPP)は幅広いアプリケーションにおいて重要な最適化問題である。本稿では,ルート構築と購入計画を個別に扱う,深層強化学習(DRL)に基づく新しいアプローチを提案する。メタラーニング戦略を導入することで、大規模なTPPインスタンス上で安定してポリシーネットワークをトレーニングすることができる。
論文参考訳（メタデータ） (2024-04-03T05:32:10Z)
Learning Multi-Agent Intention-Aware Communication for Optimal Multi-Order Execution in Finance [96.73189436721465]
まず,現実的な制約を考慮したマルチオーダー実行のためのマルチエージェントRL(MARL)手法を提案する。本稿では,学習可能なマルチラウンド通信プロトコルを提案する。 2つの実世界の市場のデータに関する実験では、優れたパフォーマンスを示し、コラボレーションの有効性が著しく向上した。
論文参考訳（メタデータ） (2023-07-06T16:45:40Z)
Optimizing Trading Strategies in Quantitative Markets using Multi-Agent Reinforcement Learning [11.556829339947031]
本稿では、固定比率ポートフォリオ保険(CPPI)と時間不変ポートフォリオ保護(TIPP)の2つの確立された金融取引戦略の統合について検討する。本稿では,量的市場における戦略的取引の探索に適した2つの新しいマルチエージェントRL(MARL)手法,CPPI-MADDPGとTIPP-MADDPGを紹介する。実験の結果,CPPI-MADDPGとTIPP-MADDPGの戦略は従来よりも一貫して優れていた。
論文参考訳（メタデータ） (2023-03-15T11:47:57Z)
Uniswap Liquidity Provision: An Online Learning Approach [49.145538162253594]
分散取引所(DEX)は、テクノロジーを活用した新しいタイプのマーケットプレイスである。そのようなDECの1つ、Unixwap v3は、流動性プロバイダが資金のアクティブな価格間隔を指定することで、より効率的に資金を割り当てることを可能にする。これにより、価格間隔を選択するための最適な戦略を見出すことが問題となる。我々は、この問題を非確率的な報酬を伴うオンライン学習問題として定式化する。
論文参考訳（メタデータ） (2023-02-01T17:21:40Z)
Hierarchical Deep Reinforcement Learning for VWAP Strategy Optimization [9.430129571478629]
本稿では,市場パターンを把握し,時間スケールの異なる命令を実行するための,深層学習と階層型強化学習アーキテクチャを提案する。提案手法は,VWAPスリップにおけるベースラインよりも高い性能を示し,平均コストは,最適ベースラインと比較して1.16塩基ポイントである。
論文参考訳（メタデータ） (2022-12-11T07:35:26Z)
MetaTrader: An Reinforcement Learning Approach Integrating Diverse Policies for Portfolio Optimization [17.759687104376855]
ポートフォリオ管理のための新しい2段階的アプローチを提案する。最初の段階では、強化学習フレームワークに模倣学習を組み込む。第2段階では、メタ政治を学び、市場状況を認識し、従うべき最も適切な学習方針を決定する。
論文参考訳（メタデータ） (2022-09-01T07:58:06Z)
Universal Trading for Order Execution with Oracle Policy Distillation [99.57416828489568]
本稿では,不完全な市場状態と注文実行のための最適な行動シーケンスとのギャップを埋める,新たなユニバーサル取引ポリシー最適化フレームワークを提案する。本研究の枠組みは,完全情報を持つ託宣教師による実践的最適実行に向けて,共通政策の学習を指導する上で有効であることを示す。
論文参考訳（メタデータ） (2021-01-28T05:52:18Z)
A Deep Reinforcement Learning Framework for Continuous Intraday Market Bidding [69.37299910149981]
再生可能エネルギー源統合の成功の鍵となる要素は、エネルギー貯蔵の利用である。欧州の継続的な日内市場におけるエネルギー貯蔵の戦略的関与をモデル化するための新しい枠組みを提案する。本アルゴリズムの分散バージョンは, サンプル効率のため, この問題を解決するために選択される。その結果, エージェントは, ベンチマーク戦略よりも平均的収益率の高い政策に収束することが示唆された。
論文参考訳（メタデータ） (2020-04-13T13:50:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。