論文の概要: Deep Reinforcement Learning for Automated Stock Trading: An Ensemble Strategy
- arxiv url: http://arxiv.org/abs/2511.12120v1
- Date: Sat, 15 Nov 2025 09:15:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.621728
- Title: Deep Reinforcement Learning for Automated Stock Trading: An Ensemble Strategy
- Title(参考訳): 株式自動取引のための深層強化学習--アンサンブル戦略
- Authors: Hongyang Yang, Xiao-Yang Liu, Shan Zhong, Anwar Walid,
- Abstract要約: 我々は、投資リターンの最大化による株式トレーディング戦略の学習に、深い強化策を取り入れたアンサンブル戦略を提案する。
我々は、深い強化学習エージェントを訓練し、3つのアクター批判に基づくアルゴリズムを用いてアンサンブル取引戦略を得る。
提案したディープアンサンブル戦略はシャープ比によって測定されたリスク調整されたリターンにおいて,3つのアルゴリズムと2つのベースラインより優れていることを示す。
- 参考スコア(独自算出の注目度): 10.667441394970071
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stock trading strategies play a critical role in investment. However, it is challenging to design a profitable strategy in a complex and dynamic stock market. In this paper, we propose an ensemble strategy that employs deep reinforcement schemes to learn a stock trading strategy by maximizing investment return. We train a deep reinforcement learning agent and obtain an ensemble trading strategy using three actor-critic based algorithms: Proximal Policy Optimization (PPO), Advantage Actor Critic (A2C), and Deep Deterministic Policy Gradient (DDPG). The ensemble strategy inherits and integrates the best features of the three algorithms, thereby robustly adjusting to different market situations. In order to avoid the large memory consumption in training networks with continuous action space, we employ a load-on-demand technique for processing very large data. We test our algorithms on the 30 Dow Jones stocks that have adequate liquidity. The performance of the trading agent with different reinforcement learning algorithms is evaluated and compared with both the Dow Jones Industrial Average index and the traditional min-variance portfolio allocation strategy. The proposed deep ensemble strategy is shown to outperform the three individual algorithms and two baselines in terms of the risk-adjusted return measured by the Sharpe ratio. This work is fully open-sourced at \href{https://github.com/AI4Finance-Foundation/Deep-Reinforcement-Learning-for-Automated-Stock-Trading-Ens emble-Strategy-ICAIF-2020}{GitHub}.
- Abstract(参考訳): 株式トレーディング戦略は投資において重要な役割を果たす。
しかし、複雑でダイナミックな株式市場で黒字戦略を設計することは困難である。
本稿では,投資リターンの最大化による株式トレーディング戦略の学習に深層強化手法を用いたアンサンブル戦略を提案する。
我々は、深層強化学習エージェントを訓練し、PPO(Proximal Policy Optimization)、A2C(Advantage Actor Critic)、DDPG(Deep Deterministic Policy Gradient)という3つのアクタークリティカルなアルゴリズムを用いてアンサンブル取引戦略を得る。
アンサンブル戦略は、3つのアルゴリズムの最良の特徴を継承し、統合し、異なる市場状況にしっかりと適応する。
連続的な動作空間を持つトレーニングネットワークにおいて,大規模なメモリ消費を回避するため,非常に大規模なデータを処理するためのロード・オン・デマンド技術を採用している。
適切な流動性を持つダウ・ジョーンズ株30株でアルゴリズムをテストする。
異なる強化学習アルゴリズムを用いたトレーディングエージェントの性能評価を行い,ダウ・ジョーンズ工業平均指数と従来のミン分散ポートフォリオ配分戦略との比較を行った。
提案したディープアンサンブル戦略はシャープ比によって測定されたリスク調整されたリターンにおいて,3つのアルゴリズムと2つのベースラインより優れていることを示す。
この研究は、 \href{https://github.com/AI4Finance-Foundation/Deep-Reinforcement-Learning-for-Automated-Stock-Trading-Ens emble-Strategy-ICAIF-2020}{GitHub}で完全にオープンソース化されている。
関連論文リスト
- Deep reinforcement learning for optimal trading with partial information [0.254890465057467]
取引信号がオルンシュタイン-ウレンベック過程とレジームスイッチングダイナミックスに追従する最適取引問題について検討する。
RLとリカレントニューラルネットワーク(Recurrent Neural Networks, RNN)のブレンドを用いて, 遅延パラメータを用いたトレーディング信号から基礎情報を抽出する。
論文 参考訳(メタデータ) (2025-10-31T18:48:59Z) - Trade in Minutes! Rationality-Driven Agentic System for Quantitative Financial Trading [57.28635022507172]
TiMiは、アーキテクチャ上、戦略開発を分単位のデプロイメントから切り離す合理性駆動型マルチエージェントシステムである。
本稿では,マクロパターンからマイクロカスタマイズ,トレーディングボット実装のための階層型プログラミング設計,数学的リフレクションによって駆動されるクローズドループ最適化までの2層解析パラダイムを提案する。
論文 参考訳(メタデータ) (2025-10-06T13:08:55Z) - Plan before Solving: Problem-Aware Strategy Routing for Mathematical Reasoning with LLMs [49.995906301946]
既存の手法は通常、数学的推論を行うためにLLM(Large Language Models)をガイドするための固定戦略を利用する。
分析の結果,単一戦略は問題固有の要件に適応できず,有効性と効率性のトレードオフを見落としていることが明らかとなった。
本稿では,PRISM(Planning and Routing through Instance-Specific Modeling)を提案する。
論文 参考訳(メタデータ) (2025-09-29T07:22:41Z) - Building crypto portfolios with agentic AI [46.348283638884425]
暗号通貨市場の急速な成長は投資家に新たな機会を与えたが、同時に高いボラティリティがもたらされた。
本稿では,暗号アロケーションを自律的に構築し,評価するためのマルチエージェントシステムの実用化について述べる。
論文 参考訳(メタデータ) (2025-07-11T18:03:51Z) - Regret-Optimized Portfolio Enhancement through Deep Reinforcement Learning and Future Looking Rewards [3.9795751586546766]
本稿では、PPO(Proximal Policy Optimization)を用いた既存のポートフォリオ戦略を強化するためのエージェントベースの新しいアプローチを提案する。
従来のポートフォリオ構築にのみ焦点をあてるのではなく、当社のアプローチは、PPOとOracleエージェントによって駆動される動的リバランスを通じて、すでに高性能な戦略を改善することを目的としています。
論文 参考訳(メタデータ) (2025-02-04T11:45:59Z) - Hierarchical Reinforced Trader (HRT): A Bi-Level Approach for Optimizing Stock Selection and Execution [0.9553307596675155]
本稿では,階層強化学習フレームワークを用いた新たなトレーディング戦略である階層強化トレーサ(HRT)を紹介する。
HRTは、戦略的株式選択のためのPPO(Proximal Policy Optimization)ベースのHigh-Level Controller(HLC)をDDPG(Deep Deterministic Policy Gradient)ベースのLow-Level Controller(LLC)と統合する。
論文 参考訳(メタデータ) (2024-10-19T01:29:38Z) - Deep Reinforcement Learning for Traveling Purchaser Problems [63.37136587778153]
旅行購入問題(TPP)は幅広いアプリケーションにおいて重要な最適化問題である。
本稿では,ルート構築と購入計画を個別に扱う,深層強化学習(DRL)に基づく新しいアプローチを提案する。
様々な合成TPPインスタンスとTPPLIBベンチマークの実験により、我々のDRLベースのアプローチは、確立されたTPPを著しく上回ることを示した。
論文 参考訳(メタデータ) (2024-04-03T05:32:10Z) - Hierarchical Deep Reinforcement Learning for VWAP Strategy Optimization [9.430129571478629]
本稿では,市場パターンを把握し,時間スケールの異なる命令を実行するための,深層学習と階層型強化学習アーキテクチャを提案する。
提案手法は,VWAPスリップにおけるベースラインよりも高い性能を示し,平均コストは,最適ベースラインと比較して1.16塩基ポイントである。
論文 参考訳(メタデータ) (2022-12-11T07:35:26Z) - Deep Deterministic Portfolio Optimization [0.0]
この研究は、概念的には単純だが数学的には非自明なトレーディング環境上で強化学習アルゴリズムをテストすることである。
本研究では, 決定論的政策勾配アルゴリズムを深く研究し, このような強化学習エージェントが, 最適取引戦略の本質的特徴を回復できることを示す。
論文 参考訳(メタデータ) (2020-03-13T22:20:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。