論文の概要: Deep Reinforcement Learning for Optimal Asset Allocation Using DDPG with TiDE
- arxiv url: http://arxiv.org/abs/2508.20103v1
- Date: Tue, 12 Aug 2025 11:59:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-31 21:54:20.626478
- Title: Deep Reinforcement Learning for Optimal Asset Allocation Using DDPG with TiDE
- Title(参考訳): TiDEを用いたDDPGを用いた最適アセット配置のための深部強化学習
- Authors: Rongwei Liu, Jin Zheng, John Cartlidge,
- Abstract要約: 本研究は,マルコフ決定過程(MDP)における逐次決定課題として最適2段階割当問題を定式化する。
このフレームワークは、シミュレーションされた金融シナリオに基づいて動的ポリシーを開発するための強化学習(RL)機構の適用を可能にする。
我々はDDPG-TiDEを、単純な離散的なQ-learning RLフレームワークとパッシブ・バイ・アンド・ホールド投資戦略と比較した。
- 参考スコア(独自算出の注目度): 14.43580976228378
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The optimal asset allocation between risky and risk-free assets is a persistent challenge due to the inherent volatility in financial markets. Conventional methods rely on strict distributional assumptions or non-additive reward ratios, which limit their robustness and applicability to investment goals. To overcome these constraints, this study formulates the optimal two-asset allocation problem as a sequential decision-making task within a Markov Decision Process (MDP). This framework enables the application of reinforcement learning (RL) mechanisms to develop dynamic policies based on simulated financial scenarios, regardless of prerequisites. We use the Kelly criterion to balance immediate reward signals against long-term investment objectives, and we take the novel step of integrating the Time-series Dense Encoder (TiDE) into the Deep Deterministic Policy Gradient (DDPG) RL framework for continuous decision-making. We compare DDPG-TiDE with a simple discrete-action Q-learning RL framework and a passive buy-and-hold investment strategy. Empirical results show that DDPG-TiDE outperforms Q-learning and generates higher risk adjusted returns than buy-and-hold. These findings suggest that tackling the optimal asset allocation problem by integrating TiDE within a DDPG reinforcement learning framework is a fruitful avenue for further exploration.
- Abstract(参考訳): リスクフリー資産とリスクフリー資産の間の最適な資産配分は、金融市場の固有のボラティリティのため、永続的な課題である。
従来の手法は厳密な分布仮定や非付加的な報酬比率に依存しており、投資目標へのロバスト性と適用性を制限している。
これらの制約を克服するために,マルコフ決定プロセス(MDP)内の逐次決定課題として最適2段階割り当て問題を定式化する。
この枠組みは、前提条件にかかわらず、シミュレーションされた金融シナリオに基づいて動的ポリシーを開発するための強化学習(RL)機構の適用を可能にする。
我々は、ケリー基準を用いて、長期投資目標に対する即時報酬信号のバランスをとるとともに、連続的な意思決定のために、時系列Dense Encoder(TiDE)をDeep Deterministic Policy Gradient(DDPG) RLフレームワークに統合する新たなステップを取ります。
我々はDDPG-TiDEを、単純な離散的なQ-learning RLフレームワークとパッシブ・バイ・アンド・ホールド投資戦略と比較した。
実験の結果,DDPG-TiDEはQラーニングより優れ,買い手よりもリスク調整リターンが高いことがわかった。
これらの結果は, TiDE を DDPG 強化学習フレームワークに統合することにより, 最適資産配分問題に対処することが, さらなる探索に有効であることが示唆された。
関連論文リスト
- Learning Deterministic Policies with Policy Gradients in Constrained Markov Decision Processes [59.27926064817273]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し,支配的仮定の下でのグローバルな最終点収束保証を享受する。
制約制御タスクにおいて,アクションベース(C-PGAE)とパラメータベース(C-PGPE)の両方を実証的に検証する。
論文 参考訳(メタデータ) (2025-06-06T10:29:05Z) - Deep Reinforcement Learning for Investor-Specific Portfolio Optimization: A Volatility-Guided Asset Selection Approach [2.2835610890984164]
本研究では,投資家のリスクプロファイルに基づいてポートフォリオを動的に構築するボラティリティ誘導型ポートフォリオ最適化フレームワークを提案する。
提案手法の有効性はダウ30ドル指数の株を用いて確立された。
論文 参考訳(メタデータ) (2025-04-20T10:17:37Z) - Deep Reinforcement Learning and Mean-Variance Strategies for Responsible Portfolio Optimization [49.396692286192206]
本研究では,ESG状態と目的を取り入れたポートフォリオ最適化のための深層強化学習について検討する。
以上の結果から,ポートフォリオアロケーションに対する平均分散アプローチに対して,深層強化学習政策が競争力を発揮する可能性が示唆された。
論文 参考訳(メタデータ) (2024-03-25T12:04:03Z) - On the Foundation of Distributionally Robust Reinforcement Learning [24.192793490860254]
我々は、分布的堅牢性強化学習(DRRL)の理論的基礎に貢献する。
この枠組みは、意思決定者に対して、相手が編成した最悪の分散シフトの下で最適な政策を選択することを義務付ける。
動的プログラミング原理(DPP)の有無について検討する。
論文 参考訳(メタデータ) (2023-11-15T15:02:23Z) - PARL: A Unified Framework for Policy Alignment in Reinforcement Learning from Human Feedback [106.63518036538163]
我々は、強化学習におけるポリシーアライメントの最近強調された重要な問題に対処するために、新しい統合された二段階最適化ベースのフレームワーク、textsfPARLを提案する。
本フレームワークは, 上向きの目標(逆設計)の分布を, 下向きの最適変数で明示的にパラメータ化することにより, これらの問題に対処する。
その結果,提案したtextsfPARL が RL のアライメントの懸念に対処できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-03T18:03:44Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Balancing Profit, Risk, and Sustainability for Portfolio Management [0.0]
本研究では,リスクを表すシャープ比と持続可能性を表す環境,社会,ガバナンススコア(ESG)を備えた新しいユーティリティ機能を開発する。
連続的な行動空間を許容することで、深いQ-ラーニングアプローチを改善しつつ、MADDPGよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-06-06T08:38:30Z) - Time your hedge with Deep Reinforcement Learning [0.0]
深層強化学習(DRL)は、市場情報とヘッジ戦略の割り当て決定の間のダイナミックな依存関係を作成することで、この課題に対処することができる。
i)行動決定に追加の文脈情報を使用し、(ii)共通の資産運用者の1日のラグ転倒を考慮し、ヘッジの再均衡を図るための観察と行動の間に1期間の遅れがあり、(iii)アンカードウォークフォワードトレーニングと呼ばれる反復的な試験方法により、安定性とロバスト性の観点から完全にテストされており、(iv)時系列のkフォールドクロスバリデーションと同様に、ヘッジの活用を可能にする。
論文 参考訳(メタデータ) (2020-09-16T06:43:41Z) - Zeroth-order Deterministic Policy Gradient [116.87117204825105]
ゼロ階決定主義政策グラディエント(ZDPG)を紹介する。
ZDPGは、$Q$関数の2点評価によりポリシー逆勾配を近似する。
ZDPGの新たな有限サンプル複雑性境界は、既存の結果を最大2桁改善する。
論文 参考訳(メタデータ) (2020-06-12T16:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。