論文の概要: Deep Reinforcement Learning and Convex Mean-Variance Optimisation for
Portfolio Management
- arxiv url: http://arxiv.org/abs/2203.11318v1
- Date: Sun, 13 Feb 2022 10:12:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-25 22:59:11.954004
- Title: Deep Reinforcement Learning and Convex Mean-Variance Optimisation for
Portfolio Management
- Title(参考訳): ポートフォリオ管理のための深層強化学習と凸平均分散最適化
- Authors: Ruan Pretorius and Terence van Zyl
- Abstract要約: 強化学習(RL)法は明示的な予測に頼らず、多段階決定プロセスに適している。
総合的な傾向の異なる経済の3つの市場で実験が行われた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Traditional portfolio management methods can incorporate specific investor
preferences but rely on accurate forecasts of asset returns and covariances.
Reinforcement learning (RL) methods do not rely on these explicit forecasts and
are better suited for multi-stage decision processes. To address limitations of
the evaluated research, experiments were conducted on three markets in
different economies with different overall trends. By incorporating specific
investor preferences into our RL models' reward functions, a more comprehensive
comparison could be made to traditional methods in risk-return space.
Transaction costs were also modelled more realistically by including nonlinear
changes introduced by market volatility and trading volume. The results of this
study suggest that there can be an advantage to using RL methods compared to
traditional convex mean-variance optimisation methods under certain market
conditions. Our RL models could significantly outperform traditional
single-period optimisation (SPO) and multi-period optimisation (MPO) models in
upward trending markets, but only up to specific risk limits. In sideways
trending markets, the performance of SPO and MPO models can be closely matched
by our RL models for the majority of the excess risk range tested. The specific
market conditions under which these models could outperform each other
highlight the importance of a more comprehensive comparison of Pareto optimal
frontiers in risk-return space. These frontiers give investors a more granular
view of which models might provide better performance for their specific risk
tolerance or return targets.
- Abstract(参考訳): 従来のポートフォリオ管理手法は特定の投資家の好みを取り入れることができるが、資産のリターンと共分散の正確な予測に依存している。
強化学習(RL)手法はこれらの明示的な予測に依存しておらず、多段階決定プロセスに適している。
評価された研究の限界に対処するため, 経済の異なる3つの市場において, 総合的な傾向の異なる実験を行った。
RLモデルの報酬関数に特定の投資家の選好を組み込むことで、リスク-リターン空間における従来の手法とより包括的な比較を行うことができる。
取引コストは、市場のボラティリティと取引量によってもたらされた非線形変化を含むことで、より現実的なモデル化も行われた。
本研究の結果から,ある市場条件下では従来の凸平均分散最適化法に比べ,rl法の方が有利である可能性が示唆された。
私たちのrlモデルは、上昇傾向の市場では従来のspo(single period optimization)とmpo(multi- period optimization)モデルを大きく上回るでしょう。
横向きのトレンド市場においては、テストされた過剰リスク範囲の大部分に対して、SPOモデルとMPOモデルのパフォーマンスは、我々のRLモデルと密接に一致させることができる。
これらのモデルが互いに勝る特定の市場条件は、リスク・リターン空間におけるパレート最適フロンティアのより包括的な比較の重要性を強調している。
これらのフロンティアは、特定のリスク耐性やリターンターゲットに対して、どのモデルがよりよいパフォーマンスを提供するのか、投資家により詳細な見解を与える。
関連論文リスト
- Mean--Variance Portfolio Selection by Continuous-Time Reinforcement Learning: Algorithms, Regret Analysis, and Empirical Study [10.404992912881601]
本研究では,観測可能な要因により株価が拡散する過程にある市場における平均-変動ポートフォリオの選択について検討する。
本稿では,市場係数の学習や推定を行うことなく,事前委託投資戦略を直接学習する汎用データ駆動型RLアルゴリズムを提案する。
その結果, 連続的RL戦略は, 特に揮発性クマ市場において, 常に最良であることが明らかとなった。
論文 参考訳(メタデータ) (2024-12-08T15:31:10Z) - Margin Matching Preference Optimization: Enhanced Model Alignment with Granular Feedback [64.67540769692074]
人間のフィードバックからの強化学習など、アライメント技術で微調整された大規模言語モデル(LLM)は、これまでで最も有能なAIシステムの開発に役立っている。
マージンマッチング選好最適化(MMPO)と呼ばれる手法を導入し、相対的な品質マージンを最適化し、LLMポリシーと報酬モデルを改善する。
人間とAIの両方のフィードバックデータによる実験によると、MMPOはMT-benchやRewardBenchといった一般的なベンチマークにおいて、ベースラインメソッドよりも一貫してパフォーマンスが向上している。
論文 参考訳(メタデータ) (2024-10-04T04:56:11Z) - Optimizing Portfolio with Two-Sided Transactions and Lending: A Reinforcement Learning Framework [0.0]
本研究では,リスクの高い環境に適した強化学習に基づくポートフォリオ管理モデルを提案する。
マルチヘッドアテンションを持つ畳み込みニューラルネットワークを用いたソフトアクタ・クリティカル(SAC)エージェントを用いてモデルを実装した。
市場のボラティリティ(変動性)が変化する2つの16カ月間にわたってテストされたこのモデルは、ベンチマークを著しく上回った。
論文 参考訳(メタデータ) (2024-08-09T23:36:58Z) - Deep Hedging with Market Impact [0.20482269513546458]
本稿では,Deep Reinforcement Learning(DRL)に基づく新しい市場インパクト動的ヘッジモデルを提案する。
DRLモデルから得られた最適ポリシーは、いくつかのオプションヘッジシミュレーションを用いて分析され、デルタヘッジのような一般的な手順と比較される。
論文 参考訳(メタデータ) (2024-02-20T19:08:24Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Diffusion Variational Autoencoder for Tackling Stochasticity in
Multi-Step Regression Stock Price Prediction [54.21695754082441]
長期的地平線上での多段階の株価予測は、ボラティリティの予測に不可欠である。
多段階の株価予測に対する現在の解決策は、主に単一段階の分類に基づく予測のために設計されている。
深層階層型変分オートコーダ(VAE)と拡散確率的手法を組み合わせてセック2seqの株価予測を行う。
本モデルでは, 予測精度と分散性の観点から, 最先端の解よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-18T16:21:15Z) - HireVAE: An Online and Adaptive Factor Model Based on Hierarchical and
Regime-Switch VAE [113.47287249524008]
オンラインで適応的な環境で株価予測を行うファクターモデルを構築することは、依然としてオープンな疑問である。
本稿では,オンラインおよび適応型要素モデルであるHireVAEを,市場状況とストックワイド潜在要因の関係を埋め込んだ階層型潜在空間として提案する。
4つの一般的な実市場ベンチマークにおいて、提案されたHireVAEは、以前の手法よりもアクティブリターンの点で優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-06-05T12:58:13Z) - Can Perturbations Help Reduce Investment Risks? Risk-Aware Stock
Recommendation via Split Variational Adversarial Training [44.7991257631318]
本稿では,リスクを意識したストックレコメンデーションのための新しいSVAT法を提案する。
株式レコメンデーションモデルのボラティリティを下げることで、SVATは投資リスクを効果的に低減し、リスク調整利益の点で最先端のベースラインを30%以上上回ります。
論文 参考訳(メタデータ) (2023-04-20T12:10:12Z) - Bayesian Bilinear Neural Network for Predicting the Mid-price Dynamics
in Limit-Order Book Markets [84.90242084523565]
伝統的な時系列計量法は、価格力学を駆動する多層相互作用の真の複雑さを捉えることができないことが多い。
最先端の2次最適化アルゴリズムを採用することで、時間的注意を払ってベイジアン双線形ニューラルネットワークを訓練する。
予測分布を用いて推定パラメータとモデル予測に関連する誤差や不確実性を解析することにより、ベイズモデルと従来のML代替品を徹底的に比較する。
論文 参考訳(メタデータ) (2022-03-07T18:59:54Z) - Deep Learning Statistical Arbitrage [0.0]
本稿では,統計的仲裁のための統一的な概念枠組みを提案し,新しいディープラーニングソリューションを開発した。
我々は、条件付き遅延資産価格要素から残余ポートフォリオとして類似資産の仲裁ポートフォリオを構築する。
我々は、これらの残余ポートフォリオの時系列信号を、最も強力な機械学習時系列ソリューションの1つを用いて抽出する。
論文 参考訳(メタデータ) (2021-06-08T00:48:25Z) - Bridging the gap between Markowitz planning and deep reinforcement
learning [0.0]
本稿では,Deep Reinforcement Learning(深層強化学習)技術がポートフォリオアロケーションに新たな光を放つ方法を示す。
i)DRLは、設計による行動に直接市場条件をマッピングし、環境の変化に適応すべきであり、(ii)DRLは、リスクが分散によって表されるような従来の金融リスクの仮定に依存せず、(iii)DRLは追加データを組み込むことができ、より伝統的な最適化手法とは対照的にマルチインプット方式である。
論文 参考訳(メタデータ) (2020-09-30T04:03:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。