論文の概要: Exploratory Mean-Variance Portfolio Optimization with Regime-Switching Market Dynamics
- arxiv url: http://arxiv.org/abs/2501.16659v1
- Date: Tue, 28 Jan 2025 02:48:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-29 16:40:52.032990
- Title: Exploratory Mean-Variance Portfolio Optimization with Regime-Switching Market Dynamics
- Title(参考訳): レジームスイッチング市場ダイナミクスを用いた平均変動ポートフォリオの探索
- Authors: Yuling Max Chen, Bin Li, David Saunders,
- Abstract要約: 本研究では,規制空間内における情報探索を支援するために,制度変更市場設定と強化学習技術の適用について検討する。
実際の市場データ調査では、OC学習を伴うEMVRSは、年次ポートフォリオリターンの最も平均的で合理的に低いボラティリティで、それを上回るパフォーマンスを保っている。
- 参考スコア(独自算出の注目度): 3.6149777601911097
- License:
- Abstract: Considering the continuous-time Mean-Variance (MV) portfolio optimization problem, we study a regime-switching market setting and apply reinforcement learning (RL) techniques to assist informed exploration within the control space. We introduce and solve the Exploratory Mean Variance with Regime Switching (EMVRS) problem. We also present a Policy Improvement Theorem. Further, we recognize that the widely applied Temporal Difference (TD) learning is not adequate for the EMVRS context, hence we consider Orthogonality Condition (OC) learning, leveraging the martingale property of the induced optimal value function from the analytical solution to EMVRS. We design a RL algorithm that has more meaningful parameterization using the market parameters and propose an updating scheme for each parameter. Our empirical results demonstrate the superiority of OC learning over TD learning with a clear convergence of the market parameters towards their corresponding ``grounding true" values in a simulated market scenario. In a real market data study, EMVRS with OC learning outperforms its counterparts with the highest mean and reasonably low volatility of the annualized portfolio returns.
- Abstract(参考訳): 連続時間平均変動(MV)ポートフォリオ最適化問題を考えると、規制空間内の情報探索を支援するために、システマティックスイッチング市場設定と強化学習(RL)技術を適用する。
本稿では,EMVRS(Exploratory Mean Variance with Regime Switching)問題の導入と解決について述べる。
政策改善理論も提示する。
さらに,EMVRSの文脈に広く適用されている時間差分(TD)学習が不十分であることを認識し,解析解からEMVRSへの帰納的最適値関数のマーチンゲール特性を活用し,直交条件(OC)学習を検討する。
市場パラメータを用いてより意味のあるパラメータ化を行うRLアルゴリズムを設計し,各パラメータに対する更新方式を提案する。
実証実験の結果、シミュレーションされた市場シナリオにおいて、市場パラメータを対応する「接地真」値に明確に収束させることで、TD学習よりもOC学習の方が優れていることが示された。
実際の市場データ調査では、OC学習を伴うEMVRSは、年次ポートフォリオリターンの最も平均的で合理的に低いボラティリティで、それを上回るパフォーマンスを保っている。
関連論文リスト
- MetaTrading: An Immersion-Aware Model Trading Framework for Vehicular Metaverse Services [94.61039892220037]
本稿では,車載メタバースにおける拡張現実(AR)サービスの学習モデルを支援するために,メタバースユーザ(MU)にインセンティブを与える新しい没入型モデルトレーディングフレームワークを提案する。
動的ネットワーク条件とプライバシの懸念を考慮して、マルチエージェントマルコフ決定プロセスとしてMSPの報酬決定を定式化する。
実験により,提案フレームワークは,実AR関連車両データセット上でのARサービスにおいて,オブジェクト検出と分類のための高価値モデルを効果的に提供できることが示されている。
論文 参考訳(メタデータ) (2024-10-25T16:20:46Z) - EdgeRL: Reinforcement Learning-driven Deep Learning Model Inference Optimization at Edge [2.8946323553477704]
本稿では,Advantage Actor-Critic (A2C) Reinforcement Learning (RL)アプローチを用いて,バランスを打とうとするEdgeRLフレームワークを提案する。
我々はEdgeRLフレームワークの利点を,端末の省エネ,推論精度の向上,エンドツーエンドの推論遅延低減の観点から評価した。
論文 参考訳(メタデータ) (2024-10-16T04:31:39Z) - What Teaches Robots to Walk, Teaches Them to Trade too -- Regime Adaptive Execution using Informed Data and LLMs [1.6317061277457001]
我々は、事前学習されたLLM(いわゆる「プライベート情報」)の世界知識を活用し、本質的な自然市場報酬を用いて動的に適応する革新的なアプローチを導入する。
その結果,金融市場の体制変化に適応する上で,本手法の有効性が実証された。
提案したアルゴリズムフレームワークは,既存の (FLARE) ベンチマークのストックモーメント (SM) タスクにおいて,最高の性能のSOTA LLMモデルよりも15%以上の精度向上を実現している。
論文 参考訳(メタデータ) (2024-06-20T00:17:28Z) - Dynamic Environment Responsive Online Meta-Learning with Fairness
Awareness [30.44174123736964]
本稿では,FairSAOMLと呼ばれる,適応フェアネスを考慮したオンラインメタ学習アルゴリズムを提案する。
動的環境下での様々な実世界のデータセットに対する実験評価により,提案アルゴリズムが一貫した代替手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-19T17:44:35Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - Commodities Trading through Deep Policy Gradient Methods [0.0]
商品取引問題を連続的な離散時間力学系として定式化する。
アクターベースとアクタークリティカルベースの2つのポリシーアルゴリズムが導入された。
先月末の天然ガス先物試験では、DRLモデルのシャープ比が買いと持ち株ベースラインと比較して83%高くなることが示されている。
論文 参考訳(メタデータ) (2023-08-10T17:21:12Z) - Generalized Parametric Contrastive Learning [60.62901294843829]
一般化パラメトリックコントラスト学習(GPaCo/PaCo)は、不均衡データとバランスデータの両方でうまく機能する。
長い尾のベンチマークの実験は、長い尾の認識のための新しい最先端を示す。
論文 参考訳(メタデータ) (2022-09-26T03:49:28Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - ARISE: ApeRIodic SEmi-parametric Process for Efficient Markets without
Periodogram and Gaussianity Assumptions [91.3755431537592]
我々は、効率的な市場を調査するためのApeRI-miodic(ARISE)プロセスを提案する。
ARISEプロセスは、いくつかの既知のプロセスの無限サムとして定式化され、周期スペクトル推定を用いる。
実際に,実世界の市場の効率性を明らかにするために,ARISE関数を適用した。
論文 参考訳(メタデータ) (2021-11-08T03:36:06Z) - Reinforced Deep Markov Models With Applications in Automatic Trading [0.0]
我々はReinforced Deep Markov Model(RDMM)というモデルに基づくRLアプローチを提案する。
RDMMは自動取引システムとして機能する強化学習アルゴリズムの望ましい特性を統合する。
テストの結果、RDMMはデータ効率が良く、最適な実行問題のベンチマークと比較すると、金銭的利益が得られることがわかった。
論文 参考訳(メタデータ) (2020-11-09T12:46:30Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。