論文の概要: Exploratory Mean-Variance with Jumps: An Equilibrium Approach
- arxiv url: http://arxiv.org/abs/2512.09224v1
- Date: Wed, 10 Dec 2025 01:12:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.357078
- Title: Exploratory Mean-Variance with Jumps: An Equilibrium Approach
- Title(参考訳): ジャンプによる探索的平均変動-平衡アプローチ-
- Authors: Yuling Max Chen, Bin Li, David Saunders,
- Abstract要約: 市場ダイナミクスをジャンプ拡散プロセスでモデル化し、強化学習技術を適用します。
実市場データ24年間の数値分析の結果,提案したRLモデルは14テスト中13テストで利益を上げていることがわかった。
- 参考スコア(独自算出の注目度): 3.9270182903783706
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Revisiting the continuous-time Mean-Variance (MV) Portfolio Optimization problem, we model the market dynamics with a jump-diffusion process and apply Reinforcement Learning (RL) techniques to facilitate informed exploration within the control space. We recognize the time-inconsistency of the MV problem and adopt the time-inconsistent control (TIC) approach to analytically solve for an exploratory equilibrium investment policy, which is a Gaussian distribution centered on the equilibrium control of the classical MV problem. Our approach accounts for time-inconsistent preferences and actions, and our equilibrium policy is the best option an investor can take at any given time during the investment period. Moreover, we leverage the martingale properties of the equilibrium policy, design a RL model, and propose an Actor-Critic RL algorithm. All of our RL model parameters converge to the corresponding true values in a simulation study. Our numerical study on 24 years of real market data shows that the proposed RL model is profitable in 13 out of 14 tests, demonstrating its practical applicability in real world investment.
- Abstract(参考訳): 連続時間平均分散(MV)ポートフォリオ最適化問題を再考し、ジャンプ拡散プロセスを用いて市場ダイナミクスをモデル化し、強化学習(RL)技術を適用し、制御空間内の情報探索を容易にする。
我々は,MV問題の時間的不整合を認識し,古典的MV問題の平衡制御を中心としたガウス分布である探索的均衡投資政策を解析的に解くための時間的不整合制御(TIC)アプローチを採用する。
当社のアプローチでは、時間的不整合な選好と行動が説明され、投資期間中に投資家がいつでも取ることができる最良の選択肢は均衡政策です。
さらに、平衡ポリシのマーチンゲール特性を活用し、RLモデルを設計し、アクター・クリティカルRLアルゴリズムを提案する。
我々のRLモデルパラメータはすべて、シミュレーション研究において対応する真値に収束する。
実市場データ24年間の数値分析の結果,提案したRLモデルは14の試験のうち13の試験で利益を上げており,実世界の投資に実際に適用可能であることが示された。
関連論文リスト
- BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping [69.74252624161652]
適応クリッピング(BAPO)を用いたBAlanced Policy Optimizationを提案する。
BAPOはクリッピングバウンダリを動的に調整し、適応的に正と負のコントリビューションを再バランスさせ、エントロピーを保持し、RL最適化を安定化させる。
AIME 2024とAIME 2025ベンチマークでは、7B BAPOモデルがSkyWork-OR1-7Bのようなオープンソースモデルを上回っています。
論文 参考訳(メタデータ) (2025-10-21T12:55:04Z) - Model Predictive Control-Guided Reinforcement Learning for Implicit Balancing [2.6288470934623636]
ヨーロッパでは、利益を追求する責任ある当事者は、日々の指名からリアルタイムで逸脱し、送信システムオペレーターを支援することができる。
本稿では, MPC と RL の相補的強度を組み合わせた MPC 誘導 RL 法を提案する。
2023年のベルギーのバランシングデータを用いて,暗黙的バランシングバッテリ制御問題に対して,提案手法の性能評価を行った。
論文 参考訳(メタデータ) (2025-10-06T14:52:27Z) - Continuous-Time Reinforcement Learning for Asset-Liability Management [0.0]
本稿では,連続時間強化学習(RL)を用いたアセット・リバビリティ・マネジメント(ALM)の新しいアプローチを提案する。
本研究では,アセットと負債を動的に同期する ALM に適した,モデルフリーでポリシー勾配に基づくソフトアクター批判アルゴリズムを開発した。
本研究は,従来の2つの金融戦略,モデルベース連続時間RL法,最先端RLアルゴリズムに対するアプローチを実証的に評価する。
論文 参考訳(メタデータ) (2025-09-27T12:36:51Z) - Your AI, Not Your View: The Bias of LLMs in Investment Analysis [62.388554963415906]
金融において、Large Language Models (LLMs) は、事前訓練されたパラメトリック知識とリアルタイム市場データとの相違から生じる、頻繁な知識紛争に直面している。
これらの対立は、モデル固有のバイアスが制度的目的と誤認される現実世界の投資サービスにおいて特に問題となる。
本研究では,このような紛争シナリオにおける創発的行動を調べるための実験的枠組みを提案し,投資分析におけるバイアスの定量的分析を行う。
論文 参考訳(メタデータ) (2025-07-28T16:09:38Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - Exploratory Mean-Variance Portfolio Optimization with Regime-Switching Market Dynamics [3.6149777601911097]
本研究では,規制空間内における情報探索を支援するために,制度変更市場設定と強化学習技術の適用について検討する。
実際の市場データ調査では、OC学習を伴うEMVRSは、年次ポートフォリオリターンの最も平均的で合理的に低いボラティリティで、それを上回るパフォーマンスを保っている。
論文 参考訳(メタデータ) (2025-01-28T02:48:41Z) - Reinforcement Learning in High-frequency Market Making [7.740207107300432]
本稿では、高周波市場形成における強化学習(RL)の適用に関する、新しい包括的理論的解析手法を確立する。
我々は、現代RL理論と高周波金融経済学における連続時間統計モデルを橋渡しする。
論文 参考訳(メタデータ) (2024-07-14T22:07:48Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。