論文の概要: Portfolio Reinforcement Learning with Scenario-Context Rollout
- arxiv url: http://arxiv.org/abs/2602.24037v1
- Date: Fri, 27 Feb 2026 14:09:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.456681
- Title: Portfolio Reinforcement Learning with Scenario-Context Rollout
- Title(参考訳): シナリオコンテキストロールアウトによるポートフォリオ強化学習
- Authors: Vanya Priscillia Bendatu, Yao Lu,
- Abstract要約: 本稿では,ストレスイベント下での多変量回帰シナリオを生成するシナリオコンテキストロールアウトを提案する。
我々は、この矛盾を分析し、それが混在した評価対象につながることを示す。
本手法はシャープ比を最大76%改善し,古典的およびRLに基づくポートフォリオ再バランスベースラインと比較して最大53%削減する。
- 参考スコア(独自算出の注目度): 4.239057960966455
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Market regime shifts induce distribution shifts that can degrade the performance of portfolio rebalancing policies. We propose macro-conditioned scenario-context rollout (SCR) that generates plausible next-day multivariate return scenarios under stress events. However, doing so faces new challenges, as history will never tell what would have happened differently. As a result, incorporating scenario-based rewards from rollouts introduces a reward--transition mismatch in temporal-difference learning, destabilizing RL critic training. We analyze this inconsistency and show it leads to a mixed evaluation target. Guided by this analysis, we construct a counterfactual next state using the rollout-implied continuations and augment the critic agent's bootstrap target. Doing so stabilizes the learning and provides a viable bias-variance tradeoff. In out-of-sample evaluations across 31 distinct universes of U.S. equity and ETF portfolios, our method improves Sharpe ratio by up to 76% and reduces maximum drawdown by up to 53% compared with classic and RL-based portfolio rebalancing baselines.
- Abstract(参考訳): 市場レギュラーシフトは、ポートフォリオ再バランス政策のパフォーマンスを低下させる可能性のある流通シフトを誘発する。
ストレスイベント下での多変量回帰シナリオを生成するマクロ条件付きシナリオコンテキストロールアウト(SCR)を提案する。
しかし、歴史には何が起こるかはわからないため、新しい課題に直面している。
その結果、シナリオベースの報酬をロールアウトから取り入れることで、時間差学習における移行ミスマッチ、RL批判トレーニングの不安定化が実現した。
我々は、この矛盾を分析し、それが混在した評価対象につながることを示す。
この分析に導かれ、ロールアウトされた継続を利用して偽の次状態を構築し、批評家のブートストラップターゲットを増強する。
そうすることで学習が安定し、バイアス分散トレードオフが実現できます。
米国株式とETFポートフォリオの31の異なる宇宙におけるサンプル外評価において、当社の手法はシャープ比を最大76%改善し、古典的およびRLベースのポートフォリオ再バランスベースラインと比較して最大53%削減する。
関連論文リスト
- Jackpot: Optimal Budgeted Rejection Sampling for Extreme Actor-Policy Mismatch Reinforcement Learning [31.843129392507716]
Jackpotは、ポリシーとロールアウトモデルを共同で更新する統合トレーニング目標を統合するフレームワークである。
我々の理論的分析は、OBRSが制御可能な受理予算の下で、目標分布に近いロールアウト分布を一貫して移動していることを示している。
論文 参考訳(メタデータ) (2026-02-05T18:57:01Z) - A Step Back: Prefix Importance Ratio Stabilizes Policy Optimization [58.116300485427764]
強化学習のポストトレーニングは、大きな言語モデルにおける推論の振る舞いを引き出すことができる。
トークンレベルの補正は、オフポリシーネスの度合いが大きい場合、不安定なトレーニングダイナミクスにつながることが多い。
我々は,最小固定率 (MinPRO) を簡易かつ効果的に提案する。
論文 参考訳(メタデータ) (2026-01-30T08:47:19Z) - Ratio-Variance Regularized Policy Optimization for Efficient LLM Fine-tuning [48.34492357368989]
本稿では,安定なオン・ポリティクス学習をサポートし,オフ・ポリティクスデータの再利用を原則とするプリミティブ・デュアル・フレームワークを提案する。
R2VPO$は、強いクリッピングベースのベースラインよりも17%の平均的な相対的なゲインで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-01-06T14:01:42Z) - Robust Reinforcement Learning in Finance: Modeling Market Impact with Elliptic Uncertainty Sets [57.179679246370114]
金融分野では、強化学習(RL)エージェントは、価格に影響を与えない歴史的データに基づいて訓練されることが多い。
展開中、これらのエージェントは、自身の取引が資産価格を変えることができるライブマーケットで取引する。
従来のロバストなRLアプローチは、不確実性の集合に対して最悪のパフォーマンスを最適化することで、このモデルの誤特定に対処する。
楕円型不確実性集合の新たなクラスを開発し,効率的かつ堅牢な政策評価を可能にする。
論文 参考訳(メタデータ) (2025-10-22T18:22:25Z) - BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping [69.74252624161652]
適応クリッピング(BAPO)を用いたBAlanced Policy Optimizationを提案する。
BAPOはクリッピングバウンダリを動的に調整し、適応的に正と負のコントリビューションを再バランスさせ、エントロピーを保持し、RL最適化を安定化させる。
AIME 2024とAIME 2025ベンチマークでは、7B BAPOモデルがSkyWork-OR1-7Bのようなオープンソースモデルを上回っています。
論文 参考訳(メタデータ) (2025-10-21T12:55:04Z) - Squeeze the Soaked Sponge: Efficient Off-policy Reinforcement Finetuning for Large Language Model [56.92219181993453]
本稿では,PPOやGRPOなどのオンラインRFT手法をオフ・ポリティクスデータに活用するために,Reincarnating Mix-policy Proximal Policy Gradient (ReMix)を提案する。
ReMix は,(1) 効率的なトレーニングのための更新データ(UTD)比が増大した混成政策勾配,(2) 安定性と柔軟性のトレードオフのバランスをとるためのKL-Convex 政策制約,(3) 効率的な早期学習から安定した改善へのシームレスな移行を実現するための政策再編成の3つの主要な構成要素から構成される。
論文 参考訳(メタデータ) (2025-07-09T14:29:45Z) - Log-Sum-Exponential Estimator for Off-Policy Evaluation and Learning [50.93804891554481]
従来の逆確率スコア推定よりも優れた対数推定演算子(log-sum-exponential (LSE)演算子)に基づく新しい推定器を提案する。
我々のLSE推定器は, 重み付き条件下での分散低減とロバスト性を示す。
政治以外の学習シナリオでは、LSE推定器と最適ポリシーの間のパフォーマンスギャップである後悔の限界を確立します。
論文 参考訳(メタデータ) (2025-06-07T17:37:10Z) - Portfolio Optimization with Robust Covariance and Conditional Value-at-Risk Constraints [0.0]
各種のLedoit Shrinkage CovarianceおよびRobust Gerber CovarianceMatrixを用いた大容量ポートフォリオの性能評価を行った。
堅牢性評価は、特に強気相場で、市場資本化の重み付けされたベンチマークポートフォリオを上回る可能性がある。
我々は最適化アルゴリズムに教師なしクラスタリングアルゴリズムK平均を組み込んだ。
論文 参考訳(メタデータ) (2024-06-02T03:50:20Z) - WaveCorr: Correlation-savvy Deep Reinforcement Learning for Portfolio
Management [1.0499611180329804]
深層強化学習(DRL)のための新しいポートフォリオポリシーネットワークアーキテクチャを提案する。
WaveCorrは、年平均リターンで3%-25%改善した他のアーキテクチャを一貫して上回っている。
また,初期資産の順序と重みのランダムな選択による性能の安定度を最大5倍に改善した。
論文 参考訳(メタデータ) (2021-09-14T22:52:46Z) - Deep Learning Statistical Arbitrage [0.0]
本稿では,統計的仲裁のための統一的な概念枠組みを提案し,新しいディープラーニングソリューションを開発した。
我々は、条件付き遅延資産価格要素から残余ポートフォリオとして類似資産の仲裁ポートフォリオを構築する。
我々は、これらの残余ポートフォリオの時系列信号を、最も強力な機械学習時系列ソリューションの1つを用いて抽出する。
論文 参考訳(メタデータ) (2021-06-08T00:48:25Z) - Time your hedge with Deep Reinforcement Learning [0.0]
深層強化学習(DRL)は、市場情報とヘッジ戦略の割り当て決定の間のダイナミックな依存関係を作成することで、この課題に対処することができる。
i)行動決定に追加の文脈情報を使用し、(ii)共通の資産運用者の1日のラグ転倒を考慮し、ヘッジの再均衡を図るための観察と行動の間に1期間の遅れがあり、(iii)アンカードウォークフォワードトレーニングと呼ばれる反復的な試験方法により、安定性とロバスト性の観点から完全にテストされており、(iv)時系列のkフォールドクロスバリデーションと同様に、ヘッジの活用を可能にする。
論文 参考訳(メタデータ) (2020-09-16T06:43:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。