論文の概要: Reinforcement Learning for Option Hedging: Static Implied-Volatility Fit versus Shortfall-Aware Performance
- arxiv url: http://arxiv.org/abs/2601.01709v1
- Date: Mon, 05 Jan 2026 01:02:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.662387
- Title: Reinforcement Learning for Option Hedging: Static Implied-Volatility Fit versus Shortfall-Aware Performance
- Title(参考訳): オプションヘッジのための強化学習:静的インプリンド・ボラティリティ・フィットとショートフォール・アウェア・パフォーマンス
- Authors: Ziheng Chen, Minxuan Hu, Jiayu Yi, Wenxi Sun,
- Abstract要約: 我々は、リスク回避とトレーディングコストを組み込むことで、QLBSフレームワークのQ-learnerを拡張する。
本稿では,RLOP(Replication Learning of Option Pricing)アプローチを提案する。
- 参考スコア(独自算出の注目度): 7.793044742733676
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We extend the Q-learner in Black-Scholes (QLBS) framework by incorporating risk aversion and trading costs, and propose a novel Replication Learning of Option Pricing (RLOP) approach. Both methods are fully compatible with standard reinforcement learning algorithms and operate under market frictions. Using SPY and XOP option data, we evaluate performance along static and dynamic dimensions. Adaptive-QLBS achieves higher static pricing accuracy in implied volatility space, while RLOP delivers superior dynamic hedging performance by reducing shortfall probability. These results highlight the importance of evaluating option pricing models beyond static fit, emphasizing realized hedging outcomes.
- Abstract(参考訳): 我々は、リスク回避とトレーディングコストを取り入れて、Graph-Scholes(QLBS)フレームワークのQ-learnerを拡張し、新しいRLOP(Replication Learning of Option Pricing)アプローチを提案する。
どちらの手法も標準的な強化学習アルゴリズムと完全に互換性があり、市場の摩擦の下で運用されている。
SPY と XOP のオプションデータを用いて,静的次元および動的次元による性能評価を行う。
Adaptive-QLBSは、インプリッドボラティリティ空間において、より高い静的価格精度を達成する一方、RLOPは、ショートフォール確率を低減して、より優れた動的ヘッジ性能を提供する。
これらの結果は、静的適合以上のオプション価格モデルを評価することの重要性を強調し、実現したヘッジの結果を強調している。
関連論文リスト
- Guardrailed Elasticity Pricing: A Churn-Aware Forecasting Playbook for Subscription Strategy [0.0]
本稿では,サブスクリプション価格を動的に保護された意思決定システムとして運用するマーケティング分析フレームワークを提案する。
季節ごとの時系列モデルをツリーベースの学習者とブレンドし、モンテカルロシナリオテストを実行してリスクエンベロープをマップし、制約付き最適化を解決する。
このフレームワークは,フラットな価格からダイナミックな価格への移行時期,CLVやMRRターゲットとの価格調整方法,倫理的ガードレールの組み込み方法など,戦略プレイブックとして機能する。
論文 参考訳(メタデータ) (2025-12-24T04:25:31Z) - Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。
本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。
アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文 参考訳(メタデータ) (2025-10-01T12:29:32Z) - Refining Salience-Aware Sparse Fine-Tuning Strategies for Language Models [14.68920095399595]
SPEFT(Sparsity-based PEFT)は、モデルの重み行列にトレーニング可能なスパース適応を導入する。
我々は、ゼロコストNASプロキシにインスパイアされたSPEFTのサリエンス指標を初めて体系的に評価した。
静的マスキング戦略と動的マスキング戦略を比較し、トレーニング前にゼロでないエントリを事前に決定する静的マスキングが、パフォーマンスを犠牲にすることなく効率を向上することを示した。
論文 参考訳(メタデータ) (2024-12-18T04:14:35Z) - Enhancing Deep Hedging of Options with Implied Volatility Surface Feedback Information [0.0]
本稿では,S&P500 オプションに対する動的ヘッジ方式を提案する。
最適なヘッジ戦略は、ディープポリシー勾配型強化学習アルゴリズムによって得られる。
論文 参考訳(メタデータ) (2024-07-30T18:59:19Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Applying Reinforcement Learning to Option Pricing and Hedging [0.0]
この論文は、金融商品の価格とヘッジにおける強化学習の最近の進歩を概観するものである。
従来のBlack and Scholes(1973)モデルを新しい人工知能アルゴリズムでブリッジし、完全にモデルフリーでデータ駆動の方法でオプション価格とヘッジを可能にする。
論文 参考訳(メタデータ) (2023-10-06T15:59:12Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - SAMBA: Safe Model-Based & Active Reinforcement Learning [59.01424351231993]
SAMBAは、確率論的モデリング、情報理論、統計学といった側面を組み合わせた安全な強化学習のためのフレームワークである。
我々は,低次元および高次元の状態表現を含む安全な力学系ベンチマークを用いて,アルゴリズムの評価を行った。
アクティブなメトリクスと安全性の制約を詳細に分析することで,フレームワークの有効性を直感的に評価する。
論文 参考訳(メタデータ) (2020-06-12T10:40:46Z) - A generative adversarial network approach to calibration of local
stochastic volatility models [2.1485350418225244]
局所ボラティリティ(LSV)モデルのキャリブレーションのための完全データ駆動手法を提案する。
我々は、フィードフォワードニューラルネットワークのファミリーによってレバレッジ関数をパラメータ化し、利用可能な市場オプション価格から直接パラメータを学習する。
これは、ニューラルSDEと(因果)生成的敵ネットワークの文脈で見る必要がある。
論文 参考訳(メタデータ) (2020-05-05T21:26:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。