論文の概要: Autonomous AI Agents for Option Hedging: Enhancing Financial Stability through Shortfall Aware Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2603.06587v1
- Date: Sun, 01 Feb 2026 18:36:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-15 16:38:22.391061
- Title: Autonomous AI Agents for Option Hedging: Enhancing Financial Stability through Shortfall Aware Reinforcement Learning
- Title(参考訳): オプションヘッジのための自律型AIエージェント - 不足認識強化学習による金融安定の強化
- Authors: Minxuan Hu, Ziheng Chen, Jiayu Yi, Wenxi Sun,
- Abstract要約: 2つの強化学習フレームワークを導入し、短命確率を優先順位付けし、学習目標を下位の敏感なヘッジと整合させる。
我々は,実現された経路デルタヘッジ結果分布,ショートフォール確率,予測ショートフォールなどのテールリスク尺度を用いたモデルの評価を行った。
この摩擦を意識したRLフレームワークは、AI強化トレーディングシステムスケールとして、自律デリバティブのリスク管理に対する実践的なアプローチをサポートする。
- 参考スコア(独自算出の注目度): 7.793044742733676
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The deployment of autonomous AI agents in derivatives markets has widened a practical gap between static model calibration and realized hedging outcomes. We introduce two reinforcement learning frameworks, a novel Replication Learning of Option Pricing (RLOP) approach and an adaptive extension of Q-learner in Black-Scholes (QLBS), that prioritize shortfall probability and align learning objectives with downside sensitive hedging. Using listed SPY and XOP options, we evaluate models using realized path delta hedging outcome distributions, shortfall probability, and tail risk measures such as Expected Shortfall. Empirically, RLOP reduces shortfall frequency in most slices and shows the clearest tail-risk improvements in stress, while implied volatility fit often favors parametric models yet poorly predicts after-cost hedging performance. This friction-aware RL framework supports a practical approach to autonomous derivatives risk management as AI-augmented trading systems scale.
- Abstract(参考訳): デリバティブ市場における自律型AIエージェントの展開は、静的モデルの校正とヘッジ結果の現実的なギャップを広げている。
2つの強化学習フレームワーク、新しいRLOP(Replication Learning of Option Pricing)アプローチと、短命確率を優先し、学習目標を下向きの敏感なヘッジと整合させる、Graph-Scholes (QLBS)におけるQ-learnerの適応的拡張を導入する。
提案手法は,SPY と XOP の選択肢を用いて,実現された経路デルタヘッジ結果分布,ショートフォール確率,予測ショートフォールなどのテールリスク尺度を用いたモデルの評価を行う。
経験的に、RLOPはほとんどのスライスにおいて短絡頻度を減らし、ストレスの最も明確な尾リスク改善を示すが、インプリートなボラティリティフィットはパラメトリックモデルを好むが、低コストのヘッジ性能を予測できない。
この摩擦を意識したRLフレームワークは、AI強化トレーディングシステムスケールとして、自律デリバティブのリスク管理に対する実践的なアプローチをサポートする。
関連論文リスト
- Improving Search Agent with One Line of Code [68.58667107354253]
ツールベースのエージェント強化学習(TARL)は,検索エージェントが外部ツールと対話できるようにトレーニングするための,有望なパラダイムとして登場した。
textbfSearch textbfAgent textbfPolicy textbfOptimization (textbfSAPO)を提案する。
論文 参考訳(メタデータ) (2026-03-10T04:07:39Z) - Difficulty-Estimated Policy Optimization [38.86673795561421]
推論アライメントの効率性とロバスト性を最適化する新しいフレームワークであるDifficulty-Estimated Policy Optimization (DEPO)を提案する。
提案手法は,高性能推論モデルの学習における計算障壁を大幅に減らし,推論スケーリングのためのより持続可能な経路を提供する。
論文 参考訳(メタデータ) (2026-02-06T04:12:23Z) - Conformal Thinking: Risk Control for Reasoning on a Compute Budget [60.65072883773352]
大規模言語モデル(LLM)の推論により、トークンの予算が増加するにつれて、データセットレベルの精度が向上する。
我々は、予算設定問題をリスクコントロールとして再設定し、計算を最小化しながらエラー率を制限する。
我々のフレームワークは、モデルが自信のあるときに推論を停止する上位しきい値と、未解決のインスタンスを事前に停止させる新しい下位しきい値を導入する。
論文 参考訳(メタデータ) (2026-02-03T18:17:22Z) - Reinforcement Learning for Option Hedging: Static Implied-Volatility Fit versus Shortfall-Aware Performance [7.793044742733676]
我々は、リスク回避とトレーディングコストを組み込むことで、QLBSフレームワークのQ-learnerを拡張する。
本稿では,RLOP(Replication Learning of Option Pricing)アプローチを提案する。
論文 参考訳(メタデータ) (2026-01-05T01:02:41Z) - Reinforcement Learning from Probabilistic Forecasts for Safe Decision-Making via Conditional Value-at-Risk Planning [41.52380204321823]
本稿では,ベイズ予測,後方サンプリング強化学習,計画とを結合した統一的枠組みである不確実性認識マルコフ決定プロセス(UAMDP)を提案する。
構造的不確実性と経済のボラティリティを特徴とする2つのドメインの高頻度株式取引と小売在庫管理において,UAMDPを評価した。
論文 参考訳(メタデータ) (2025-10-09T13:46:32Z) - Deep Hedging with Market Impact [0.20482269513546458]
本稿では,Deep Reinforcement Learning(DRL)に基づく新しい市場インパクト動的ヘッジモデルを提案する。
DRLモデルから得られた最適ポリシーは、いくつかのオプションヘッジシミュレーションを用いて分析され、デルタヘッジのような一般的な手順と比較される。
論文 参考訳(メタデータ) (2024-02-20T19:08:24Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Stochastic Methods for AUC Optimization subject to AUC-based Fairness
Constraints [51.12047280149546]
公正な予測モデルを得るための直接的なアプローチは、公正な制約の下で予測性能を最適化することでモデルを訓練することである。
フェアネスを考慮した機械学習モデルのトレーニング問題を,AUCに基づくフェアネス制約のクラスを対象とする最適化問題として定式化する。
フェアネス測定値の異なる実世界のデータに対するアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-12-23T22:29:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。