論文の概要: Tail-Safe Hedging: Explainable Risk-Sensitive Reinforcement Learning with a White-Box CBF--QP Safety Layer in Arbitrage-Free Markets
- arxiv url: http://arxiv.org/abs/2510.04555v1
- Date: Mon, 06 Oct 2025 07:39:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.733789
- Title: Tail-Safe Hedging: Explainable Risk-Sensitive Reinforcement Learning with a White-Box CBF--QP Safety Layer in Arbitrage-Free Markets
- Title(参考訳): タイルセーフ・ヘッジ:ホワイトボックスCBF-QPセーフティ・レイヤを用いた説明可能なリスク感性強化学習
- Authors: Jian'an Zhang,
- Abstract要約: Tail-Safeは、デリバティブヘッジのためのデプロイ性指向のフレームワークである。
学習コンポーネントは、IQNベースの分布批判とCVaRの目的を組み合わせる。
安全コンポーネントは、ドメイン固有の制約とともに離散時間CBF不等式を強制する。
- 参考スコア(独自算出の注目度): 4.235667373386689
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Tail-Safe, a deployability-oriented framework for derivatives hedging that unifies distributional, risk-sensitive reinforcement learning with a white-box control-barrier-function (CBF) quadratic-program (QP) safety layer tailored to financial constraints. The learning component combines an IQN-based distributional critic with a CVaR objective (IQN--CVaR--PPO) and a Tail-Coverage Controller that regulates quantile sampling through temperature tilting and tail boosting to stabilize small-$\alpha$ estimation. The safety component enforces discrete-time CBF inequalities together with domain-specific constraints -- ellipsoidal no-trade bands, box and rate limits, and a sign-consistency gate -- solved as a convex QP whose telemetry (active sets, tightness, rate utilization, gate scores, slack, and solver status) forms an auditable trail for governance. We provide guarantees of robust forward invariance of the safe set under bounded model mismatch, a minimal-deviation projection interpretation of the QP, a KL-to-DRO upper bound linking per-state KL regularization to worst-case CVaR, concentration and sample-complexity results for the temperature-tilted CVaR estimator, and a CVaR trust-region improvement inequality under KL limits, together with feasibility persistence under expiry-aware tightening. Empirically, in arbitrage-free, microstructure-aware synthetic markets (SSVI $\to$ Dupire $\to$ VIX with ABIDES/MockLOB execution), Tail-Safe improves left-tail risk without degrading central performance and yields zero hard-constraint violations whenever the QP is feasible with zero slack. Telemetry is mapped to governance dashboards and incident workflows to support explainability and auditability. Limitations include reliance on synthetic data and simplified execution to isolate methodological contributions.
- Abstract(参考訳): 本稿では,分散型・リスクに敏感な強化学習をホワイトボックス制御バリア関数(CBF)2次プログラム(QP)の安全性層と統合する,デリバティブヘッジのデプロイ性指向フレームワークであるTail-Safeを紹介する。
この学習コンポーネントは、IQNベースの分布批評家とCVaR目標(IQN--CVaR-PPO)と、温度傾きと尾の押し上げによる量子化サンプリングを規制するTail-Coverage Controllerを組み合わせることで、小さな$\alpha$推定を安定化させる。
安全コンポーネントは、ドメイン固有の制約(楕円形の非トレードバンド、ボックスとレート制限、およびサイン一貫性ゲート)とともに離散時間CBFの不等式を、テレメトリ(アクティブセット、タイトネス、レート利用、ゲートスコア、スラック、ソルバステータス)が支配のための監査可能なトレイルを形成する凸QPとして解決する。
我々は,有界モデルミスマッチの下での安全集合の堅牢な前方不変性の保証,QPの最小偏差予測解釈,KL-to-DRO上界境界KL正則化を最悪のケースCVaRにリンクするKL-to-DRO上界結合,温度チルトCVaR推定器の濃度および試料複雑度結果,KL限界下でのCVaR信頼領域改善の不等式,および有効性保持性保証を提供する。
ABIDES/MockLOB実行によるSSVI $\to$ Dupire $\to$ VIX)では、Tail-Safeは中央性能を低下させることなく左尾のリスクを改善し、QPがゼロスラックで実現可能であれば、ハードコントラスト違反をゼロにする。
テレメトリは、説明可能性と監査性をサポートするために、ガバナンスダッシュボードとインシデントワークフローにマップされる。
制限には、合成データへの依存と、方法論的なコントリビューションを分離するための簡易な実行が含まれる。
関連論文リスト
- Safe and Compliant Cross-Market Trade Execution via Constrained RL and Zero-Knowledge Audits [0.5586191108738564]
本稿では、厳格なコンプライアンスの実施と実行品質のバランスをとるクロスマーケットアルゴリズムトレーディングシステムを提案する。
アーキテクチャは、高レベルプランナー、強化学習実行エージェント、独立コンプライアンスエージェントを含む。
対t検定による95%信頼度レベルへの影響を報告し,CVaRによる尾部リスクの検討を行った。
論文 参考訳(メタデータ) (2025-10-06T15:52:12Z) - Unsupervised Conformal Inference: Bootstrapping and Alignment to Control LLM Uncertainty [49.19257648205146]
生成のための教師なし共形推論フレームワークを提案する。
我々のゲートは、分断されたUPPよりも厳密で安定した閾値を提供する。
その結果は、ラベルのない、API互換の、テスト時間フィルタリングのゲートになる。
論文 参考訳(メタデータ) (2025-09-26T23:40:47Z) - Distributionally Robust Safety Verification of Neural Networks via Worst-Case CVaR [3.0458514384586404]
本稿では、ニューラルネットワーク検証のためのFazlyabの2次制約(QC)と半定値プログラミング(SDP)フレームワークを構築する。
この統合により、入力不確かさをカバーする楕円体、ポリトープ、超平面が拡張され、安全クリティカルドメインへの適用性も拡張される。
論文 参考訳(メタデータ) (2025-09-22T07:04:53Z) - Trusted Uncertainty in Large Language Models: A Unified Framework for Confidence Calibration and Risk-Controlled Refusal [31.458406135473805]
異種不確実性証拠を正当性の校正確率に変換する統一フレームワークUniCRを提案する。
UniCRは、温度スケーリングと適切なスコアリングを備えた軽量なキャリブレーションヘッドを学習する。
ショートフォームQA、実行テスト付きコード生成、検索強化ロングフォームQAの実験は、キャリブレーションメトリクスの一貫性のある改善を示している。
論文 参考訳(メタデータ) (2025-09-01T13:14:58Z) - COIN: Uncertainty-Guarding Selective Question Answering for Foundation Models with Provable Risk Guarantees [51.5976496056012]
COINは、統計的に有効な閾値を校正し、質問毎に1つの生成された回答をフィルタリングする不確実性保護選択フレームワークである。
COINはキャリブレーションセット上で経験的誤差率を推定し、信頼区間法を適用して真誤差率に高い確率上界を確立する。
リスク管理におけるCOINの堅牢性,許容回答を維持するための強いテストタイムパワー,キャリブレーションデータによる予測効率を実証する。
論文 参考訳(メタデータ) (2025-06-25T07:04:49Z) - ConstrainedZero: Chance-Constrained POMDP Planning using Learned Probabilistic Failure Surrogates and Adaptive Safety Constraints [34.9739641898452]
本研究では、最適値とポリシーのニューラルネットワーク近似を学習することにより、信念空間におけるCC-POMDPを解くConstrainedZeroポリシーアルゴリズムを導入する。
その結果, 目標から安全制約を分離することで, 報酬とコストのバランスを最適化することなく, 目標となる安全レベルを達成できることが示唆された。
論文 参考訳(メタデータ) (2024-05-01T17:17:22Z) - Offline Minimax Soft-Q-learning Under Realizability and Partial Coverage [100.8180383245813]
オフライン強化学習(RL)のための値ベースアルゴリズムを提案する。
ソフトマージン条件下でのバニラQ関数の類似した結果を示す。
我々のアルゴリズムの損失関数は、推定問題を非線形凸最適化問題とラグランジフィケーションとしてキャストすることによって生じる。
論文 参考訳(メタデータ) (2023-02-05T14:22:41Z) - Pointwise Feasibility of Gaussian Process-based Safety-Critical Control
under Model Uncertainty [77.18483084440182]
制御バリア関数(CBF)と制御リアプノフ関数(CLF)は、制御システムの安全性と安定性をそれぞれ強化するための一般的なツールである。
本稿では, CBF と CLF を用いた安全クリティカルコントローラにおいて, モデル不確実性に対処するためのガウスプロセス(GP)に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-13T23:08:49Z) - Reinforcement Learning for Safety-Critical Control under Model
Uncertainty, using Control Lyapunov Functions and Control Barrier Functions [96.63967125746747]
強化学習フレームワークは、CBFおよびCLF制約に存在するモデル不確実性を学ぶ。
RL-CBF-CLF-QPは、安全制約におけるモデル不確実性の問題に対処する。
論文 参考訳(メタデータ) (2020-04-16T10:51:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。