論文の概要: Distributional Reinforcement Learning on Path-dependent Options
- arxiv url: http://arxiv.org/abs/2507.12657v1
- Date: Wed, 16 Jul 2025 22:14:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.285192
- Title: Distributional Reinforcement Learning on Path-dependent Options
- Title(参考訳): 経路依存型選択肢の分布強化学習
- Authors: Ahmet Umur Özsoy,
- Abstract要約: 分散強化学習(DistRL)を用いた経路依存型金融デリバティブの価格設定フレームワークを提案する。
期待されるオプション値にフォーカスする従来の方法とは異なり、私たちのアプローチはペイオフの条件分布全体をモデル化します。
本稿では,この手法がアジアのオプションに対して有効であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We reinterpret and propose a framework for pricing path-dependent financial derivatives by estimating the full distribution of payoffs using Distributional Reinforcement Learning (DistRL). Unlike traditional methods that focus on expected option value, our approach models the entire conditional distribution of payoffs, allowing for risk-aware pricing, tail-risk estimation, and enhanced uncertainty quantification. We demonstrate the efficacy of this method on Asian options, using quantile-based value function approximators.
- Abstract(参考訳): 本稿では,分散強化学習(DistRL)を用いて,配当の完全な分布を推定し,経路依存型金融デリバティブの価格設定の枠組みを再解釈し,提案する。
期待されるオプション値にフォーカスする従来の方法とは異なり、我々のアプローチは、リスク意識の価格設定、テールリスク推定、不確実性定量化の強化を可能にする、ペイオフの条件分布全体をモデル化する。
本稿では,この手法がアジアのオプションに対して有効であることを示す。
関連論文リスト
- Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。
そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。
私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文 参考訳(メタデータ) (2024-05-29T01:32:17Z) - Diverse Randomized Value Functions: A Provably Pessimistic Approach for Offline Reinforcement Learning [11.304227281260896]
Q$-値の後方分布を推定するために,多種多様なランダム化値関数を用いた新しい戦略を導入する。
堅牢な不確実性定量化と、$Q$-値の低い信頼境界(LCB)を推定する。
また、ランダム化値関数内の多様性を強調し、ダイバーシティ正規化手法を導入し、ネットワークの必要数を減らすことで効率を向上させる。
論文 参考訳(メタデータ) (2024-04-09T10:15:18Z) - Uncertainty Quantification via Stable Distribution Propagation [60.065272548502]
本稿では,ニューラルネットワークによる安定確率分布の伝播手法を提案する。
提案手法は局所線形化に基づいており,ReLU非線型性に対する全変動距離の近似値として最適であることを示す。
論文 参考訳(メタデータ) (2024-02-13T09:40:19Z) - Distributional Counterfactual Explanations With Optimal Transport [7.597676579494146]
対実的説明 (CE) は、ブラックボックスの意思決定モデルに関する洞察を提供するための事実上の方法である。
本稿では,観測データの分布特性に焦点を移すDCE(distributal counterfactual explanation)を提案する。
論文 参考訳(メタデータ) (2024-01-23T21:48:52Z) - Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - An Offline Learning Approach to Propagator Models [3.1755820123640612]
まず、静的データセットから未知の価格影響カーネルを推定するエージェントに対して、オフラインで学習する問題を考察する。
本稿では,価格トラジェクトリ,トレーディング信号,メタオーダーを含むデータセットからプロパゲータを非パラメトリックに推定する手法を提案する。
提案手法では,提案手法を純粋に活用することで,実行コストを最小化しようとするトレーダーが準最適に遭遇することを示す。
論文 参考訳(メタデータ) (2023-09-06T13:36:43Z) - A Risk-Sensitive Approach to Policy Optimization [21.684251937825234]
標準深層強化学習(DRL)は、政策の定式化における収集経験を均等に考慮し、期待される報酬を最大化することを目的としている。
そこで本研究では,フルエピソード報酬の分布の累積分布関数 (CDF) で規定されるリスク感性目標を最適化する,より直接的なアプローチを提案する。
エージェントの動作が不十分なシナリオを強調する中程度の「悲観的」リスクプロファイルの使用が,探索の強化と,障害への継続的な対処に繋がることを示す。
論文 参考訳(メタデータ) (2022-08-19T00:55:05Z) - Unifying Gradient Estimators for Meta-Reinforcement Learning via
Off-Policy Evaluation [53.83642844626703]
オフ・ポリシー評価に基づいて,高次値関数の高次微分を推定するための統一フレームワークを提供する。
本フレームワークは, ヘッセン推定の偏りと分散トレードオフを解明する特別事例として, 多くの先行的アプローチを解釈する。
論文 参考訳(メタデータ) (2021-06-24T15:58:01Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Off-Policy Evaluation via the Regularized Lagrangian [110.28927184857478]
最近提案された分布補正推定(DICE)ファミリーは, 行動に依存しないデータを用いた非政治的評価において, 技術の現状を推し進めている。
本稿では,これらを線形プログラムの正規化ラグランジアンとして統一する。
双対解は、安定性と推定バイアスの間のトレードオフをナビゲートする際の柔軟性を向上し、一般的にはより優れた見積もりを提供する。
論文 参考訳(メタデータ) (2020-07-07T13:45:56Z) - Probabilistic multivariate electricity price forecasting using implicit
generative ensemble post-processing [0.0]
我々は、多変量電力価格シナリオを生成するために、点予測モデルのアンサンブルに基づく、可能性のない暗黙的生成モデルを使用する。
我々のアンサンブル後処理法は、確立されたモデル組合せベンチマークより優れている。
我々の手法はドメイン固有のエキスパートモデルの集合の上で機能するため、他の予測タスクに容易にデプロイできる。
論文 参考訳(メタデータ) (2020-05-27T15:22:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。