論文の概要: Solving The Dynamic Volatility Fitting Problem: A Deep Reinforcement Learning Approach
- arxiv url: http://arxiv.org/abs/2410.11789v1
- Date: Tue, 15 Oct 2024 17:10:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 14:01:05.060895
- Title: Solving The Dynamic Volatility Fitting Problem: A Deep Reinforcement Learning Approach
- Title(参考訳): 動的ボラティリティ適合問題の解決 : 深層強化学習アプローチ
- Authors: Emmanuel Gnabeyeu, Omar Karkar, Imad Idboufous,
- Abstract要約: 我々は,Deep Deterministic Policy Gradient (DDPG) とSoft Actor Critic (SAC) の変種が,少なくとも標準適合アルゴリズムと同程度の精度で実現できることを示す。
複雑な目的関数を扱うのに強化学習フレームワークが適切である理由を解説する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The volatility fitting is one of the core problems in the equity derivatives business. Through a set of deterministic rules, the degrees of freedom in the implied volatility surface encoding (parametrization, density, diffusion) are defined. Whilst very effective, this approach widespread in the industry is not natively tailored to learn from shifts in market regimes and discover unsuspected optimal behaviors. In this paper, we change the classical paradigm and apply the latest advances in Deep Reinforcement Learning(DRL) to solve the fitting problem. In particular, we show that variants of Deep Deterministic Policy Gradient (DDPG) and Soft Actor Critic (SAC) can achieve at least as good as standard fitting algorithms. Furthermore, we explain why the reinforcement learning framework is appropriate to handle complex objective functions and is natively adapted for online learning.
- Abstract(参考訳): ボラティリティ・フィッティングは、株式デリバティブ・ビジネスにおける中核的な問題の一つである。
決定論的規則の集合を通じて、インプリッドボラティリティ曲面符号化(パラメトリゼーション、密度、拡散)における自由度が定義される。
非常に効果的ではあるが、業界に広まるこのアプローチは、市場体制の変化から学び、疑わしい最適な行動を発見するために、ネイティブに調整されていない。
本稿では、古典的パラダイムを変更し、直近のDeep Reinforcement Learning(DRL)を応用して適合問題を解決する。
特に、Deep Deterministic Policy Gradient (DDPG) とSoft Actor Critic (SAC) の変種は、標準適合アルゴリズムと同じくらいの精度で実現できることを示す。
さらに、強化学習フレームワークが複雑な目的関数を扱うのに適切である理由を説明し、オンライン学習にネイティブに適応する。
関連論文リスト
- Alpha-VI DeepONet: A prior-robust variational Bayesian approach for enhancing DeepONets with uncertainty quantification [0.0]
一般化変分推論(GVI)を組み込んだ新しいディープオペレータネットワーク(DeepONet)を提案する。
分岐ネットワークとトランクネットワークのビルディングブロックとしてベイズニューラルネットワークを組み込むことで,不確実な定量化が可能なDeepONetを実現する。
変動目的関数の修正は平均二乗誤差を最小化する点で優れた結果をもたらすことを示す。
論文 参考訳(メタデータ) (2024-08-01T16:22:03Z) - Reinforcement Learning for Adaptive MCMC [6.773499165024668]
本稿では,強化学習メトロポリス(Reinforcement Learning Metropolis-Hastings)と呼ばれる一般的なフレームワークを構築することを目的とする。
学習率の制御は、エルゴディディティの条件を満たすことを確実に保証する。
この手法は、人気のある勾配のない適応メトロポリス・ハスティングスアルゴリズムより優れた勾配のないサンプリング器を構築するために用いられる。
論文 参考訳(メタデータ) (2024-05-22T12:11:12Z) - Online Nonstochastic Model-Free Reinforcement Learning [35.377261344335736]
本研究では,動的あるいは敵対的な環境に対するロバストモデルロバスト性保証について検討する。
これらのポリシーを最適化するための効率的かつ効率的なアルゴリズムを提供する。
これらは状態空間に依存せず、状態空間に依存しない最もよく知られた発展である。
論文 参考訳(メタデータ) (2023-05-27T19:02:55Z) - Reinforcement Learning from Diverse Human Preferences [68.4294547285359]
本稿では,人選好ラベルをクラウドソーシングし,多様な嗜好から学習する手法を開発した。
提案手法はDMcontrolとMeta-worldの様々なタスクでテストされる。
多様なフィードバックから学ぶと、既存の好みベースのRLアルゴリズムよりも一貫性があり、大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-27T15:18:54Z) - Model-based Safe Deep Reinforcement Learning via a Constrained Proximal
Policy Optimization Algorithm [4.128216503196621]
オンライン方式で環境の遷移動態を学習する,オンライン型モデルに基づくセーフディープRLアルゴリズムを提案する。
我々は,本アルゴリズムがより標本効率が高く,制約付きモデルフリーアプローチと比較して累積的ハザード違反が低いことを示す。
論文 参考訳(メタデータ) (2022-10-14T06:53:02Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Meta-Learning with Neural Tangent Kernels [58.06951624702086]
メタモデルのニューラルタンジェントカーネル(NTK)によって誘導される再生カーネルヒルベルト空間(RKHS)における最初のメタラーニングパラダイムを提案する。
このパラダイムでは,MAMLフレームワークのように,最適な反復内ループ適応を必要としない2つのメタ学習アルゴリズムを導入する。
本研究の目的は,1) 適応をRKHSの高速適応正則化器に置き換えること,2) NTK理論に基づいて解析的に適応を解くことである。
論文 参考訳(メタデータ) (2021-02-07T20:53:23Z) - Learning Off-Policy with Online Planning [18.63424441772675]
本研究では,学習モデルと端末値関数を用いたHステップルックアヘッドの新たなインスタンス化について検討する。
ナビゲーション環境の集合に配置する際の安全性制約を組み込むLOOPの柔軟性を示す。
論文 参考訳(メタデータ) (2020-08-23T16:18:44Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。
1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。
しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。
優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T03:27:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。