Fugu-MT 論文翻訳(概要): Deep Reinforcement Learning for Equal Risk Pricing and Hedging under Dynamic Expectile Risk Measures

論文の概要: Deep Reinforcement Learning for Equal Risk Pricing and Hedging under Dynamic Expectile Risk Measures

arxiv url: http://arxiv.org/abs/2109.04001v1
Date: Thu, 9 Sep 2021 02:52:06 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-11 07:26:29.412938
Title: Deep Reinforcement Learning for Equal Risk Pricing and Hedging under Dynamic Expectile Risk Measures
Title（参考訳）: 動的期待リスク対策下における等リスク価格とヘッジの深層強化学習
Authors: Saeed Marzban, Erick Delage, Jonathan Yumeng Li
Abstract要約: そこで本稿では,非政治的なアクター批判型深層強化学習アルゴリズムにより,オプションに対する高品質な時間一貫したヘッジポリシーを同定できることを示す。簡単なバニラオプションとよりエキゾチックなバスケットオプションの両方を含む数値実験により, 単純環境, ほぼ最適なヘッジポリシ, 高精度な価格で, かつ, 多様な成熟度を同時に生成できることが確認された。全体として、リスクを後回しに評価した場合に、静的リスク測定によって生成された戦略を実際に上回ります。
参考スコア（独自算出の注目度）: 1.2891210250935146
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recently equal risk pricing, a framework for fair derivative pricing, was extended to consider dynamic risk measures. However, all current implementations either employ a static risk measure that violates time consistency, or are based on traditional dynamic programming solution schemes that are impracticable in problems with a large number of underlying assets (due to the curse of dimensionality) or with incomplete asset dynamics information. In this paper, we extend for the first time a famous off-policy deterministic actor-critic deep reinforcement learning (ACRL) algorithm to the problem of solving a risk averse Markov decision process that models risk using a time consistent recursive expectile risk measure. This new ACRL algorithm allows us to identify high quality time consistent hedging policies (and equal risk prices) for options, such as basket options, that cannot be handled using traditional methods, or in context where only historical trajectories of the underlying assets are available. Our numerical experiments, which involve both a simple vanilla option and a more exotic basket option, confirm that the new ACRL algorithm can produce 1) in simple environments, nearly optimal hedging policies, and highly accurate prices, simultaneously for a range of maturities 2) in complex environments, good quality policies and prices using reasonable amount of computing resources; and 3) overall, hedging strategies that actually outperform the strategies produced using static risk measures when the risk is evaluated at later points of time.
Abstract（参考訳）: 近年、公正デリバティブ価格の枠組みである等リスク価格が拡張され、動的リスク対策が検討された。しかしながら、現在のすべての実装は、時間的一貫性に反する静的リスク尺度を採用するか、あるいは、多くの基盤となる(次元性の呪いによる)問題や不完全な資産的動的情報に対処できない、伝統的な動的プログラミングソリューションスキームに基づいている。本稿では, 時間的一貫性のある再帰的期待的リスク尺度を用いてリスクをモデル化するリスク逆マルコフ決定過程を解決する問題に対して, 有名なオフ・ポリティクス決定論的アクター-批判的深層強化学習(acrl)アルゴリズムを初めて拡張する。この新しいACRLアルゴリズムは、バスケットオプションのような、従来の方法では扱えないオプションや、基礎となる資産の歴史的軌跡しか利用できない状況において、高品質な時間一貫したヘッジポリシー(および同等のリスク価格)を特定できる。 Our numerical experiments, which involve both a simple vanilla option and a more exotic basket option, confirm that the new ACRL algorithm can produce 1) in simple environments, nearly optimal hedging policies, and highly accurate prices, simultaneously for a range of maturities 2) in complex environments, good quality policies and prices using reasonable amount of computing resources; and 3) overall, hedging strategies that actually outperform the strategies produced using static risk measures when the risk is evaluated at later points of time.

関連論文リスト

Robust Reinforcement Learning with Dynamic Distortion Risk Measures [0.0]
我々は、堅牢なリスク対応強化学習問題を解決するための枠組みを考案した。我々は, 環境の不確実性とリスクを, 動的に頑健な歪みリスク対策のクラスで同時に考慮する。本研究では,リスクを意識したRL問題の解法としてアクター批判アルゴリズムを構築した。
論文参考訳（メタデータ） (2024-09-16T08:54:59Z)
Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文参考訳（メタデータ） (2024-07-15T14:54:57Z)
Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文参考訳（メタデータ） (2023-12-07T15:55:58Z)
RiskQ: Risk-sensitive Multi-Agent Reinforcement Learning Value Factorization [49.26510528455664]
本稿では,リスクに敏感な個人・グローバル・マックス(RIGM)の原則を,個人・グローバル・マックス(IGM)と分散IGM(DIGM)の原則の一般化として紹介する。 RiskQは広範な実験によって有望な性能が得られることを示す。
論文参考訳（メタデータ） (2023-11-03T07:18:36Z)
SafeAR: Safe Algorithmic Recourse by Risk-Aware Policies [2.291948092032746]
本稿では,コストの変動を考慮したレコメンデーションポリシーの計算手法を提案する。我々は,既存のデシダラタが高コストのリスクを捕捉できないことを示す。
論文参考訳（メタデータ） (2023-08-23T18:12:11Z)
Adaptive Risk-Aware Bidding with Budget Constraint in Display Advertising [47.14651340748015]
本稿では,強化学習による予算制約を考慮した適応型リスク対応入札アルゴリズムを提案する。リスク・アット・バリュー(VaR)に基づく不確実性とリスク傾向の本質的関係を理論的に明らかにする。
論文参考訳（メタデータ） (2022-12-06T18:50:09Z)
Deep Learning for Systemic Risk Measures [3.274367403737527]
本研究の目的は,システム的リスク対策のための新しい方法論の枠組みを検討することである。この新たな枠組みの下で、システム的リスク対策は、集約されたシステムを保護する最小限の現金として解釈できる。ディープラーニングは、金融モデリングやリスク管理においてますます注目を集めている。
論文参考訳（メタデータ） (2022-07-02T05:01:19Z)
Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文参考訳（メタデータ） (2022-05-10T19:40:52Z)
Reinforcement Learning with Dynamic Convex Risk Measures [0.0]
モデルレス強化学習(RL)を用いた時間一貫性リスク感応的最適化問題の解法を開発する。我々は、時間一貫性のある動的プログラミング原則を用いて、特定のポリシーの価値を決定し、ポリシー勾配更新ルールを開発する。
論文参考訳（メタデータ） (2021-12-26T16:41:05Z)
Risk Conditioned Neural Motion Planning [14.018786843419862]
リスクバウンド・モーション・プランニングは、安全クリティカルなタスクにとって重要な問題であるが難しい問題である。本稿では,リスク評論家による計画の実行リスクを推定するために,ソフトアクター批評家モデルの拡張を提案する。計算時間と計画品質の両面で,我々のモデルの利点を示す。
論文参考訳（メタデータ） (2021-08-04T05:33:52Z)
Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-12-28T05:02:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。