論文の概要: Deep Reinforcement Learning Algorithms for Option Hedging
- arxiv url: http://arxiv.org/abs/2504.05521v2
- Date: Thu, 17 Apr 2025 00:36:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 14:33:10.719830
- Title: Deep Reinforcement Learning Algorithms for Option Hedging
- Title(参考訳): オプションヘッジのための深層強化学習アルゴリズム
- Authors: Andrei Neagu, Frédéric Godin, Leila Kosseim,
- Abstract要約: 動的ヘッジの文脈における8つのDeep Reinforcement Learning (DRL)アルゴリズムの性能を比較した。
MCPGはブラック・スコイルズ・デルタ・ヘッジ・ベースラインを計算予算で上回る唯一のアルゴリズムである。
- 参考スコア(独自算出の注目度): 0.20482269513546458
- License:
- Abstract: Dynamic hedging is a financial strategy that consists in periodically transacting one or multiple financial assets to offset the risk associated with a correlated liability. Deep Reinforcement Learning (DRL) algorithms have been used to find optimal solutions to dynamic hedging problems by framing them as sequential decision-making problems. However, most previous work assesses the performance of only one or two DRL algorithms, making an objective comparison across algorithms difficult. In this paper, we compare the performance of eight DRL algorithms in the context of dynamic hedging; Monte Carlo Policy Gradient (MCPG), Proximal Policy Optimization (PPO), along with four variants of Deep Q-Learning (DQL) and two variants of Deep Deterministic Policy Gradient (DDPG). Two of these variants represent a novel application to the task of dynamic hedging. In our experiments, we use the Black-Scholes delta hedge as a baseline and simulate the dataset using a GJR-GARCH(1,1) model. Results show that MCPG, followed by PPO, obtain the best performance in terms of the root semi-quadratic penalty. Moreover, MCPG is the only algorithm to outperform the Black-Scholes delta hedge baseline with the allotted computational budget, possibly due to the sparsity of rewards in our environment.
- Abstract(参考訳): ダイナミック・ヘッジ(Dynamic hedging)は、1つまたは複数の金融資産を定期的に交換し、関連する負債に関連するリスクを相殺する金融戦略である。
Deep Reinforcement Learning (DRL)アルゴリズムは、動的ヘッジ問題に対して、それらを逐次決定問題としてフレーミングすることで最適な解を求めるために使われてきた。
しかし、これまでのほとんどの研究はDRLアルゴリズムを1つまたは2つしか評価せず、アルゴリズム間の客観的比較を困難にしている。
本稿では,モンテカルロ政策グラディエント(MCPG),PPO,Deep Q-Learning(DQL)の4変種とDeep Deterministic Policy Gradient(DDPG)の2変種を比較した。
これら2つの変種は動的ヘッジのタスクへの新しい応用を表している。
実験では,ブラック・スコレス・デルタ・ヘッジをベースラインとし,GJR-GARCH(1,1)モデルを用いてデータセットをシミュレートした。
以上の結果から,MCPG,PPOは根治的準四行性ペナルティにおいて最高の成績を示した。
さらに,MCPGはブラック・スコルズ・デルタ・ヘッジ・ベースラインを計算予算で上回る唯一のアルゴリズムである。
関連論文リスト
- Deep Reinforcement Learning for Online Optimal Execution Strategies [49.1574468325115]
本稿では,動的な金融市場における非マルコフ的最適実行戦略の学習に挑戦する。
我々は,Deep Deterministic Policy Gradient(DDPG)に基づく新しいアクター批判アルゴリズムを提案する。
提案アルゴリズムは最適実行戦略の近似に成功していることを示す。
論文 参考訳(メタデータ) (2024-10-17T12:38:08Z) - Efficiently Training Deep-Learning Parametric Policies using Lagrangian Duality [55.06411438416805]
制約付きマルコフ決定プロセス(CMDP)は、多くの高度な応用において重要である。
本稿では,パラメトリックアクターポリシーを効率的に訓練するための2段階深度決定規則(TS-DDR)を提案する。
現状の手法と比較して, 解の質を高め, 数桁の計算時間を削減できることが示されている。
論文 参考訳(メタデータ) (2024-05-23T18:19:47Z) - Robust Lagrangian and Adversarial Policy Gradient for Robust Constrained Markov Decision Processes [5.167069404528051]
本稿では,Robust Lagrangian と Adversarial RCPG の2つのアルゴリズムについて述べる。
Robust Lagrangian による RCPG は、値や制約ではなく、ラグランジアンに基づく最悪のケースダイナミクスを取り入れて RCPG を修飾する。
逆数RCPGはまた、ラグランジアンに基づいて最悪のケースのダイナミクスを定式化するが、直接的かつ漸進的に逆数ポリシーとして学習する。
論文 参考訳(メタデータ) (2023-08-22T08:24:45Z) - Constrained Reinforcement Learning via Dissipative Saddle Flow Dynamics [5.270497591225775]
制約強化学習(C-RL)において、エージェントは期待される累積報酬を最大化するポリシーを環境から学ぼうとする。
サンプルベース原始双対法に根ざしたいくつかのアルゴリズムが、政策空間においてこの問題を解決するために最近提案されている。
本稿では,制約付きRLに対して,これらの制約に悩まされない新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-03T01:54:55Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Anchor-Changing Regularized Natural Policy Gradient for Multi-Objective
Reinforcement Learning [17.916366827429034]
複数の報酬値関数を持つマルコフ決定プロセス(MDP)のポリシー最適化について検討する。
本稿では,順応的な一階法からアイデアを取り入れたアンカー変更型正規化自然政策グラディエントフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-10T21:09:44Z) - Deep Reinforcement Learning for Stock Portfolio Optimization [0.0]
私たちは、タスクに強化学習を適切に適用できるように問題を定式化します。
市場に関する現実的な仮定を維持するためには、取引コストとリスクファクターを州にも組み込む予定です。
ストックサブセット選択のための最小分散ポートフォリオと多周波データパターン抽出のためのウェーブレット変換を用いたタスクのエンドツーエンドソリューションを提案する。
論文 参考訳(メタデータ) (2020-12-09T10:19:12Z) - Large-Scale Methods for Distributionally Robust Optimization [53.98643772533416]
我々のアルゴリズムは、トレーニングセットのサイズとパラメータの数によらず、多くの評価勾配を必要とすることを証明している。
MNIST と ImageNet の実験により,本手法の 9-36 倍の効率性を持つアルゴリズムの理論的スケーリングが確認された。
論文 参考訳(メタデータ) (2020-10-12T17:41:44Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z) - Implementation Matters in Deep Policy Gradients: A Case Study on PPO and
TRPO [90.90009491366273]
本稿では,2つの一般的なアルゴリズムのケーススタディにより,ディープポリシー勾配アルゴリズムにおけるアルゴリズムの進歩のルーツについて検討する。
具体的には,「コードレベルの最適化」の結果について検討する。
以上の結果から, (a) TRPOに対するPPOの累積報酬のほとんどを担っていることが示され, (b) RL メソッドの動作方法が根本的に変化していることが示唆された。
論文 参考訳(メタデータ) (2020-05-25T16:24:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。