論文の概要: Hedging American Put Options with Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2405.06774v1
- Date: Fri, 10 May 2024 18:59:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-14 20:05:32.606459
- Title: Hedging American Put Options with Deep Reinforcement Learning
- Title(参考訳): 深層強化学習によるアメリカ人のパットオプションのヘッジ
- Authors: Reilly Pickard, Finn Wredenhagen, Julio DeJesus, Mario Schlener, Yuri Lawryshyn,
- Abstract要約: 本稿では、Deep Deterministic Policy(DDPG)手法を用いて、深層強化学習(DRL)を米国のヘッジパットオプションに活用する。
エージェントは、最初にGeometric Brownian Motion (GBM)アセットパスでトレーニングされ、テストされる。
実世界のシナリオにおけるBS Delta法に対するDRLエージェントの最適性も示唆している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This article leverages deep reinforcement learning (DRL) to hedge American put options, utilizing the deep deterministic policy gradient (DDPG) method. The agents are first trained and tested with Geometric Brownian Motion (GBM) asset paths and demonstrate superior performance over traditional strategies like the Black-Scholes (BS) Delta, particularly in the presence of transaction costs. To assess the real-world applicability of DRL hedging, a second round of experiments uses a market calibrated stochastic volatility model to train DRL agents. Specifically, 80 put options across 8 symbols are collected, stochastic volatility model coefficients are calibrated for each symbol, and a DRL agent is trained for each of the 80 options by simulating paths of the respective calibrated model. Not only do DRL agents outperform the BS Delta method when testing is conducted using the same calibrated stochastic volatility model data from training, but DRL agents achieves better results when hedging the true asset path that occurred between the option sale date and the maturity. As such, not only does this study present the first DRL agents tailored for American put option hedging, but results on both simulated and empirical market testing data also suggest the optimality of DRL agents over the BS Delta method in real-world scenarios. Finally, note that this study employs a model-agnostic Chebyshev interpolation method to provide DRL agents with option prices at each time step when a stochastic volatility model is used, thereby providing a general framework for an easy extension to more complex underlying asset processes.
- Abstract(参考訳): 本稿では、Deep Deterministic Policy gradient(DDPG)手法を用いて、深層強化学習(DRL)を米国のヘッジパットオプションに活用する。
エージェントは最初に、幾何学的ブラウン運動(GBM)アセットパスで訓練され、特に取引コストの存在下で、ブラック・スコルズ(BS)デルタのような従来の戦略よりも優れたパフォーマンスを示す。
DRLヘッジの現実的適用性を評価するため、第2ラウンドでは、市場キャリブレーションされた確率的ボラティリティモデルを用いてDRLエージェントを訓練する。
具体的には、8つのシンボルにまたがる80個のオプションを収集し、各シンボルに対して確率的ボラティリティモデル係数を校正し、各校正モデルの経路をシミュレートして各80個のオプションに対してDRLエージェントを訓練する。
DRLエージェントは、トレーニングから同じ校正された確率的ボラティリティモデルデータを用いてテストを行う場合、BS Deltaメソッドよりも優れるだけでなく、オプション販売日と成熟度の間に生じた真の資産パスをヘッジする場合、DRLエージェントはより良い結果が得られる。
このようなことから,本研究では,米国におけるオプションヘッジに適したDRLエージェントを初めて提示するだけでなく,実世界のシナリオにおけるBSデルタ法に対するDRLエージェントの最適性も示唆している。
最後に,本研究ではモデルに依存しないチェビシェフ補間法を用いて,確率的ボラティリティモデルを用いた場合のDRLエージェントのオプション価格設定を行う。
関連論文リスト
- Truncating Trajectories in Monte Carlo Policy Evaluation: an Adaptive Approach [51.76826149868971]
モンテカルロシミュレーションによる政策評価は多くのMC強化学習(RL)アルゴリズムの中核にある。
本研究では,異なる長さの軌跡を用いた回帰推定器の平均二乗誤差のサロゲートとして品質指標を提案する。
本稿では,Robust and Iterative Data Collection Strategy Optimization (RIDO) という適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-17T11:47:56Z) - Scaling Laws for Reward Model Overoptimization in Direct Alignment Algorithms [50.808123629394245]
Direct Preference Optimizationのようなダイレクトアライメントアルゴリズム(DDA)は、古典的なRLHFパイプラインの代替として登場した。
この研究は、DAAに対する過度な最適化やハッキングの問題を定式化し、その成果を目標、訓練体制、モデルスケールにわたって探求する。
論文 参考訳(メタデータ) (2024-06-05T03:41:37Z) - Q-value Regularized Transformer for Offline Reinforcement Learning [70.13643741130899]
オフライン強化学習(RL)における最先端化のためのQ値正規化変換器(QT)を提案する。
QTはアクション値関数を学習し、条件付きシーケンスモデリング(CSM)のトレーニング損失にアクション値を最大化する用語を統合する
D4RLベンチマークデータセットの実証評価は、従来のDP法やCSM法よりもQTの方が優れていることを示す。
論文 参考訳(メタデータ) (2024-05-27T12:12:39Z) - Optimizing Deep Reinforcement Learning for American Put Option Hedging [0.0]
本稿では,Deep Reinforcement Learning (DRL) を用いたアメリカのヘッジオプションに関する既存の文献に貢献する。
その結果,学習エピソード数が多い場合の学習率や,学習エピソードが少ない場合の学習率の低下など,特定の組み合わせを避けることの重要性が強調された。
本稿では,シングルトレインと週間トレインのDRLエージェントが,取引コスト1%と3%でブラックスコールズデルタ法より優れていたことを示す。
論文 参考訳(メタデータ) (2024-05-14T13:41:44Z) - Combining Transformer based Deep Reinforcement Learning with
Black-Litterman Model for Portfolio Optimization [0.0]
モデルフリーのアルゴリズムとして、深層強化学習(DRL)エージェントは、教師なしの方法で環境と対話することで学習し、決定する。
DRLエージェントとBlack-Litterman (BL)モデルを組み合わせたハイブリッドポートフォリオ最適化モデルを提案する。
我々のDRLエージェントは、様々な比較ポートフォリオ選択戦略と代替DRLフレームワークを、累積リターンで少なくとも42%上回っている。
論文 参考訳(メタデータ) (2024-02-23T16:01:37Z) - Unleashing the Power of Pre-trained Language Models for Offline Reinforcement Learning [50.9692060692705]
本稿では、オフラインRL用の決定変換器をベースとした一般的なフレームワークである、$textbfMo$tion Control(textbfLaMo$)のための$textbfLanguage Modelsを紹介する。
私たちのフレームワークは4つの重要なコンポーネントを強調しています。
逐次事前学習したLMを用いた決定変換器の初期化(2)LoRA微細調整法を用いて
特に,本手法は,限られたデータサンプルを持つシナリオにおいて,優れた性能を示す。
論文 参考訳(メタデータ) (2023-10-31T16:24:17Z) - Commodities Trading through Deep Policy Gradient Methods [0.0]
商品取引問題を連続的な離散時間力学系として定式化する。
アクターベースとアクタークリティカルベースの2つのポリシーアルゴリズムが導入された。
先月末の天然ガス先物試験では、DRLモデルのシャープ比が買いと持ち株ベースラインと比較して83%高くなることが示されている。
論文 参考訳(メタデータ) (2023-08-10T17:21:12Z) - Testing of Deep Reinforcement Learning Agents with Surrogate Models [10.243488468625786]
近年,Deep Reinforcement Learning (DRL) が研究コミュニティから注目を集めている。
本稿では,このようなエージェントを探索的に検証する手法を提案する。
論文 参考訳(メタデータ) (2023-05-22T06:21:39Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Pessimistic Model Selection for Offline Deep Reinforcement Learning [56.282483586473816]
深層強化学習(DRL)は多くのアプリケーションにおいてシーケンシャルな意思決定問題を解決する大きな可能性を示している。
主要な障壁の1つは、DRLが学んだ政策の一般化性の低下につながる過度に適合する問題である。
理論的保証のあるオフラインDRLに対する悲観的モデル選択(PMS)手法を提案する。
論文 参考訳(メタデータ) (2021-11-29T06:29:49Z) - Deep Reinforcement Learning for Active High Frequency Trading [1.6874375111244329]
我々は、株式市場におけるアクティブな高周波取引のための、最初のエンドツーエンドのDeep Reinforcement Learning(DRL)ベースのフレームワークを紹介する。
我々はDRLエージェントを訓練し、Pximal Policy Optimizationアルゴリズムを用いてIntel Corporation株の1ユニットを取引する。
論文 参考訳(メタデータ) (2021-01-18T15:09:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。