論文の概要: Optimizing Deep Reinforcement Learning for American Put Option Hedging
- arxiv url: http://arxiv.org/abs/2405.08602v1
- Date: Tue, 14 May 2024 13:41:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-15 13:59:04.686214
- Title: Optimizing Deep Reinforcement Learning for American Put Option Hedging
- Title(参考訳): アメリカン・パット・オプション・ヘッジのための深層強化学習の最適化
- Authors: Reilly Pickard, F. Wredenhagen, Y. Lawryshyn,
- Abstract要約: 本稿では,Deep Reinforcement Learning (DRL) を用いたアメリカのヘッジオプションに関する既存の文献に貢献する。
その結果,学習エピソード数が多い場合の学習率や,学習エピソードが少ない場合の学習率の低下など,特定の組み合わせを避けることの重要性が強調された。
本稿では,シングルトレインと週間トレインのDRLエージェントが,取引コスト1%と3%でブラックスコールズデルタ法より優れていたことを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper contributes to the existing literature on hedging American options with Deep Reinforcement Learning (DRL). The study first investigates hyperparameter impact on hedging performance, considering learning rates, training episodes, neural network architectures, training steps, and transaction cost penalty functions. Results highlight the importance of avoiding certain combinations, such as high learning rates with a high number of training episodes or low learning rates with few training episodes and emphasize the significance of utilizing moderate values for optimal outcomes. Additionally, the paper warns against excessive training steps to prevent instability and demonstrates the superiority of a quadratic transaction cost penalty function over a linear version. This study then expands upon the work of Pickard et al. (2024), who utilize a Chebyshev interpolation option pricing method to train DRL agents with market calibrated stochastic volatility models. While the results of Pickard et al. (2024) showed that these DRL agents achieve satisfactory performance on empirical asset paths, this study introduces a novel approach where new agents at weekly intervals to newly calibrated stochastic volatility models. Results show DRL agents re-trained using weekly market data surpass the performance of those trained solely on the sale date. Furthermore, the paper demonstrates that both single-train and weekly-train DRL agents outperform the Black-Scholes Delta method at transaction costs of 1% and 3%. This practical relevance suggests that practitioners can leverage readily available market data to train DRL agents for effective hedging of options in their portfolios.
- Abstract(参考訳): 本稿では,Deep Reinforcement Learning (DRL) を用いたアメリカのヘッジオプションに関する既存の文献に貢献する。
この研究はまず、学習率、トレーニングエピソード、ニューラルネットワークアーキテクチャ、トレーニングステップ、トランザクションコストペナルティ関数を考慮して、ヘッジパフォーマンスに対するハイパーパラメータの影響を調査した。
その結果,訓練エピソード数の多いハイラーニングレートや,トレーニングエピソードが少ないローラーニングレートなど,特定の組み合わせを避けることの重要性を強調し,最適な結果を得るために適度な値を活用することの重要性を強調した。
さらに,不安定性防止のための過度なトレーニング手順を警告し,線形バージョンよりも2次トランザクションコストペナルティ関数の優位性を示す。
この研究は、チェビシェフ補間オプション価格法を利用して、市場キャリブレーションされた確率的ボラティリティモデルを用いてDRLエージェントを訓練するPickard et al (2024)の業績を拡大する。
Pickard et al (2024) の結果から, これらのDRLエージェントは経験的資産パスにおいて良好な性能を発揮することが示されたが, 本研究は, 新たに校正された確率的ボラティリティモデルに対して, 週毎に新たなエージェントが出現する新たなアプローチを提案する。
その結果、週間市場データを用いて再訓練されたDRLエージェントは、販売日のみのトレーニングを受けたエージェントのパフォーマンスを上回った。
さらに,シングルトレインと週間トレインのDRLエージェントは,取引コスト1%と3%でブラックスコールズデルタ法より優れていることを示した。
この実践的関連性は、実践者が利用可能な市場データを利用してDRLエージェントをトレーニングし、ポートフォリオにおけるオプションの効果的なヘッジが可能になることを示唆している。
関連論文リスト
- An Extremely Data-efficient and Generative LLM-based Reinforcement Learning Agent for Recommenders [1.0154385852423122]
強化学習(RL)アルゴリズムは、長期顧客満足度を最大化し、産業レコメンデーションシステムにおける短期的、筋電図的目標を回避するために有効である。
目標は、RLエージェントをトレーニングして購入報酬を最大化することである。
本報告では, 生成的軌跡を用いて訓練したRL剤についても検討した。
論文 参考訳(メタデータ) (2024-08-28T10:31:50Z) - Hedging American Put Options with Deep Reinforcement Learning [0.0]
本稿では、Deep Deterministic Policy(DDPG)手法を用いて、深層強化学習(DRL)を米国のヘッジパットオプションに活用する。
エージェントは、最初にGeometric Brownian Motion (GBM)アセットパスでトレーニングされ、テストされる。
実世界のシナリオにおけるBS Delta法に対するDRLエージェントの最適性も示唆している。
論文 参考訳(メタデータ) (2024-05-10T18:59:12Z) - PYRA: Parallel Yielding Re-Activation for Training-Inference Efficient Task Adaptation [61.57833648734164]
本稿では, PYRA(Parallel Yielding Re-Activation)法を提案する。
PYRAは低圧縮率と高圧縮率の両方で競合する全ての手法より優れている。
論文 参考訳(メタデータ) (2024-03-14T09:06:49Z) - Augmenting Unsupervised Reinforcement Learning with Self-Reference [63.68018737038331]
人間は、新しいタスクを学ぶ際に、過去の経験を明確に表現する能力を持っている。
本稿では,歴史情報を活用するためのアドオンモジュールとして,自己参照(SR)アプローチを提案する。
提案手法は,非教師付き強化学習ベンチマークにおけるIQM(Interquartile Mean)性能と最適ギャップ削減の両面から,最先端の成果を実現する。
論文 参考訳(メタデータ) (2023-11-16T09:07:34Z) - Reusing Pretrained Models by Multi-linear Operators for Efficient
Training [65.64075958382034]
大規模なモデルをスクラッチからトレーニングすることは、通常、かなりの量のリソースを必要とする。
bert2BERT や LiGO といった最近の研究は、大規模なモデルを初期化するために、小さな事前訓練されたモデルを再利用している。
本稿では,対象モデルの各重みを事前学習モデルの全重みに線形に相関させる手法を提案する。
論文 参考訳(メタデータ) (2023-10-16T06:16:47Z) - Efficient Adversarial Training without Attacking: Worst-Case-Aware
Robust Reinforcement Learning [14.702446153750497]
Worst-case-aware Robust RL (WocaR-RL) は、深層強化学習のための堅牢なトレーニングフレームワークである。
我々は,WocaR-RLが様々な攻撃により最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2022-10-12T05:24:46Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - Enhancing the Generalization Performance and Speed Up Training for
DRL-based Mapless Navigation [18.13884934663477]
DRLエージェントはトレーニングシナリオでうまく動作し、目に見えない現実のシナリオではうまく動作しない。
本稿では,DRLエージェントがこのような未知のシナリオでフェールする理由を論じ,LiDAR読み出しの表現がエージェントの性能劣化の鍵となる要因であることを示す。
そこで本稿では,DRLエージェントの性能向上とトレーニングの高速化を目的とした,簡易かつ効率的な入力前処理(IP)手法を提案する。
論文 参考訳(メタデータ) (2021-03-22T09:36:51Z) - Low-Precision Reinforcement Learning [63.930246183244705]
教師付き学習における計算時間、メモリフットプリント、エネルギー消費を減らすために、低精度トレーニングが一般的なアプローチになっている。
本稿では,最先端のsacエージェントを用いた継続的制御について検討し,教師あり学習による低精度適応が失敗することを実証する。
論文 参考訳(メタデータ) (2021-02-26T16:16:28Z) - Deep Reinforcement Learning for Active High Frequency Trading [1.6874375111244329]
我々は、株式市場におけるアクティブな高周波取引のための、最初のエンドツーエンドのDeep Reinforcement Learning(DRL)ベースのフレームワークを紹介する。
我々はDRLエージェントを訓練し、Pximal Policy Optimizationアルゴリズムを用いてIntel Corporation株の1ユニットを取引する。
論文 参考訳(メタデータ) (2021-01-18T15:09:28Z) - Precise Tradeoffs in Adversarial Training for Linear Regression [55.764306209771405]
本稿では,ガウス的特徴を伴う線形回帰の文脈における対人訓練の役割を,正確かつ包括的に理解する。
我々は,同時代のミニマックス対逆訓練手法によって達成された標準/ロバスト精度とそれに対応するトレードオフを正確に特徴づける。
逆行訓練アルゴリズムの理論は、様々な要因(トレーニングデータのサイズや品質、モデルの過度化など)がこれらの2つの競合するアキュラシー間のトレードオフにどのように影響するかを厳密に研究する上で役立ちます。
論文 参考訳(メタデータ) (2020-02-24T19:01:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。