論文の概要: Deep Hedging of Derivatives Using Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2103.16409v1
- Date: Mon, 29 Mar 2021 07:43:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-31 14:31:18.753803
- Title: Deep Hedging of Derivatives Using Reinforcement Learning
- Title(参考訳): 強化学習による誘導体の深部ヒージング
- Authors: Jay Cao, Jacky Chen, John Hull, Zissis Poulos
- Abstract要約: 取引コストのあるデリバティブに対して、強化学習が最適なヘッジ戦略の導出にどのように役立つかを示す。
我々は、比較的単純な評価モデルを取り入れた会計P&Lアプローチの使用を含むハイブリッドアプローチがうまく機能することがわかります。
- 参考スコア(独自算出の注目度): 0.3313576045747072
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper shows how reinforcement learning can be used to derive optimal
hedging strategies for derivatives when there are transaction costs. The paper
illustrates the approach by showing the difference between using delta hedging
and optimal hedging for a short position in a call option when the objective is
to minimize a function equal to the mean hedging cost plus a constant times the
standard deviation of the hedging cost. Two situations are considered. In the
first, the asset price follows a geometric Brownian motion. In the second, the
asset price follows a stochastic volatility process. The paper extends the
basic reinforcement learning approach in a number of ways. First, it uses two
different Q-functions so that both the expected value of the cost and the
expected value of the square of the cost are tracked for different state/action
combinations. This approach increases the range of objective functions that can
be used. Second, it uses a learning algorithm that allows for continuous state
and action space. Third, it compares the accounting P&L approach (where the
hedged position is valued at each step) and the cash flow approach (where cash
inflows and outflows are used). We find that a hybrid approach involving the
use of an accounting P&L approach that incorporates a relatively simple
valuation model works well. The valuation model does not have to correspond to
the process assumed for the underlying asset price.
- Abstract(参考訳): 本稿では,トランザクションコストが存在する場合のデリバティブに対する最適ヘッジ戦略の導出に強化学習を用いる方法を示す。
本稿では,平均ヘッジコストに等しい関数を最小化することと、ヘッジコストの標準偏差の一定倍にすることを目的とした場合,コールオプションにおけるデルタヘッジと最短位置の最適ヘッジの違いを示す。
2つの状況が考慮される。
第一に、資産価格は幾何学的ブラウン運動に従う。
第二に、資産価格は確率的変動過程に従う。
本論文は, 基本強化学習アプローチを, 様々な方法で拡張する。
まず、コストの期待値とコストの2乗の期待値の両方が異なる状態と動作の組み合わせで追跡されるように、2つの異なるq関数を使用する。
このアプローチは、使用可能な目的関数の範囲を増加させる。
第二に、連続状態とアクション空間を可能にする学習アルゴリズムを使用する。
第3に、会計P&Lアプローチ(ヘッジポジションが各ステップで評価される)とキャッシュフローアプローチ(キャッシュインフローとアウトフローが使用される)を比較します。
私たちは、比較的単純な評価モデルを取り入れた会計p&lアプローチの利用を含むハイブリッドアプローチがうまく機能することを見出します。
評価モデルは、基礎となる資産価格について想定されるプロセスと一致しない。
関連論文リスト
- Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Onflow: an online portfolio allocation algorithm [0.0]
ポートフォリオ割り当てポリシーのオンライン最適化を可能にする強化学習手法であるOnflowを紹介する。
ログ正規資産の場合、トランザクションコストがゼロのOnflowが学んだ戦略は、Markowitzの最適ポートフォリオを模倣している。
オンフローは、他の動的アロケーション技術がもはや機能しないレギュレーションにおいて、効率的であり続けることができる。
論文 参考訳(メタデータ) (2023-12-08T16:49:19Z) - Online non-parametric likelihood-ratio estimation by Pearson-divergence
functional minimization [55.98760097296213]
iid 観測のペア $(x_t sim p, x'_t sim q)$ が時間の経過とともに観測されるような,オンラインな非パラメトリック LRE (OLRE) のための新しいフレームワークを提案する。
本稿では,OLRE法の性能に関する理論的保証と,合成実験における実証的検証について述べる。
論文 参考訳(メタデータ) (2023-11-03T13:20:11Z) - Autoregressive Bandits [58.46584210388307]
本稿では,オンライン学習環境であるAutoregressive Banditsを提案する。
報酬プロセスの軽微な仮定の下では、最適ポリシーを便利に計算できることが示される。
次に、新しい楽観的後悔最小化アルゴリズム、すなわちAutoRegressive Upper Confidence Bound (AR-UCB)を考案し、$widetildemathcalO left( frac(k+1)3/2sqrtnT (1-G)のサブ線形後悔を被る。
論文 参考訳(メタデータ) (2022-12-12T21:37:36Z) - Instance-optimality in optimal value estimation: Adaptivity via
variance-reduced Q-learning [99.34907092347733]
本稿では,マルコフ決定過程における最適な$Q$値関数を離散状態と動作で推定する問題を解析する。
局所的なミニマックスフレームワークを用いて、この関数は任意の推定手順の精度の低い境界に現れることを示す。
他方,Q$ラーニングの分散還元版を解析することにより,状態と行動空間の対数的要因まで,下位境界のシャープさを確立する。
論文 参考訳(メタデータ) (2021-06-28T00:38:54Z) - Can we imitate stock price behavior to reinforcement learn option price? [7.771514118651335]
本稿では,強化学習オプション価格に基礎となる在庫の価格変動を模倣する枠組みを提案する。
我々は、非決定論的マルコフ決定プロセスを構築するために、株式価格データのアクセス可能な特徴を利用する。
提案アルゴリズムは,模擬主投資家の意思決定をベイジアンディープニューラルネットワークによるストック価格パスのシミュレートにマップする。
論文 参考訳(メタデータ) (2021-05-24T16:08:58Z) - Deep Reinforcement Learning for Stock Portfolio Optimization [0.0]
私たちは、タスクに強化学習を適切に適用できるように問題を定式化します。
市場に関する現実的な仮定を維持するためには、取引コストとリスクファクターを州にも組み込む予定です。
ストックサブセット選択のための最小分散ポートフォリオと多周波データパターン抽出のためのウェーブレット変換を用いたタスクのエンドツーエンドソリューションを提案する。
論文 参考訳(メタデータ) (2020-12-09T10:19:12Z) - Transfer Learning via $\ell_1$ Regularization [9.442139459221785]
本稿では,ソースドメインからターゲットドメインへの知識伝達手法を提案する。
提案手法は推定値自体と推定値の変化の両方に対して空間性を与える。
実験結果から, 本手法は安定性と塑性のバランスを効果的に保っていることが示された。
論文 参考訳(メタデータ) (2020-06-26T07:42:03Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。