論文の概要: Deep Reinforcement Learning for Optimal Stopping with Application in
Financial Engineering
- arxiv url: http://arxiv.org/abs/2105.08877v1
- Date: Wed, 19 May 2021 01:52:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-20 13:50:26.246912
- Title: Deep Reinforcement Learning for Optimal Stopping with Application in
Financial Engineering
- Title(参考訳): 金融工学における最適停止のための深層強化学習
- Authors: Abderrahim Fathan and Erick Delage
- Abstract要約: 金融工学の2つのアプリケーションにおいて、最適な停止ポリシー(オプション価格、最適オプションエクササイズ)を学ぶために、深層強化学習を採用しています。
最先端RLアルゴリズムの3つの状態によって同定された最適停止ポリシーの品質に関する総合的な実証的評価を初めて提示する。
- 参考スコア(独自算出の注目度): 1.52292571922932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optimal stopping is the problem of deciding the right time at which to take a
particular action in a stochastic system, in order to maximize an expected
reward. It has many applications in areas such as finance, healthcare, and
statistics. In this paper, we employ deep Reinforcement Learning (RL) to learn
optimal stopping policies in two financial engineering applications: namely
option pricing, and optimal option exercise. We present for the first time a
comprehensive empirical evaluation of the quality of optimal stopping policies
identified by three state of the art deep RL algorithms: double deep Q-learning
(DDQN), categorical distributional RL (C51), and Implicit Quantile Networks
(IQN). In the case of option pricing, our findings indicate that in a
theoretical Black-Schole environment, IQN successfully identifies nearly
optimal prices. On the other hand, it is slightly outperformed by C51 when
confronted to real stock data movements in a put option exercise problem that
involves assets from the S&P500 index. More importantly, the C51 algorithm is
able to identify an optimal stopping policy that achieves 8% more out-of-sample
returns than the best of four natural benchmark policies. We conclude with a
discussion of our findings which should pave the way for relevant future
research.
- Abstract(参考訳): 最適停止は、期待される報酬を最大化するために、確率的なシステムにおいて特定の行動を取る適切な時間を決定する問題である。
金融、医療、統計など多くの分野に応用されている。
本稿では,2つの金融工学アプリケーション(オプション価格,最適オプションエクササイズ)における最適停止ポリシーを学習するために,深層強化学習(RL)を用いる。
本稿では,Double Deep Q-learning (DDQN), Catgorical Distributional RL (C51), Implicit Quantile Networks (IQN) という,最先端RLアルゴリズムの3つの状態によって識別される最適停止ポリシーの品質を総合的に評価した。
オプション価格の場合,理論的なブラックショル環境において,iqnは最適価格の特定に成功していることが示唆された。
一方、S&P500指数の資産を含むオプションエクササイズ問題において、実際の株価データの動きに直面した場合、C51では若干上回っている。
さらに重要なことに、C51アルゴリズムは、4つの自然なベンチマークポリシーのベストよりも8%多くサンプル外リターンを達成する最適な停止ポリシーを特定できる。
本研究は,今後の研究の道筋をたどるであろう研究成果の議論から締めくくっている。
関連論文リスト
- Extreme Q-Learning: MaxEnt RL without Entropy [88.97516083146371]
現代のDeep Reinforcement Learning (RL)アルゴリズムは、連続的な領域での計算が困難である最大Q値の推定を必要とする。
エクストリーム値理論(EVT)を用いた最大値を直接モデル化するオンラインおよびオフラインRLの新しい更新ルールを導入する。
EVTを使用することで、Extreme Q-Learningフレームワークをオンラインに導き、その結果、初めてオフラインのMaxEnt Q-learningアルゴリズムをオフラインにします。
論文 参考訳(メタデータ) (2023-01-05T23:14:38Z) - Solving the optimal stopping problem with reinforcement learning: an
application in financial option exercise [0.0]
我々はモンテカルロシミュレーションを用いて、人工ニューラルネットワークのトレーニングとテストを行うデータ駆動方式を採用している。
我々は、畳み込みニューラルネットワーク(CNN)を用いて価格の歴史全体をマルコフ状態に変換する際に生じる次元問題に対処する別のアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-07-21T22:52:05Z) - Human-in-the-loop: Provably Efficient Preference-based Reinforcement
Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。
各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。
一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-23T09:03:24Z) - Understanding the Effect of Stochasticity in Policy Optimization [86.7574122154668]
最適化手法の優位性は、正確な勾配が用いられるかどうかに大きく依存することを示す。
次に,政策最適化におけるコミット率の概念を紹介する。
第三に、外部のオラクル情報がない場合には、収束を加速するために幾何を利用することと、最適性をほぼ確実に達成することとの間に本質的にトレードオフがあることが示される。
論文 参考訳(メタデータ) (2021-10-29T06:35:44Z) - Restless Bandits with Many Arms: Beating the Central Limit Theorem [25.639496138046546]
有限ホライズン・レスト・ブレイディット(有限ホライズン・レスト・ブレイディット)は、レコメンデーターシステム、アクティブラーニング、収益管理、その他多くの分野で重要な役割を果たしている。
最適ポリシーは、原理的には動的プログラミングを用いて計算できるが、計算に必要なスケールは腕数$N$で指数関数的にスケールする。
最適性ギャップが$O(1)$である流体プライオリティポリシと呼ばれる、非退化条件と、実用的に計算可能な新しいポリシーのクラスを特徴付ける。
論文 参考訳(メタデータ) (2021-07-25T23:27:12Z) - Solving optimal stopping problems with Deep Q-Learning [0.0]
オプション型製品の最適な運動戦略をモデル化する強化学習(RL)手法を提案する。
基本関数の仕様を必要としない深層ニューラルネットワークを用いてQ関数を近似する。
我々は、トレーニングされたニューラルネットワークから得られるオプション価格と、停止問題の2つの定式化から得られる上限を低くする。
論文 参考訳(メタデータ) (2021-01-24T10:05:46Z) - Deep Reinforcement Learning for Stock Portfolio Optimization [0.0]
私たちは、タスクに強化学習を適切に適用できるように問題を定式化します。
市場に関する現実的な仮定を維持するためには、取引コストとリスクファクターを州にも組み込む予定です。
ストックサブセット選択のための最小分散ポートフォリオと多周波データパターン抽出のためのウェーブレット変換を用いたタスクのエンドツーエンドソリューションを提案する。
論文 参考訳(メタデータ) (2020-12-09T10:19:12Z) - Provably Good Batch Reinforcement Learning Without Great Exploration [51.51462608429621]
バッチ強化学習(RL)は、RLアルゴリズムを多くの高利得タスクに適用するために重要である。
最近のアルゴリズムは将来性を示しているが、期待された結果に対して過度に楽観的である。
より保守的な更新を行うため、ベルマンの最適性と評価のバックアップに小さな修正を加えることで、はるかに強力な保証が得られることを示す。
論文 参考訳(メタデータ) (2020-07-16T09:25:54Z) - Preference-based Reinforcement Learning with Finite-Time Guarantees [76.88632321436472]
嗜好に基づく強化学習(PbRL)は、従来の強化学習における報酬価値を代替し、目標とする目的に対する人間の意見をよりよく提示する。
応用の有望な結果にもかかわらず、PbRLの理論的理解はまだ初期段階にある。
一般PbRL問題に対する最初の有限時間解析を提案する。
論文 参考訳(メタデータ) (2020-06-16T03:52:41Z) - Optimistic Exploration even with a Pessimistic Initialisation [57.41327865257504]
最適初期化は強化学習(RL)における効率的な探索のための効果的な戦略である
特に、正の報酬しか持たないシナリオでは、Q-値はその最低値で初期化される。
本稿では、ニューラルネットワークから楽観性の源を分離する、悲観的に初期化されたQ値に対する単純なカウントベースの拡張を提案する。
論文 参考訳(メタデータ) (2020-02-26T17:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。