論文の概要: Solving the optimal stopping problem with reinforcement learning: an
application in financial option exercise
- arxiv url: http://arxiv.org/abs/2208.00765v1
- Date: Thu, 21 Jul 2022 22:52:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-07 14:27:17.548794
- Title: Solving the optimal stopping problem with reinforcement learning: an
application in financial option exercise
- Title(参考訳): 強化学習による最適停止問題の解法:金融オプション演習への適用
- Authors: Leonardo Kanashiro Felizardo and Elia Matsumoto and Emilio
Del-Moral-Hernandez
- Abstract要約: 我々はモンテカルロシミュレーションを用いて、人工ニューラルネットワークのトレーニングとテストを行うデータ駆動方式を採用している。
我々は、畳み込みニューラルネットワーク(CNN)を用いて価格の歴史全体をマルコフ状態に変換する際に生じる次元問題に対処する別のアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The optimal stopping problem is a category of decision problems with a
specific constrained configuration. It is relevant to various real-world
applications such as finance and management. To solve the optimal stopping
problem, state-of-the-art algorithms in dynamic programming, such as the
least-squares Monte Carlo (LSMC), are employed. This type of algorithm relies
on path simulations using only the last price of the underlying asset as a
state representation. Also, the LSMC was thinking for option valuation where
risk-neutral probabilities can be employed to account for uncertainty. However,
the general optimal stopping problem goals may not fit the requirements of the
LSMC showing auto-correlated prices. We employ a data-driven method that uses
Monte Carlo simulation to train and test artificial neural networks (ANN) to
solve the optimal stopping problem. Using ANN to solve decision problems is not
entirely new. We propose a different architecture that uses convolutional
neural networks (CNN) to deal with the dimensionality problem that arises when
we transform the whole history of prices into a Markovian state. We present
experiments that indicate that our proposed architecture improves results over
the previous implementations under specific simulated time series function
sets. Lastly, we employ our proposed method to compare the optimal exercise of
the financial options problem with the LSMC algorithm. Our experiments show
that our method can capture more accurate exercise opportunities when compared
to the LSMC. We have outstandingly higher (above 974\% improvement) expected
payoff from these exercise policies under the many Monte Carlo simulations that
used the real-world return database on the out-of-sample (test) data.
- Abstract(参考訳): 最適停止問題は、特定の制約のある構成を持つ決定問題のカテゴリである。
財務や管理など、現実世界のさまざまなアプリケーションと関係がある。
最適停止問題を解決するために、最小二乗モンテカルロ(LSMC)のような動的プログラミングにおける最先端のアルゴリズムを用いる。
この種のアルゴリズムは、基礎となる資産の最後の価格のみを状態表現として使用するパスシミュレーションに依存している。
またLSMCは、リスクニュートラル確率を不確実性を考慮したオプション評価も検討していた。
しかし、一般的な最適停止問題ゴールは、自己相関価格を示すLSMCの要件に適合しないかもしれない。
本研究では,モンテカルロシミュレーションを用いてニューラルネットワーク(ann)の学習とテストを行い,最適停止問題を解くデータ駆動手法を提案する。
ANNを使って意思決定の問題を解決することは、まったく新しいことではない。
我々は、畳み込みニューラルネットワーク(CNN)を用いて価格の歴史全体をマルコフ状態に変換する際に生じる次元問題に対処する別のアーキテクチャを提案する。
提案するアーキテクチャが,特定のシミュレーション時系列関数セットにおいて,先行実装よりも結果が向上することを示す実験を行う。
最後に,提案手法を用いて,金融オプション問題の最適エクササイズとLSMCアルゴリズムを比較した。
実験の結果,LSMCと比較して,より正確な運動機会を得られることがわかった。
実世界のリターンデータベースをサンプル外(テスト)データで使用したモンテカルロシミュレーションでは,これらのエクササイズポリシの成果(974\%以上の改善)が期待できるほど高くなりました。
関連論文リスト
- Can Large Language Models Play Games? A Case Study of A Self-Play
Approach [61.15761840203145]
LLM(Large Language Models)は、インターネットからの広範なデータを利用して、幅広い事前知識を格納する。
Monte-Carlo Tree Search (MCTS)は、信頼性の高い意思決定ソリューションを提供する検索アルゴリズムである。
この研究は、ターンベースのゼロサムゲームを効率的に解決するために、MCTSセルフプレイでLLMを活性化させる革新的なアプローチを導入している。
論文 参考訳(メタデータ) (2024-03-08T19:16:29Z) - Optimal simulation-based Bayesian decisions [0.0]
難解な確率下での最適ベイズ決定の効率的な計算のための枠組みを提案する。
パラメータと行動空間のどの位置をシミュレートするかを選択するための能動的学習手法を開発した。
結果として生じるフレームワークは極めて効率的なシミュレーションであり、一般的に、関連する後部推論タスクのみよりもモデル呼び出しを少なくする。
論文 参考訳(メタデータ) (2023-11-09T20:59:52Z) - Multi-Resolution Active Learning of Fourier Neural Operators [35.32147657972097]
本稿では,FNO(MRA-FNO)の多解能動学習を提案する。
具体的には,確率的多分解能FNOを提案し,モンテカルロのアンサンブルを用いて効果的な後部推論アルゴリズムを提案する。
いくつかのベンチマーク演算子学習タスクにおいて,本手法の利点を示した。
論文 参考訳(メタデータ) (2023-09-29T04:41:27Z) - High-dimensional Contextual Bandit Problem without Sparsity [8.782204980889077]
本稿では,この問題に対処し,その性能を検証するための探索列コミット(EtC)アルゴリズムを提案する。
我々は、ETCアルゴリズムの最適レートを$T$で導出し、探索とエクスプロイトのバランスをとることで、このレートを実現できることを示す。
本稿では,最適バランスを適応的に求める適応探索定理 (AEtC) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-19T15:29:32Z) - Bayesian Learning of Optimal Policies in Markov Decision Processes with
Countably Infinite State-Space [0.0]
離散時間可算状態空間マルコフ決定過程の族を最適に制御する問題について検討する。
動的サイズのエピソードを用いたトンプソンサンプリングに基づくアルゴリズムを提案する。
提案アルゴリズムは, 近似最適制御アルゴリズムの開発に応用可能であることを示す。
論文 参考訳(メタデータ) (2023-06-05T03:57:16Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - An Experimental Design Perspective on Model-Based Reinforcement Learning [73.37942845983417]
環境からの状態遷移を観察するのは費用がかかる。
標準RLアルゴリズムは通常、学習するために多くの観測を必要とする。
本稿では,マルコフ決定過程について,状態-作用対がどの程度の情報を提供するかを定量化する獲得関数を提案する。
論文 参考訳(メタデータ) (2021-12-09T23:13:57Z) - Minimax Optimization with Smooth Algorithmic Adversaries [59.47122537182611]
対戦相手が展開するスムーズなアルゴリズムに対して,Min-playerの新しいアルゴリズムを提案する。
本アルゴリズムは,制限周期のない単調進行を保証し,適切な勾配上昇数を求める。
論文 参考訳(メタデータ) (2021-06-02T22:03:36Z) - Bayesian Optimisation for Constrained Problems [0.0]
本稿では,制約を扱える知恵グラディエント獲得関数の新たな変種を提案する。
我々は、このアルゴリズムを、他の4つの最先端制約されたベイズ最適化アルゴリズムと比較し、その優れた性能を実証する。
論文 参考訳(メタデータ) (2021-05-27T15:43:09Z) - Offline Model-Based Optimization via Normalized Maximum Likelihood
Estimation [101.22379613810881]
データ駆動最適化の問題を検討し、一定の点セットでクエリのみを与えられた関数を最大化する必要がある。
この問題は、関数評価が複雑で高価なプロセスである多くの領域に現れる。
我々は,提案手法を高容量ニューラルネットワークモデルに拡張可能なトラクタブル近似を提案する。
論文 参考訳(メタデータ) (2021-02-16T06:04:27Z) - Online Model Selection for Reinforcement Learning with Function
Approximation [50.008542459050155]
我々は、$tildeO(L5/6 T2/3)$ regretで最適な複雑性に適応するメタアルゴリズムを提案する。
また、メタアルゴリズムは、インスタンス依存の後悔境界を著しく改善することを示す。
論文 参考訳(メタデータ) (2020-11-19T10:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。