Fugu-MT 論文翻訳(概要): Solving the optimal stopping problem with reinforcement learning: an application in financial option exercise

論文の概要: Solving the optimal stopping problem with reinforcement learning: an application in financial option exercise

arxiv url: http://arxiv.org/abs/2208.00765v1
Date: Thu, 21 Jul 2022 22:52:05 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-07 14:27:17.548794
Title: Solving the optimal stopping problem with reinforcement learning: an application in financial option exercise
Title（参考訳）: 強化学習による最適停止問題の解法:金融オプション演習への適用
Authors: Leonardo Kanashiro Felizardo and Elia Matsumoto and Emilio Del-Moral-Hernandez
Abstract要約: 我々はモンテカルロシミュレーションを用いて、人工ニューラルネットワークのトレーニングとテストを行うデータ駆動方式を採用している。我々は、畳み込みニューラルネットワーク(CNN)を用いて価格の歴史全体をマルコフ状態に変換する際に生じる次元問題に対処する別のアーキテクチャを提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The optimal stopping problem is a category of decision problems with a specific constrained configuration. It is relevant to various real-world applications such as finance and management. To solve the optimal stopping problem, state-of-the-art algorithms in dynamic programming, such as the least-squares Monte Carlo (LSMC), are employed. This type of algorithm relies on path simulations using only the last price of the underlying asset as a state representation. Also, the LSMC was thinking for option valuation where risk-neutral probabilities can be employed to account for uncertainty. However, the general optimal stopping problem goals may not fit the requirements of the LSMC showing auto-correlated prices. We employ a data-driven method that uses Monte Carlo simulation to train and test artificial neural networks (ANN) to solve the optimal stopping problem. Using ANN to solve decision problems is not entirely new. We propose a different architecture that uses convolutional neural networks (CNN) to deal with the dimensionality problem that arises when we transform the whole history of prices into a Markovian state. We present experiments that indicate that our proposed architecture improves results over the previous implementations under specific simulated time series function sets. Lastly, we employ our proposed method to compare the optimal exercise of the financial options problem with the LSMC algorithm. Our experiments show that our method can capture more accurate exercise opportunities when compared to the LSMC. We have outstandingly higher (above 974\% improvement) expected payoff from these exercise policies under the many Monte Carlo simulations that used the real-world return database on the out-of-sample (test) data.
Abstract（参考訳）: 最適停止問題は、特定の制約のある構成を持つ決定問題のカテゴリである。財務や管理など、現実世界のさまざまなアプリケーションと関係がある。最適停止問題を解決するために、最小二乗モンテカルロ(LSMC)のような動的プログラミングにおける最先端のアルゴリズムを用いる。この種のアルゴリズムは、基礎となる資産の最後の価格のみを状態表現として使用するパスシミュレーションに依存している。またLSMCは、リスクニュートラル確率を不確実性を考慮したオプション評価も検討していた。しかし、一般的な最適停止問題ゴールは、自己相関価格を示すLSMCの要件に適合しないかもしれない。本研究では,モンテカルロシミュレーションを用いてニューラルネットワーク(ann)の学習とテストを行い,最適停止問題を解くデータ駆動手法を提案する。 ANNを使って意思決定の問題を解決することは、まったく新しいことではない。我々は、畳み込みニューラルネットワーク(CNN)を用いて価格の歴史全体をマルコフ状態に変換する際に生じる次元問題に対処する別のアーキテクチャを提案する。提案するアーキテクチャが,特定のシミュレーション時系列関数セットにおいて,先行実装よりも結果が向上することを示す実験を行う。最後に,提案手法を用いて,金融オプション問題の最適エクササイズとLSMCアルゴリズムを比較した。実験の結果,LSMCと比較して,より正確な運動機会を得られることがわかった。実世界のリターンデータベースをサンプル外(テスト)データで使用したモンテカルロシミュレーションでは,これらのエクササイズポリシの成果(974\%以上の改善)が期待できるほど高くなりました。

関連論文リスト

Sample, Don't Search: Rethinking Test-Time Alignment for Language Models [55.2480439325792]
新しいテストタイムアライメントアプローチであるQAlignを紹介します。テスト時間計算をスケールする際、QAlignは各プロンプトの最適配向分布からのサンプリングに収束する。マルコフ連鎖モンテカルロのテキスト生成における最近の進歩を取り入れることで、基礎となるモデルを変更したり、ロジットアクセスを必要とせずに、より良い整合出力を可能にする。
論文参考訳（メタデータ） (2025-04-04T00:41:40Z)
Accelerated zero-order SGD under high-order smoothness and overparameterized regime [79.85163929026146]
凸最適化問題を解くための新しい勾配のないアルゴリズムを提案する。このような問題は医学、物理学、機械学習で発生する。両種類の雑音下で提案アルゴリズムの収束保証を行う。
論文参考訳（メタデータ） (2024-11-21T10:26:17Z)
Solving Stochastic Orienteering Problems with Chance Constraints Using a GNN Powered Monte Carlo Tree Search [3.3088495893219885]
本稿では,モンテカルロ木探索法(MCTS)を提案する。割り当てられた旅行予算を順守しながら、アルゴリズムは、旅行コストを発生させながら収集された報酬を最大化する。トレーニングデータセットの特性を超えて、このアプローチがいかに一般化できるかを実証する。
論文参考訳（メタデータ） (2024-09-06T23:31:01Z)
Pricing American Options using Machine Learning Algorithms [0.0]
本研究は,モンテカルロシミュレーションを用いて,機械学習アルゴリズムのアメリカ人オプションの価格設定への応用について検討する。 Black-Scholes-Mertonフレームワークのような伝統的なモデルは、しばしばアメリカの選択肢の複雑さに適切に対処できない。モンテカルロ法とLast Square Methodを併用して機械学習を行った。
論文参考訳（メタデータ） (2024-09-05T02:52:11Z)
Beyond Closure Models: Learning Chaotic-Systems via Physics-Informed Neural Operators [78.64101336150419]
カオスシステムの長期的挙動を予測することは、気候モデリングなどの様々な応用に不可欠である。このような完全解法シミュレーションに対する別のアプローチは、粗いグリッドを使用して、時間テキストモデルによってエラーを修正することである。この制限を克服する物理インフォームド・ニューラル演算子(PINO)を用いたエンド・ツー・エンドの学習手法を提案する。
論文参考訳（メタデータ） (2024-08-09T17:05:45Z)
Can Large Language Models Play Games? A Case Study of A Self-Play Approach [61.15761840203145]
LLM(Large Language Models)は、インターネットからの広範なデータを利用して、幅広い事前知識を格納する。 Monte-Carlo Tree Search (MCTS)は、信頼性の高い意思決定ソリューションを提供する検索アルゴリズムである。この研究は、ターンベースのゼロサムゲームを効率的に解決するために、MCTSセルフプレイでLLMを活性化させる革新的なアプローチを導入している。
論文参考訳（メタデータ） (2024-03-08T19:16:29Z)
Multi-Resolution Active Learning of Fourier Neural Operators [33.63483360957646]
本稿では,FNO(MRA-FNO)の多解能動的学習を提案する。具体的には,確率的多分解能FNOを提案し,モンテカルロのアンサンブルを用いて効果的な後部推論アルゴリズムを提案する。いくつかのベンチマーク演算子学習タスクにおいて,本手法の利点を示した。
論文参考訳（メタデータ） (2023-09-29T04:41:27Z)
High-dimensional Contextual Bandit Problem without Sparsity [8.782204980889077]
本稿では,この問題に対処し,その性能を検証するための探索列コミット(EtC)アルゴリズムを提案する。我々は、ETCアルゴリズムの最適レートを$T$で導出し、探索とエクスプロイトのバランスをとることで、このレートを実現できることを示す。本稿では,最適バランスを適応的に求める適応探索定理 (AEtC) アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-06-19T15:29:32Z)
Bayesian Learning of Optimal Policies in Markov Decision Processes with Countably Infinite State-Space [0.0]
離散時間可算状態空間マルコフ決定過程の族を最適に制御する問題について検討する。動的サイズのエピソードを用いたトンプソンサンプリングに基づくアルゴリズムを提案する。提案アルゴリズムは, 近似最適制御アルゴリズムの開発に応用可能であることを示す。
論文参考訳（メタデータ） (2023-06-05T03:57:16Z)
Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。 IRLの多くのアルゴリズムは本質的にネスト構造を持つ。我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文参考訳（メタデータ） (2022-10-04T17:13:45Z)
An Experimental Design Perspective on Model-Based Reinforcement Learning [73.37942845983417]
環境からの状態遷移を観察するのは費用がかかる。標準RLアルゴリズムは通常、学習するために多くの観測を必要とする。本稿では,マルコフ決定過程について,状態-作用対がどの程度の情報を提供するかを定量化する獲得関数を提案する。
論文参考訳（メタデータ） (2021-12-09T23:13:57Z)
Online Model Selection for Reinforcement Learning with Function Approximation [50.008542459050155]
我々は、$tildeO(L5/6 T2/3)$ regretで最適な複雑性に適応するメタアルゴリズムを提案する。また、メタアルゴリズムは、インスタンス依存の後悔境界を著しく改善することを示す。
論文参考訳（メタデータ） (2020-11-19T10:00:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。