Fugu-MT 論文翻訳(概要): Deep Reinforcement Learning for Optimal Stopping with Application in Financial Engineering

論文の概要: Deep Reinforcement Learning for Optimal Stopping with Application in Financial Engineering

arxiv url: http://arxiv.org/abs/2105.08877v1
Date: Wed, 19 May 2021 01:52:04 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-20 13:50:26.246912
Title: Deep Reinforcement Learning for Optimal Stopping with Application in Financial Engineering
Title（参考訳）: 金融工学における最適停止のための深層強化学習
Authors: Abderrahim Fathan and Erick Delage
Abstract要約: 金融工学の2つのアプリケーションにおいて、最適な停止ポリシー(オプション価格、最適オプションエクササイズ)を学ぶために、深層強化学習を採用しています。最先端RLアルゴリズムの3つの状態によって同定された最適停止ポリシーの品質に関する総合的な実証的評価を初めて提示する。
参考スコア（独自算出の注目度）: 1.52292571922932
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Optimal stopping is the problem of deciding the right time at which to take a particular action in a stochastic system, in order to maximize an expected reward. It has many applications in areas such as finance, healthcare, and statistics. In this paper, we employ deep Reinforcement Learning (RL) to learn optimal stopping policies in two financial engineering applications: namely option pricing, and optimal option exercise. We present for the first time a comprehensive empirical evaluation of the quality of optimal stopping policies identified by three state of the art deep RL algorithms: double deep Q-learning (DDQN), categorical distributional RL (C51), and Implicit Quantile Networks (IQN). In the case of option pricing, our findings indicate that in a theoretical Black-Schole environment, IQN successfully identifies nearly optimal prices. On the other hand, it is slightly outperformed by C51 when confronted to real stock data movements in a put option exercise problem that involves assets from the S&P500 index. More importantly, the C51 algorithm is able to identify an optimal stopping policy that achieves 8% more out-of-sample returns than the best of four natural benchmark policies. We conclude with a discussion of our findings which should pave the way for relevant future research.
Abstract（参考訳）: 最適停止は、期待される報酬を最大化するために、確率的なシステムにおいて特定の行動を取る適切な時間を決定する問題である。金融、医療、統計など多くの分野に応用されている。本稿では,2つの金融工学アプリケーション(オプション価格,最適オプションエクササイズ)における最適停止ポリシーを学習するために,深層強化学習(RL)を用いる。本稿では,Double Deep Q-learning (DDQN), Catgorical Distributional RL (C51), Implicit Quantile Networks (IQN) という,最先端RLアルゴリズムの3つの状態によって識別される最適停止ポリシーの品質を総合的に評価した。オプション価格の場合,理論的なブラックショル環境において,iqnは最適価格の特定に成功していることが示唆された。一方、S&P500指数の資産を含むオプションエクササイズ問題において、実際の株価データの動きに直面した場合、C51では若干上回っている。さらに重要なことに、C51アルゴリズムは、4つの自然なベンチマークポリシーのベストよりも8%多くサンプル外リターンを達成する最適な停止ポリシーを特定できる。本研究は,今後の研究の道筋をたどるであろう研究成果の議論から締めくくっている。

関連論文リスト

Accelerating RL for LLM Reasoning with Optimal Advantage Regression [52.0792918455501]
本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。 A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。 PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
論文参考訳（メタデータ） (2025-05-27T03:58:50Z)
Offline Dynamic Inventory and Pricing Strategy: Addressing Censored and Dependent Demand [7.289672463326423]
オフライン機能に基づく価格と在庫管理の問題について検討する。私たちの目標は、オフラインデータセットを活用して、最適な価格と在庫管理ポリシを見積もることです。
論文参考訳（メタデータ） (2025-04-14T02:57:51Z)
Is Best-of-N the Best of Them? Coverage, Scaling, and Optimality in Inference-Time Alignment [54.787826863212146]
推論時間計算は、言語モデルのパフォーマンスをスケールするための強力な軸を提供する。我々は, (i) 応答品質, (ii) 計算量の観点から, 推論時アライメントアルゴリズムの性能を解析する。我々は$textttInferenceTimePessimism$を紹介した。これは推論時間計算の故意使用を通じて報酬ハッキングを緩和する新しいアルゴリズムである。
論文参考訳（メタデータ） (2025-03-27T18:00:08Z)
Traversing Pareto Optimal Policies: Provably Efficient Multi-Objective Reinforcement Learning [14.260168974085376]
本稿では多目的強化学習(MORL)について検討する。複数の報酬関数の存在下で最適なポリシーを学ぶことに焦点を当てている。 MORLの成功にもかかわらず、様々なMORL最適化目標と効率的な学習アルゴリズムについて十分な理解が得られていない。
論文参考訳（メタデータ） (2024-07-24T17:58:49Z)
Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning [55.65738319966385]
我々は、新しいオンラインアルゴリズム、反復的ナッシュポリシー最適化(INPO)を提案する。従来の方法とは異なり、INPOは個々の応答に対する期待される勝利率を推定する必要性を回避している。 LLaMA-3-8BベースのSFTモデルで、INPOはAlpacaEval 2.0で42.6%、Arena-Hardで37.8%の勝利率を達成した。
論文参考訳（メタデータ） (2024-06-30T08:00:34Z)
Extreme Q-Learning: MaxEnt RL without Entropy [88.97516083146371]
現代のDeep Reinforcement Learning (RL)アルゴリズムは、連続的な領域での計算が困難である最大Q値の推定を必要とする。エクストリーム値理論(EVT)を用いた最大値を直接モデル化するオンラインおよびオフラインRLの新しい更新ルールを導入する。 EVTを使用することで、Extreme Q-Learningフレームワークをオンラインに導き、その結果、初めてオフラインのMaxEnt Q-learningアルゴリズムをオフラインにします。
論文参考訳（メタデータ） (2023-01-05T23:14:38Z)
Solving the optimal stopping problem with reinforcement learning: an application in financial option exercise [0.0]
我々はモンテカルロシミュレーションを用いて、人工ニューラルネットワークのトレーニングとテストを行うデータ駆動方式を採用している。我々は、畳み込みニューラルネットワーク(CNN)を用いて価格の歴史全体をマルコフ状態に変換する際に生じる次元問題に対処する別のアーキテクチャを提案する。
論文参考訳（メタデータ） (2022-07-21T22:52:05Z)
Human-in-the-loop: Provably Efficient Preference-based Reinforcement Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-05-23T09:03:24Z)
Restless Bandits with Many Arms: Beating the Central Limit Theorem [25.639496138046546]
有限ホライズン・レスト・ブレイディット(有限ホライズン・レスト・ブレイディット)は、レコメンデーターシステム、アクティブラーニング、収益管理、その他多くの分野で重要な役割を果たしている。最適ポリシーは、原理的には動的プログラミングを用いて計算できるが、計算に必要なスケールは腕数$N$で指数関数的にスケールする。最適性ギャップが$O(1)$である流体プライオリティポリシと呼ばれる、非退化条件と、実用的に計算可能な新しいポリシーのクラスを特徴付ける。
論文参考訳（メタデータ） (2021-07-25T23:27:12Z)
Deep Reinforcement Learning for Stock Portfolio Optimization [0.0]
私たちは、タスクに強化学習を適切に適用できるように問題を定式化します。市場に関する現実的な仮定を維持するためには、取引コストとリスクファクターを州にも組み込む予定です。ストックサブセット選択のための最小分散ポートフォリオと多周波データパターン抽出のためのウェーブレット変換を用いたタスクのエンドツーエンドソリューションを提案する。
論文参考訳（メタデータ） (2020-12-09T10:19:12Z)
Provably Good Batch Reinforcement Learning Without Great Exploration [51.51462608429621]
バッチ強化学習(RL)は、RLアルゴリズムを多くの高利得タスクに適用するために重要である。最近のアルゴリズムは将来性を示しているが、期待された結果に対して過度に楽観的である。より保守的な更新を行うため、ベルマンの最適性と評価のバックアップに小さな修正を加えることで、はるかに強力な保証が得られることを示す。
論文参考訳（メタデータ） (2020-07-16T09:25:54Z)
Preference-based Reinforcement Learning with Finite-Time Guarantees [76.88632321436472]
嗜好に基づく強化学習(PbRL)は、従来の強化学習における報酬価値を代替し、目標とする目的に対する人間の意見をよりよく提示する。応用の有望な結果にもかかわらず、PbRLの理論的理解はまだ初期段階にある。一般PbRL問題に対する最初の有限時間解析を提案する。
論文参考訳（メタデータ） (2020-06-16T03:52:41Z)
Provably Efficient Exploration in Policy Optimization [117.09887790160406]
本稿では,最適化アルゴリズム(OPPO)の最適変種を提案する。 OPPO は $tildeO(sqrtd2 H3 T )$ regret を達成する。我々の知る限りでは、OPPOは、探索する最初の証明可能な効率的なポリシー最適化アルゴリズムである。
論文参考訳（メタデータ） (2019-12-12T08:40:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。