論文の概要: Error Propagation in Dynamic Programming: From Stochastic Control to Option Pricing
- arxiv url: http://arxiv.org/abs/2509.20239v1
- Date: Wed, 24 Sep 2025 15:30:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.879916
- Title: Error Propagation in Dynamic Programming: From Stochastic Control to Option Pricing
- Title(参考訳): 動的プログラミングにおけるエラー伝播:確率制御からオプション価格まで
- Authors: Andrea Della Vecchia, Damir Filipović,
- Abstract要約: 本稿では、離散時間における最適制御(SOC)の理論的および方法論的基礎について検討する。
制御問題を一般的な動的プログラミングフレームワークで定式化し、詳細な収束解析に必要な数学的構造を導入する。
我々は、我々の分析が重要な金融アプリケーション、すなわちアメリカのオプションの価格にどのように自然に適用するかを説明します。
- 参考スコア(独自算出の注目度): 0.12891210250935145
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates theoretical and methodological foundations for stochastic optimal control (SOC) in discrete time. We start formulating the control problem in a general dynamic programming framework, introducing the mathematical structure needed for a detailed convergence analysis. The associate value function is estimated through a sequence of approximations combining nonparametric regression methods and Monte Carlo subsampling. The regression step is performed within reproducing kernel Hilbert spaces (RKHSs), exploiting the classical KRR algorithm, while Monte Carlo sampling methods are introduced to estimate the continuation value. To assess the accuracy of our value function estimator, we propose a natural error decomposition and rigorously control the resulting error terms at each time step. We then analyze how this error propagates backward in time-from maturity to the initial stage-a relatively underexplored aspect of the SOC literature. Finally, we illustrate how our analysis naturally applies to a key financial application: the pricing of American options.
- Abstract(参考訳): 本稿では,確率的最適制御(SOC)の離散時間における理論的および方法論的基礎について検討する。
制御問題を一般的な動的プログラミングフレームワークで定式化し、詳細な収束解析に必要な数学的構造を導入する。
関連値関数は、非パラメトリック回帰法とモンテカルロ部分サンプリングを組み合わせた近似の列によって推定される。
回帰ステップはカーネルヒルベルト空間(RKHS)内で行われ、古典的なKRRアルゴリズムを利用して、モンテカルロサンプリング法を導入して継続値を推定する。
本研究では, 値関数推定器の精度を評価するために, 自然誤差分解を提案し, 結果の誤差項を各ステップで厳密に制御する。
次に、この誤差が成熟期から初期段階へ遡ってどのように伝播するかをSOC文献の比較的未解明の側面として分析する。
最後に、我々の分析が重要な金融アプリケーション、すなわちアメリカのオプションの価格にどのように自然に適用するかを説明します。
関連論文リスト
- Sublinear Regret for a Class of Continuous-Time Linear-Quadratic Reinforcement Learning Problems [10.404992912881601]
拡散に対する連続時間線形四元数(LQ)制御のクラスに対する強化学習(RL)について検討した。
モデルパラメータの知識にも,その推定にも依存しないモデルフリーアプローチを適用し,RLアルゴリズムを設計して,適切なポリシパラメータを直接学習する。
論文 参考訳(メタデータ) (2024-07-24T12:26:21Z) - FastPart: Over-Parameterized Stochastic Gradient Descent for Sparse optimisation on Measures [3.377298662011438]
本稿では,コニックパーティクルグラディエントDescent(CPGD)のスケーラビリティを高めるために,ランダム特徴と協調してグラディエントDescent戦略を利用する新しいアルゴリズムを提案する。
以下の重要な結果を示す厳密な数学的証明を提供する: $mathrm(i)$ 降下軌道に沿った解測度の総変動ノルムは有界であり、安定性を確保し、望ましくない発散を防ぐ。$mathrm(ii)$ 収束率$O(log(K)/sqrtK)$$$$$K以上の大域収束保証を確立する。
論文 参考訳(メタデータ) (2023-12-10T20:41:43Z) - Model-Based Reparameterization Policy Gradient Methods: Theory and
Practical Algorithms [88.74308282658133]
Reization (RP) Policy Gradient Methods (PGM) は、ロボット工学やコンピュータグラフィックスにおける連続的な制御タスクに広く採用されている。
近年の研究では、長期強化学習問題に適用した場合、モデルベースRP PGMはカオス的かつ非滑らかな最適化環境を経験する可能性があることが示されている。
本稿では,長期モデルアンロールによる爆発的分散問題を緩和するスペクトル正規化法を提案する。
論文 参考訳(メタデータ) (2023-10-30T18:43:21Z) - PROMISE: Preconditioned Stochastic Optimization Methods by Incorporating Scalable Curvature Estimates [17.777466668123886]
PROMISE ($textbfPr$econditioned $textbfO$ptimization $textbfM$ethods by $textbfI$ncorporating $textbfS$calable Curvature $textbfE$stimates)はスケッチベースの事前条件勾配アルゴリズムである。
PROMISEには、SVRG、SAGA、およびKatyushaのプレコンディション版が含まれている。
論文 参考訳(メタデータ) (2023-09-05T07:49:10Z) - Robust and Adaptive Temporal-Difference Learning Using An Ensemble of
Gaussian Processes [70.80716221080118]
本稿では、時間差学習(TD)による政策評価の世代的視点について考察する。
OS-GPTDアプローチは、状態-逆ペアのシーケンスを観測することにより、与えられたポリシーの値関数を推定するために開発された。
1つの固定カーネルに関連する限られた表現性を緩和するために、GP前の重み付けアンサンブル(E)を用いて代替のスキームを生成する。
論文 参考訳(メタデータ) (2021-12-01T23:15:09Z) - A general sample complexity analysis of vanilla policy gradient [101.16957584135767]
政策勾配(PG)は、最も一般的な強化学習(RL)問題の1つである。
PG軌道の「バニラ」理論的理解は、RL問題を解く最も一般的な方法の1つである。
論文 参考訳(メタデータ) (2021-07-23T19:38:17Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。