論文の概要: Adaptive Learning via Off-Model Training and Importance Sampling for Fully Non-Markovian Optimal Stochastic Control. Complete version
- arxiv url: http://arxiv.org/abs/2604.13147v1
- Date: Tue, 14 Apr 2026 16:32:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.229423
- Title: Adaptive Learning via Off-Model Training and Importance Sampling for Fully Non-Markovian Optimal Stochastic Control. Complete version
- Title(参考訳): 完全非マルコフ最適確率制御のためのオフモデルトレーニングと重要サンプリングによる適応学習
- Authors: Dorival Leão, Alberto Ohashi, Simone Scotti, Adolfo M. D da Silva,
- Abstract要約: 本稿では,制御状態が完全に非マルコフ的であり,未知のモデルパラメータに依存する連続時間制御問題について検討する。
従来の研究で開発された離散スケルトン法に基づいて, 組込み後進動的プログラミング方程式に対するモンテカルロ学習手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies continuous-time stochastic control problems whose controlled states are fully non-Markovian and depend on unknown model parameters. Such problems arise naturally in path-dependent stochastic differential equations, rough-volatility hedging, and systems driven by fractional Brownian motion. Building on the discrete skeleton approach developed in earlier work, we propose a Monte Carlo learning methodology for the associated embedded backward dynamic programming equation. Our main contribution is twofold. First, we construct explicit dominating training laws and Radon--Nikodym weights for several representative classes of non-Markovian controlled systems. This yields an off-model training architecture in which a fixed synthetic dataset is generated under a reference law, while the dynamic programming operators associated with a target model are recovered by importance sampling. Second, we use this structure to design an adaptive update mechanism under parametric model uncertainty, so that repeated recalibration can be performed by reweighting the same training sample rather than regenerating new trajectories. For fixed parameters, we establish non-asymptotic error bounds for the approximation of the embedded dynamic programming equation via deep neural networks. For adaptive learning, we derive quantitative estimates that separate Monte Carlo approximation error from model-risk error. Numerical experiments illustrate both the off-model training mechanism and the adaptive importance-sampling update in structured linear-quadratic examples.
- Abstract(参考訳): 本稿では,制御状態が完全に非マルコフ的であり,未知のモデルパラメータに依存する連続時間確率制御問題について検討する。
このような問題は、経路依存確率微分方程式、粗揮発性ヘッジ、および分数的なブラウン運動によって駆動される系において自然に発生する。
初期の研究で開発された離散スケルトン法に基づいて,関連する組込み動的プログラミング方程式に対するモンテカルロ学習手法を提案する。
私たちの主な貢献は2倍です。
まず、マルコフ制御系のいくつかの代表的なクラスに対して、明示的な支配的トレーニング則とラドン-ニコディム重みを構築する。
これにより、固定された合成データセットを基準法の下で生成し、対象モデルに関連する動的プログラム演算子を重要サンプリングにより回収するオフモデルトレーニングアーキテクチャが得られる。
第二に、この構造を用いてパラメトリックモデル不確実性の下で適応的な更新機構を設計し、新しい軌道を再生するのではなく、同じトレーニングサンプルを再重み付けすることで繰り返し再校正を行うことができる。
固定パラメータに対しては、ディープニューラルネットワークによる埋め込み動的プログラミング方程式の近似のための非漸近誤差境界を確立する。
適応学習では,モンテカルロ近似誤差とモデルリスク誤差を分離する定量的推定を導出する。
数値実験は、非モデルトレーニング機構と適応的重要度サンプリング更新の両方を構造化線形四元数例で示す。
関連論文リスト
- Stochastic Control for Fine-tuning Diffusion Models: Optimality, Regularity, and Convergence [19.484676783876306]
拡散モデルは生成モデリングの強力なツールとして登場してきた。
微調整拡散モデルのための制御フレームワークを提案する。
PI-FTは線形速度で大域収束することを示す。
論文 参考訳(メタデータ) (2024-12-24T04:55:46Z) - Data-driven Nonlinear Model Reduction using Koopman Theory: Integrated
Control Form and NMPC Case Study [56.283944756315066]
そこで本研究では,遅延座標符号化と全状態復号化を組み合わせた汎用モデル構造を提案し,Koopmanモデリングと状態推定を統合した。
ケーススタディでは,本手法が正確な制御モデルを提供し,高純度極低温蒸留塔のリアルタイム非線形予測制御を可能にすることを実証している。
論文 参考訳(メタデータ) (2024-01-09T11:54:54Z) - End-to-End Reinforcement Learning of Koopman Models for Economic Nonlinear Model Predictive Control [45.84205238554709]
本研究では, (e)NMPCの一部として最適性能を示すために, Koopman シュロゲートモデルの強化学習法を提案する。
エンドツーエンドトレーニングモデルは,(e)NMPCにおけるシステム識別を用いてトレーニングしたモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-03T10:21:53Z) - Learning Residual Model of Model Predictive Control via Random Forests
for Autonomous Driving [13.865293598486492]
自律運転における予測制御(MPC)の大きな問題は、システムモデルの予測と計算の矛盾である。
本稿では、MPC追跡精度をプログラム(QP)問題最適化として再構成し、プログラム(QP)が効果的に解けるようにする。
論文 参考訳(メタデータ) (2023-04-10T03:32:09Z) - Data-driven Control of Agent-based Models: an Equation/Variable-free
Machine Learning Approach [0.0]
複雑/マルチスケールシステムの集合力学を制御するための方程式/変数自由機械学習(EVFML)フレームワークを提案する。
提案手法は3段階からなる: (A) 高次元エージェントベースシミュレーション、機械学習(特に非線形多様体学習(DM))
創発力学の数値分岐解析を行うために方程式のない手法を用いる。
我々は,エージェントをベースとしたシミュレータを本質的で不正確に知られ,創発的なオープンループ定常状態に駆動する,データ駆動型組込み洗浄制御器を設計する。
論文 参考訳(メタデータ) (2022-07-12T18:16:22Z) - Anomaly Detection of Time Series with Smoothness-Inducing Sequential
Variational Auto-Encoder [59.69303945834122]
Smoothness-Inducing Sequential Variational Auto-Encoder (SISVAE) モデルを提案する。
我々のモデルは、フレキシブルニューラルネットワークを用いて各タイムスタンプの平均と分散をパラメータ化する。
合成データセットと公開実世界のベンチマークの両方において,本モデルの有効性を示す。
論文 参考訳(メタデータ) (2021-02-02T06:15:15Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。