論文の概要: Adaptive Partitioning and Learning for Stochastic Control of Diffusion Processes
- arxiv url: http://arxiv.org/abs/2512.14991v1
- Date: Wed, 17 Dec 2025 00:52:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.814868
- Title: Adaptive Partitioning and Learning for Stochastic Control of Diffusion Processes
- Title(参考訳): 拡散過程の確率制御のための適応的分割と学習
- Authors: Hanqing Jin, Renyuan Xu, Yanzhao Yang,
- Abstract要約: 非有界連続状態空間を持つ制御拡散過程に対する強化学習について検討する。
連立状態-作用空間を適応的に分割するモデルに基づくアルゴリズムを提案する。
この適応スキームは探索と近似のバランスをとり、非有界領域での効率的な学習を可能にする。
- 参考スコア(独自算出の注目度): 3.058685580689604
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study reinforcement learning for controlled diffusion processes with unbounded continuous state spaces, bounded continuous actions, and polynomially growing rewards: settings that arise naturally in finance, economics, and operations research. To overcome the challenges of continuous and high-dimensional domains, we introduce a model-based algorithm that adaptively partitions the joint state-action space. The algorithm maintains estimators of drift, volatility, and rewards within each partition, refining the discretization whenever estimation bias exceeds statistical confidence. This adaptive scheme balances exploration and approximation, enabling efficient learning in unbounded domains. Our analysis establishes regret bounds that depend on the problem horizon, state dimension, reward growth order, and a newly defined notion of zooming dimension tailored to unbounded diffusion processes. The bounds recover existing results for bounded settings as a special case, while extending theoretical guarantees to a broader class of diffusion-type problems. Finally, we validate the effectiveness of our approach through numerical experiments, including applications to high-dimensional problems such as multi-asset mean-variance portfolio selection.
- Abstract(参考訳): 本研究では,非有界な連続状態空間,有界な連続行動,多項式的に成長する報酬をもつ制御拡散過程に対する強化学習について検討する。
連続的および高次元領域の課題を克服するために、連立状態-作用空間を適応的に分割するモデルベースアルゴリズムを導入する。
このアルゴリズムは、各パーティション内のドリフト、ボラティリティ、および報酬の推定値を保持し、推定バイアスが統計的信頼を超えると、離散化を精査する。
この適応スキームは探索と近似のバランスをとり、非有界領域での効率的な学習を可能にする。
我々の分析は、問題水平線、状態次元、報酬成長順序、および非有界拡散過程に合わせた拡大次元の概念に依存する後悔境界を確立する。
境界は特別な場合として有界な設定に対する既存の結果を回復し、理論上の保証をより広範な拡散型問題に拡張する。
最後に,マルチアセスト平均分散ポートフォリオ選択などの高次元問題への応用を含む数値実験により,本手法の有効性を検証する。
関連論文リスト
- Continuum Dropout for Neural Differential Equations [13.964482869838639]
ニューラル微分方程式(NDE)の普遍的正則化手法である連続解法(Continuum Dropout)を導入する。
連続的なドロップアウト(Continuum Dropout)は、連続的にアクティブ(進化)状態と非アクティブ(停止)状態とを交互に交換するプロセスとしてドロップアウトのオンオフ機構を定式化する。
連続的なドロップアウトは,NDEの既存の正規化手法よりも優れており,様々な時系列や画像分類タスクにおいて優れた性能を発揮することを実証する。
論文 参考訳(メタデータ) (2025-11-13T16:10:45Z) - Learning Controlled Stochastic Differential Equations [61.82896036131116]
本研究では,非一様拡散を伴う連続多次元非線形微分方程式のドリフト係数と拡散係数の両方を推定する新しい手法を提案する。
我々は、(L2)、(Linfty)の有限サンプル境界や、係数の正則性に適応する学習率を持つリスクメトリクスを含む、強力な理論的保証を提供する。
当社のメソッドはオープンソースPythonライブラリとして利用可能です。
論文 参考訳(メタデータ) (2024-11-04T11:09:58Z) - Amortized Posterior Sampling with Diffusion Prior Distillation [55.03585818289934]
Amortized Posterior Smplingは、逆問題における効率的な後方サンプリングのための新しい変分推論手法である。
本手法は,拡散モデルにより暗黙的に定義された変動分布と後続分布とのばらつきを最小限に抑えるために条件付き流れモデルを訓練する。
既存の手法とは異なり、我々のアプローチは教師なしであり、ペア化されたトレーニングデータを必要としておらず、ユークリッドと非ユークリッドの両方のドメインに適用できる。
論文 参考訳(メタデータ) (2024-07-25T09:53:12Z) - Embedding Trajectory for Out-of-Distribution Detection in Mathematical Reasoning [50.84938730450622]
数理推論におけるOOD検出にトラジェクトリボラティリティを用いたトラジェクトリベースのTVスコアを提案する。
本手法は, 数学的推論シナリオ下でのGLM上での従来のアルゴリズムよりも優れる。
提案手法は,複数選択質問などの出力空間における高密度特徴を持つアプリケーションに拡張することができる。
論文 参考訳(メタデータ) (2024-05-22T22:22:25Z) - Data-driven rules for multidimensional reflection problems [1.0742675209112622]
反射型制御を伴う可逆拡散に対する多変量特異制御問題について検討する。
与えられた拡散力学に対して、最適な領域が強い星型であると仮定し、ポリトープ近似に基づく勾配降下アルゴリズムを提案し、コスト最小化領域を数値的に決定する。
最後に,制御器に拡散力学が未知な場合のデータ駆動型解について検討する。
論文 参考訳(メタデータ) (2023-11-11T18:36:17Z) - Measurement Simplification in ρ-POMDP with Performance Guarantees [6.129902017281406]
不確実性の下での意思決定は、不完全な情報で行動する自律システムの中心にある。
本稿では,高次元観測空間を分割することで,効率的な意思決定手法を提案する。
境界は適応的で、計算効率が良く、元の解に収束していることが示される。
論文 参考訳(メタデータ) (2023-09-19T15:40:42Z) - Distributionally Robust Model-based Reinforcement Learning with Large
State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。
広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。
本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:42:11Z) - Learning to Optimize with Stochastic Dominance Constraints [103.26714928625582]
本稿では,不確実量を比較する問題に対して,単純かつ効率的なアプローチを開発する。
我々はラグランジアンの内部最適化をサロゲート近似の学習問題として再考した。
提案したライト-SDは、ファイナンスからサプライチェーン管理に至るまで、いくつかの代表的な問題において優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-14T21:54:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。