論文の概要: Continuous-time reinforcement learning: ellipticity enables model-free value function approximation
- arxiv url: http://arxiv.org/abs/2602.06930v1
- Date: Fri, 06 Feb 2026 18:25:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.524567
- Title: Continuous-time reinforcement learning: ellipticity enables model-free value function approximation
- Title(参考訳): 連続時間強化学習:楕円性はモデル自由値関数近似を可能にする
- Authors: Wenlong Mou,
- Abstract要約: 本研究では、離散時間観測と行動によるマルコフ拡散過程の制御のための非政治強化学習について検討する。
データから直接関数を学習する関数近似を用いたモデルフリーアルゴリズムについて検討する。
- 参考スコア(独自算出の注目度): 1.3350982138577037
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study off-policy reinforcement learning for controlling continuous-time Markov diffusion processes with discrete-time observations and actions. We consider model-free algorithms with function approximation that learn value and advantage functions directly from data, without unrealistic structural assumptions on the dynamics. Leveraging the ellipticity of the diffusions, we establish a new class of Hilbert-space positive definiteness and boundedness properties for the Bellman operators. Based on these properties, we propose the Sobolev-prox fitted $q$-learning algorithm, which learns value and advantage functions by iteratively solving least-squares regression problems. We derive oracle inequalities for the estimation error, governed by (i) the best approximation error of the function classes, (ii) their localized complexity, (iii) exponentially decaying optimization error, and (iv) numerical discretization error. These results identify ellipticity as a key structural property that renders reinforcement learning with function approximation for Markov diffusions no harder than supervised learning.
- Abstract(参考訳): 本研究では、離散時間観測と行動によるマルコフ拡散過程の制御のための非政治強化学習について検討する。
本研究では,データから関数を直接学習する関数近似を用いたモデルフリーアルゴリズムについて,非現実的な構造的仮定を伴わずに検討する。
拡散の楕円性を利用して、ベルマン作用素に対するヒルベルト空間正定性および有界性の新しいクラスを確立する。
これらの特性に基づいて、最小二乗回帰問題を反復的に解くことによって、値と利点関数を学習するSobolev-prox fit $q$-learningアルゴリズムを提案する。
我々は,推定誤差に対するオラクルの不等式を導出する。
(i)関数クラスの最高の近似誤差。
(ii) 局所的な複雑さ
(三)指数関数的に最適化誤差、及び
(4)数値離散化誤差。
これらの結果は,マルコフ拡散の関数近似による強化学習を教師付き学習よりも難しくする重要な構造特性として楕円性を見出した。
関連論文リスト
- Optimal Bayesian Affine Estimator and Active Learning for the Wiener Model [3.7414278978078204]
我々は、未知パラメータに対する閉形式最適アフィン推定器を導出し、いわゆる「力学基底統計」を特徴とする。
我々は,推定誤差を最小限に抑えるために,入力信号を合成する能動的学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-04-07T20:36:06Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - Offline Reinforcement Learning with Differentiable Function
Approximation is Provably Efficient [65.08966446962845]
歴史的データを用いて意思決定戦略を最適化することを目的としたオフライン強化学習は、現実の応用に広く適用されている。
微分関数クラス近似(DFA)を用いたオフライン強化学習の検討から一歩踏み出した。
最も重要なことは、悲観的な適合Q-ラーニングアルゴリズムを解析することにより、オフライン微分関数近似が有効であることを示すことである。
論文 参考訳(メタデータ) (2022-10-03T07:59:42Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - Nonparametric learning of kernels in nonlocal operators [6.314604944530131]
非局所作用素におけるカーネル学習のための厳密な識別可能性解析および収束研究を提供する。
本稿では,新しいデータ適応型RKHS Tikhonov正規化手法を用いた非パラメトリック回帰アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-23T02:47:55Z) - Reinforcement Learning from Partial Observation: Linear Function Approximation with Provable Sample Efficiency [111.83670279016599]
部分観察決定過程(POMDP)の無限観測および状態空間を用いた強化学習について検討した。
線形構造をもつPOMDPのクラスに対する部分可観測性と関数近似の最初の試みを行う。
論文 参考訳(メタデータ) (2022-04-20T21:15:38Z) - Near-optimal Offline Reinforcement Learning with Linear Representation:
Leveraging Variance Information with Pessimism [65.46524775457928]
オフライン強化学習は、オフライン/歴史的データを活用して、シーケンシャルな意思決定戦略を最適化しようとしている。
線形モデル表現を用いたオフライン強化学習の統計的限界について検討する。
論文 参考訳(メタデータ) (2022-03-11T09:00:12Z) - A Boosting Approach to Reinforcement Learning [59.46285581748018]
複雑度が状態数に依存しない意思決定プロセスにおける強化学習のための効率的なアルゴリズムについて検討する。
このような弱い学習手法の精度を向上させることができる効率的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-08-22T16:00:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。