論文の概要: Operator Models for Continuous-Time Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2511.10383v1
- Date: Fri, 14 Nov 2025 01:48:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.835829
- Title: Operator Models for Continuous-Time Offline Reinforcement Learning
- Title(参考訳): 連続時間オフライン強化学習のための演算子モデル
- Authors: Nicolas Hoischen, Petar Bevanda, Max Beier, Stefan Sosnowski, Boris Houska, Sandra Hirche,
- Abstract要約: 環境との直接の相互作用は、しばしば安全でないか非現実的であり、歴史的データからオフラインの強化学習を動機付けている。
ハミルトン・ヤコビ・ベルマン方程式に強化学習をリンクし、演算子理論のアルゴリズムを提案することでこの問題に対処する。
具体的には、再生カーネルヒルベルト空間で学習した制御拡散過程の無限小生成という観点から世界モデルを表現している。
- 参考スコア(独自算出の注目度): 4.808981008878068
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continuous-time stochastic processes underlie many natural and engineered systems. In healthcare, autonomous driving, and industrial control, direct interaction with the environment is often unsafe or impractical, motivating offline reinforcement learning from historical data. However, there is limited statistical understanding of the approximation errors inherent in learning policies from offline datasets. We address this by linking reinforcement learning to the Hamilton-Jacobi-Bellman equation and proposing an operator-theoretic algorithm based on a simple dynamic programming recursion. Specifically, we represent our world model in terms of the infinitesimal generator of controlled diffusion processes learned in a reproducing kernel Hilbert space. By integrating statistical learning methods and operator theory, we establish global convergence of the value function and derive finite-sample guarantees with bounds tied to system properties such as smoothness and stability. Our theoretical and numerical results indicate that operator-based approaches may hold promise in solving offline reinforcement learning using continuous-time optimal control.
- Abstract(参考訳): 継続的確率的プロセスは、多くの自然および工学的なシステムを実現する。
医療、自律運転、産業制御において、環境との直接的な相互作用は、しばしば安全でないか非現実的であり、歴史的データからオフラインの強化学習を動機付けている。
しかし、オフラインデータセットからの学習ポリシーに固有の近似誤差の統計的理解は限られている。
ハミルトン・ヤコビ・ベルマン方程式に強化学習をリンクし、単純動的プログラミング再帰に基づく演算子理論アルゴリズムを提案することでこの問題に対処する。
具体的には、再生カーネルヒルベルト空間で学習した制御拡散過程の無限小生成という観点から世界モデルを表現している。
統計的学習法と演算子理論を統合することにより、値関数のグローバル収束を確立し、滑らかさや安定性などのシステム特性に結びついた有限サンプル保証を導出する。
我々の理論的および数値的な結果は、連続時間最適制御を用いたオフライン強化学習の解法において、演算子に基づくアプローチが期待できることを示している。
関連論文リスト
- Kernel-Based Optimal Control: An Infinitesimal Generator Approach [3.7411439050030393]
本稿では,非線形システムの最適制御のための演算子理論的手法を提案する。
我々の学習フレームワークは,システムダイナミクスとステージコスト関数のデータサンプルを活用する。
我々は、我々のアプローチが現代の凸作用素-理論的ハミルトン・ヤコビ・ベルマン再帰とシームレスに統合されることを実証する。
論文 参考訳(メタデータ) (2024-12-02T15:08:55Z) - Learning Controlled Stochastic Differential Equations [61.82896036131116]
本研究では,非一様拡散を伴う連続多次元非線形微分方程式のドリフト係数と拡散係数の両方を推定する新しい手法を提案する。
我々は、(L2)、(Linfty)の有限サンプル境界や、係数の正則性に適応する学習率を持つリスクメトリクスを含む、強力な理論的保証を提供する。
当社のメソッドはオープンソースPythonライブラリとして利用可能です。
論文 参考訳(メタデータ) (2024-11-04T11:09:58Z) - A Unified Framework for Neural Computation and Learning Over Time [56.44910327178975]
Hamiltonian Learningはニューラルネットワークを"時間とともに"学習するための新しい統合フレームワーク
i)外部ソフトウェアソルバを必要とせずに統合できる、(ii)フィードフォワードおよびリカレントネットワークにおける勾配に基づく学習の概念を一般化する、(iii)新しい視点で開放する、という微分方程式に基づいている。
論文 参考訳(メタデータ) (2024-09-18T14:57:13Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - Near-optimal Offline Reinforcement Learning with Linear Representation:
Leveraging Variance Information with Pessimism [65.46524775457928]
オフライン強化学習は、オフライン/歴史的データを活用して、シーケンシャルな意思決定戦略を最適化しようとしている。
線形モデル表現を用いたオフライン強化学習の統計的限界について検討する。
論文 参考訳(メタデータ) (2022-03-11T09:00:12Z) - Dream to Explore: Adaptive Simulations for Autonomous Systems [3.0664963196464448]
ベイズ的非パラメトリック法を適用し,力学系制御の学習に挑戦する。
ガウス過程を用いて潜在世界力学を探索することにより、強化学習で観測される一般的なデータ効率の問題を緩和する。
本アルゴリズムは,ログの変動的下界を最適化することにより,世界モデルと政策を共同で学習する。
論文 参考訳(メタデータ) (2021-10-27T04:27:28Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - Overcoming Model Bias for Robust Offline Deep Reinforcement Learning [3.1325640909772403]
MOOSEは、ポリシーをデータのサポート内に保持することで、低モデルバイアスを保証するアルゴリズムである。
我々はMOOSEと産業ベンチマークのBRAC, BEAR, BCQ, および MuJoCo の連続制御タスクを比較した。
論文 参考訳(メタデータ) (2020-08-12T19:08:55Z) - Online Reinforcement Learning Control by Direct Heuristic Dynamic
Programming: from Time-Driven to Event-Driven [80.94390916562179]
時間駆動学習は、新しいデータが到着すると予測モデルのパラメータを継続的に更新する機械学習手法を指す。
ノイズなどの重要なシステムイベントによる時間駆動型dHDPの更新を防止することが望ましい。
イベント駆動型dHDPアルゴリズムは,従来の時間駆動型dHDPと比較して動作することを示す。
論文 参考訳(メタデータ) (2020-06-16T05:51:25Z) - Online Constrained Model-based Reinforcement Learning [13.362455603441552]
主要な要件は、限られた時間とリソース予算内に留まりながら、継続的な状態とアクションスペースを扱う能力である。
本稿では,ガウス過程回帰と回帰水平制御を組み合わせたモデルに基づくアプローチを提案する。
本研究では,自動走行作業におけるオンライン学習のメリットを実証する。
論文 参考訳(メタデータ) (2020-04-07T15:51:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。