論文の概要: A Temporal Difference Method for Stochastic Continuous Dynamics
- arxiv url: http://arxiv.org/abs/2505.15544v1
- Date: Wed, 21 May 2025 14:08:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.679316
- Title: A Temporal Difference Method for Stochastic Continuous Dynamics
- Title(参考訳): 確率的連続力学の時間差法
- Authors: Haruki Settai, Naoya Takeishi, Takehisa Yairi,
- Abstract要約: ベルマンの最適性の原理はハミルトン・ヤコビ・ベルマン方程式(HJB)の形を取る。
HJB方程式を対象とするモデルフリーアプローチを提案し,対応する時間差分法を提案する。
- 参考スコア(独自算出の注目度): 4.908392073682184
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For continuous systems modeled by dynamical equations such as ODEs and SDEs, Bellman's principle of optimality takes the form of the Hamilton-Jacobi-Bellman (HJB) equation, which provides the theoretical target of reinforcement learning (RL). Although recent advances in RL successfully leverage this formulation, the existing methods typically assume the underlying dynamics are known a priori because they need explicit access to the coefficient functions of dynamical equations to update the value function following the HJB equation. We address this inherent limitation of HJB-based RL; we propose a model-free approach still targeting the HJB equation and propose the corresponding temporal difference method. We demonstrate its potential advantages over transition kernel-based formulations, both qualitatively and empirically. The proposed formulation paves the way toward bridging stochastic optimal control and model-free reinforcement learning.
- Abstract(参考訳): ODEやSDEなどの力学方程式でモデル化された連続系の場合、ベルマンの最適性の原理はハミルトン・ヤコビ・ベルマン方程式(英語版)(HJB)の形で、強化学習(英語版)(RL)の理論的な目標を提供する。
RL の最近の進歩は、この定式化をうまく活用しているが、既存の手法では、HJB 方程式に続く値関数を更新するために、力学方程式の係数関数への明示的なアクセスを必要とするため、基礎となる力学が先入観であると仮定するのが一般的である。
本稿では, HJB に基づく RL の本質的な制限に対処し, HJB 方程式を対象とするモデルフリーアプローチを提案し, 対応する時間差分法を提案する。
我々は、カーネルベースの遷移定式化よりも、質的にも経験的にも、その潜在的な利点を実証する。
提案した定式化は,確率的最適制御とモデルフリー強化学習への道を開くものである。
関連論文リスト
- Principled model selection for stochastic dynamics [0.0]
PASTISは、確率推定統計と極値理論を組み合わせて超流動パラメータを抑圧する原理的手法である。
サンプリング率や測定誤差が低い場合でも、最小限のモデルを確実に識別する。
これは偏微分方程式に適用され、生態ネットワークや反応拡散力学にも適用される。
論文 参考訳(メタデータ) (2025-01-17T18:23:16Z) - Latent Space Energy-based Neural ODEs [73.01344439786524]
本稿では,連続時間列を表現するために設計された新しい深部力学モデルを提案する。
マルコフ連鎖モンテカルロの最大推定値を用いてモデルを訓練する。
振動系, ビデオ, 実世界の状態系列(MuJoCo)の実験結果から, 学習可能なエネルギーベース先行モデルの方が既存のモデルより優れていることが示された。
論文 参考訳(メタデータ) (2024-09-05T18:14:22Z) - Modeling Latent Neural Dynamics with Gaussian Process Switching Linear Dynamical Systems [2.170477444239546]
ガウス過程スイッチング線形力学系(gpSLDS)の2つの目的をバランスさせるアプローチを開発する。
我々の手法は、非線形力学をガウス過程(GP-SDE)で記述した微分方程式による潜在状態の進化をモデル化した以前の研究に基づいている。
本手法は, 離散状態境界近傍の力学における人工振動など, rSLDS の重要な限界を解消するとともに, 力学の後方不確かさを推定する。
論文 参考訳(メタデータ) (2024-07-19T15:32:15Z) - An Optimization-based Deep Equilibrium Model for Hyperspectral Image
Deconvolution with Convergence Guarantees [71.57324258813675]
本稿では,ハイパースペクトル画像のデコンボリューション問題に対処する新しい手法を提案する。
新しい最適化問題を定式化し、学習可能な正規化器をニューラルネットワークの形で活用する。
導出した反復解法は、Deep Equilibriumフレームワーク内の不動点計算問題として表現される。
論文 参考訳(メタデータ) (2023-06-10T08:25:16Z) - Non-Parametric Learning of Stochastic Differential Equations with Non-asymptotic Fast Rates of Convergence [65.63201894457404]
非線形微分方程式のドリフトと拡散係数の同定のための新しい非パラメトリック学習パラダイムを提案する。
鍵となる考え方は、基本的には、対応するフォッカー・プランク方程式のRKHSに基づく近似をそのような観測に適合させることである。
論文 参考訳(メタデータ) (2023-05-24T20:43:47Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - CD-ROM: Complemented Deep-Reduced Order Model [2.02258267891574]
本稿では,古典的POD-Galerkinリミットオーダーモデル(ROM)に対するディープラーニングに基づくクロージャモデリング手法を提案する。
提案手法は、ニューラルネットワークを用いてよく研究された演算子を近似して理論的に基礎づけられている。
CD-ROMアプローチの能力は、計算流体力学(英語版)の古典的な2つの例とパラメトリックなケースである倉本-シヴァシンスキー方程式(英語版)で実証される。
論文 参考訳(メタデータ) (2022-02-22T09:05:06Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z) - Interpolation Technique to Speed Up Gradients Propagation in Neural ODEs [71.26657499537366]
本稿では,ニューラルネットワークモデルにおける勾配の効率的な近似法を提案する。
我々は、分類、密度推定、推論近似タスクにおいて、ニューラルODEをトレーニングするリバースダイナミック手法と比較する。
論文 参考訳(メタデータ) (2020-03-11T13:15:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。