論文の概要: Neural ODE and SDE Models for Adaptation and Planning in Model-Based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2603.23245v1
- Date: Tue, 24 Mar 2026 14:12:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.525072
- Title: Neural ODE and SDE Models for Adaptation and Planning in Model-Based Reinforcement Learning
- Title(参考訳): モデルベース強化学習における適応と計画のためのニューラルODEとSDEモデル
- Authors: Chao Han, Stefanos Ioannou, Luca Manneschi, T. J. Hayward, Michael Mangan, Aditya Gilra, Eleni Vasilaki,
- Abstract要約: 完全かつ部分的に観察された環境での力学をモデル化するために,ニューラル常微分方程式(ニューラルODE,SDE)について検討する。
神経SDEがトランジッションダイナミクスの本質をより効果的に捉えていることを示す。
本研究は, 遷移を伴う環境下でのRL計画における動作条件付き潜伏SDEの適用性を示す。
- 参考スコア(独自算出の注目度): 1.9129489840935257
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate neural ordinary and stochastic differential equations (neural ODEs and SDEs) to model stochastic dynamics in fully and partially observed environments within a model-based reinforcement learning (RL) framework. Through a sequence of simulations, we show that neural SDEs more effectively capture the inherent stochasticity of transition dynamics, enabling high-performing policies with improved sample efficiency in challenging scenarios. We leverage neural ODEs and SDEs for efficient policy adaptation to changes in environment dynamics via inverse models, requiring only limited interactions with the new environment. To address partial observability, we introduce a latent SDE model that combines an ODE with a GAN-trained stochastic component in latent space. Policies derived from this model provide a strong baseline, outperforming or matching general model-based and model-free approaches across stochastic continuous-control benchmarks. This work demonstrates the applicability of action-conditional latent SDEs for RL planning in environments with stochastic transitions. Our code is available at: https://github.com/ChaoHan-UoS/NeuralRL
- Abstract(参考訳): モデルベース強化学習(RL)フレームワーク内の完全および部分的に観察された環境下での確率力学をモデル化するために、ニューラル常微分方程式と確率微分方程式(ニューラルODEとSDE)について検討する。
一連のシミュレーションにより、ニューラルネットワークSDEはトランジッションダイナミクスの固有の確率性をより効果的に捉え、挑戦シナリオにおけるサンプル効率を改善したハイパフォーマンスなポリシーを実現する。
我々は、ニューラルODEとSDEを利用して、逆モデルによる環境力学の変化に対する効率的なポリシー適応を行い、新しい環境との限られた相互作用しか必要としない。
部分観測可能性に対処するため,潜時空間におけるODEとGAN学習確率成分を組み合わせた潜時SDEモデルを提案する。
このモデルから派生したポリシーは、確率的連続制御ベンチマークにまたがる一般的なモデルベースおよびモデルフリーアプローチに優れたベースラインを提供する。
本研究は,確率遷移を伴う環境下でのRL計画における動作条件付き潜伏SDEの適用性を示す。
私たちのコードは、https://github.com/ChaoHan-UoS/NeuralRLで利用可能です。
関連論文リスト
- Expanding the Chaos: Neural Operator for Stochastic (Partial) Differential Equations [65.80144621950981]
我々はWienerカオス拡張(WCE)に基づいて、SPDEとSDEのためのニューラル演算子(NO)アーキテクチャを設計する。
WCEベースのニューラル演算子は、SDE/SPDEソリューション演算子を学習するための実用的でスケーラブルな方法を提供する。
論文 参考訳(メタデータ) (2026-01-03T00:59:25Z) - HGAN-SDEs: Learning Neural Stochastic Differential Equations with Hermite-Guided Adversarial Training [3.4515388499147654]
HGAN-SDEは,ニューラルエルマイト関数を利用して,構造化された効率的な識別器を構築する新しいGANベースのフレームワークである。
HGAN-SDEは,既存のSDE生成モデルと比較して,サンプル品質と学習効率が優れている。
論文 参考訳(メタデータ) (2025-12-23T11:25:22Z) - A joint optimization approach to identifying sparse dynamics using least squares kernel collocation [70.13783231186183]
本研究では,通常の微分方程式(ODE)の学習システムを,状態の不足,部分的,ノイズの多い観測から学習するためのオール・アット・オンス・モデリング・フレームワークを開発する。
提案手法は,関数ライブラリ上でのODEのスパースリカバリ戦略とカーネルヒルベルト空間(RKHS)理論による状態推定とODEの離散化の手法を組み合わせたものである。
論文 参考訳(メタデータ) (2025-11-23T18:04:15Z) - Neural SDEs as a Unified Approach to Continuous-Domain Sequence Modeling [3.8980564330208662]
本稿では,連続シーケンスモデリングに対する新しい直感的なアプローチを提案する。
本手法は, 時系列データを, 基礎となる連続力学系からのtextitdiscrete サンプルとして解釈する。
我々は、ニューラルネットワークSDEモデルの効率的なトレーニングのための、最大原理的目的とテクスティシミュレーションなしスキームを導出する。
論文 参考訳(メタデータ) (2025-01-31T03:47:22Z) - Learning Space-Time Continuous Neural PDEs from Partially Observed
States [13.01244901400942]
格子独立モデル学習偏微分方程式(PDE)を雑音および不規則格子上の部分的な観測から導入する。
本稿では、効率的な確率的フレームワークとデータ効率とグリッド独立性を改善するための新しい設計エンコーダを備えた時空間連続型ニューラルネットワークPDEモデルを提案する。
論文 参考訳(メタデータ) (2023-07-09T06:53:59Z) - Neural Operator with Regularity Structure for Modeling Dynamics Driven
by SPDEs [70.51212431290611]
偏微分方程式 (SPDE) は、大気科学や物理学を含む多くの分野において、力学をモデル化するための重要なツールである。
本研究では,SPDEによって駆動されるダイナミクスをモデル化するための特徴ベクトルを組み込んだニューラル演算子(NORS)を提案する。
動的Phi41モデルと2d Navier-Stokes方程式を含む様々なSPDE実験を行った。
論文 参考訳(メタデータ) (2022-04-13T08:53:41Z) - Autoregressive Dynamics Models for Offline Policy Evaluation and
Optimization [60.73540999409032]
表現的自己回帰ダイナミクスモデルが次の状態の異なる次元を生成し、以前の次元で順次条件付きで報酬を得ることを示す。
また,リプレイバッファを充実させる手段として,自己回帰的ダイナミクスモデルがオフラインポリシー最適化に有用であることを示す。
論文 参考訳(メタデータ) (2021-04-28T16:48:44Z) - Stochasticity in Neural ODEs: An Empirical Study [68.8204255655161]
ニューラルネットワークの正規化(ドロップアウトなど)は、より高度な一般化を可能にするディープラーニングの広範な技術である。
トレーニング中のデータ拡張は、同じモデルの決定論的およびバージョンの両方のパフォーマンスを向上させることを示す。
しかし、データ拡張によって得られる改善により、経験的正規化の利得は完全に排除され、ニューラルODEとニューラルSDEの性能は無視される。
論文 参考訳(メタデータ) (2020-02-22T22:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。