論文の概要: Continuous-Time Model-Based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2102.04764v1
- Date: Tue, 9 Feb 2021 11:30:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-10 15:15:07.503765
- Title: Continuous-Time Model-Based Reinforcement Learning
- Title(参考訳): 連続時間モデルに基づく強化学習
- Authors: \c{C}a\u{g}atay Y{\i}ld{\i}z, Markus Heinonen, and Harri
L\"ahdesm\"aki
- Abstract要約: 本稿では,新しいアクター・クリティック手法に基づく連続時間MBRLフレームワークを提案する。
我々は、連続時間制御システムを明確に解決する新しいODE-RLスイート上で、本手法を実装し、テストする。
- 参考スコア(独自算出の注目度): 4.427447378048202
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model-based reinforcement learning (MBRL) approaches rely on discrete-time
state transition models whereas physical systems and the vast majority of
control tasks operate in continuous-time. To avoid time-discretization
approximation of the underlying process, we propose a continuous-time MBRL
framework based on a novel actor-critic method. Our approach also infers the
unknown state evolution differentials with Bayesian neural ordinary
differential equations (ODE) to account for epistemic uncertainty. We implement
and test our method on a new ODE-RL suite that explicitly solves
continuous-time control systems. Our experiments illustrate that the model is
robust against irregular and noisy data, is sample-efficient, and can solve
control problems which pose challenges to discrete-time MBRL methods.
- Abstract(参考訳): モデルベース強化学習(MBRL)アプローチは離散時間状態遷移モデルに依存しているが、物理的システムと制御タスクの大部分は連続時間で動作する。
プロセスの時間差分近似を避けるために,新しいアクター・クリティカルな手法に基づく連続時間MBRLフレームワークを提案する。
また, ベイズ型ニューラル常微分方程式 (ODE) と未知の状態進化差を推定し, てんかんの不確実性を考慮した。
我々は,連続時間制御システムを明示的に解決する新しいode-rlスイートの実装とテストを行う。
実験では, モデルが不規則でノイズの多いデータに対して頑健であり, サンプル効率が良く, 離散時間MBRL法に挑戦する制御問題を解くことができることを示した。
関連論文リスト
- One More Step: A Versatile Plug-and-Play Module for Rectifying Diffusion
Schedule Flaws and Enhancing Low-Frequency Controls [77.42510898755037]
One More Step (OMS) は、推論中に単純だが効果的なステップを付加したコンパクトネットワークである。
OMSは画像の忠実度を高め、トレーニングと推論の二分法を調和させ、元のモデルパラメータを保存する。
トレーニングが完了すると、同じ潜在ドメインを持つ様々な事前訓練された拡散モデルが同じOMSモジュールを共有することができる。
論文 参考訳(メタデータ) (2023-11-27T12:02:42Z) - Diffusion-Generative Multi-Fidelity Learning for Physical Simulation [24.723536390322582]
本研究では,微分方程式(SDE)に基づく拡散生成多忠実学習法を開発した。
付加的な入力(時間変数や空間変数)を条件にすることで、我々のモデルは効率的に多次元の解列を学習し、予測することができる。
論文 参考訳(メタデータ) (2023-11-09T18:59:05Z) - Efficient Exploration in Continuous-time Model-based Reinforcement
Learning [37.14026153342745]
強化学習アルゴリズムは典型的には離散時間力学を考察するが、基礎となるシステムは時間的に連続していることが多い。
連続時間力学を表すモデルに基づく強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-30T15:04:40Z) - ODE-based Recurrent Model-free Reinforcement Learning for POMDPs [15.030970899252601]
我々は,POMDPを解くために,新しいODEベースのリカレントモデルとモデルレス強化学習フレームワークを組み合わせる。
様々なPO連続制御タスクとメタRLタスクにまたがる手法の有効性を実験的に実証した。
提案手法は,不規則にサンプリングされた時系列をモデル化するODEの能力のため,不規則な観測に対して頑健であることを示す。
論文 参考訳(メタデータ) (2023-09-25T12:13:56Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Continuous-Time Modeling of Counterfactual Outcomes Using Neural
Controlled Differential Equations [84.42837346400151]
反現実的な結果を予測することは、パーソナライズされたヘルスケアをアンロックする可能性がある。
既存の因果推論アプローチでは、観察と治療決定の間の通常の離散時間間隔が考慮されている。
そこで本研究では,腫瘍増殖モデルに基づく制御可能なシミュレーション環境を提案する。
論文 参考訳(メタデータ) (2022-06-16T17:15:15Z) - Learning Unstable Dynamics with One Minute of Data: A
Differentiation-based Gaussian Process Approach [47.045588297201434]
ガウス過程の微分可能性を利用して、真の連続力学の状態依存線形化近似を作成する方法を示す。
9次元セグウェイのような不安定なシステムのシステムダイナミクスを反復的に学習することで、アプローチを検証する。
論文 参考訳(メタデータ) (2021-03-08T05:08:47Z) - Training Generative Adversarial Networks by Solving Ordinary
Differential Equations [54.23691425062034]
GANトレーニングによって引き起こされる連続時間ダイナミクスについて検討する。
この観点から、GANのトレーニングにおける不安定性は積分誤差から生じると仮定する。
本研究では,有名なODEソルバ(Runge-Kutta など)がトレーニングを安定化できるかどうかを実験的に検証する。
論文 参考訳(メタデータ) (2020-10-28T15:23:49Z) - Model-based Reinforcement Learning for Semi-Markov Decision Processes
with Neural ODEs [30.36381338938319]
ニューラル常微分方程式(ODE)を用いた連続時間力学のモデリングのための2つの解を提案する。
我々のモデルは、連続時間力学を正確に特徴付け、少量のデータを用いて高性能なポリシーを開発することができる。
各種連続時間領域における手法の有効性を実験的に実証した。
論文 参考訳(メタデータ) (2020-06-29T17:21:43Z) - STEER: Simple Temporal Regularization For Neural ODEs [80.80350769936383]
トレーニング中のODEの終了時刻をランダムにサンプリングする新しい正規化手法を提案する。
提案された正規化は実装が簡単で、オーバーヘッドを無視でき、様々なタスクで有効である。
本稿では,フローの正規化,時系列モデル,画像認識などの実験を通じて,提案した正規化がトレーニング時間を大幅に短縮し,ベースラインモデルよりも性能を向上できることを示す。
論文 参考訳(メタデータ) (2020-06-18T17:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。