論文の概要: Continuous-Time Model-Based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2102.04764v1
- Date: Tue, 9 Feb 2021 11:30:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-10 15:15:07.503765
- Title: Continuous-Time Model-Based Reinforcement Learning
- Title(参考訳): 連続時間モデルに基づく強化学習
- Authors: \c{C}a\u{g}atay Y{\i}ld{\i}z, Markus Heinonen, and Harri
L\"ahdesm\"aki
- Abstract要約: 本稿では,新しいアクター・クリティック手法に基づく連続時間MBRLフレームワークを提案する。
我々は、連続時間制御システムを明確に解決する新しいODE-RLスイート上で、本手法を実装し、テストする。
- 参考スコア(独自算出の注目度): 4.427447378048202
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model-based reinforcement learning (MBRL) approaches rely on discrete-time
state transition models whereas physical systems and the vast majority of
control tasks operate in continuous-time. To avoid time-discretization
approximation of the underlying process, we propose a continuous-time MBRL
framework based on a novel actor-critic method. Our approach also infers the
unknown state evolution differentials with Bayesian neural ordinary
differential equations (ODE) to account for epistemic uncertainty. We implement
and test our method on a new ODE-RL suite that explicitly solves
continuous-time control systems. Our experiments illustrate that the model is
robust against irregular and noisy data, is sample-efficient, and can solve
control problems which pose challenges to discrete-time MBRL methods.
- Abstract(参考訳): モデルベース強化学習(MBRL)アプローチは離散時間状態遷移モデルに依存しているが、物理的システムと制御タスクの大部分は連続時間で動作する。
プロセスの時間差分近似を避けるために,新しいアクター・クリティカルな手法に基づく連続時間MBRLフレームワークを提案する。
また, ベイズ型ニューラル常微分方程式 (ODE) と未知の状態進化差を推定し, てんかんの不確実性を考慮した。
我々は,連続時間制御システムを明示的に解決する新しいode-rlスイートの実装とテストを行う。
実験では, モデルが不規則でノイズの多いデータに対して頑健であり, サンプル効率が良く, 離散時間MBRL法に挑戦する制御問題を解くことができることを示した。
関連論文リスト
- Sample-efficient Model-based Reinforcement Learning for Quantum Control [0.5599792629509229]
ノイズの多い時間依存ゲート最適化のためのモデルベース強化学習(RL)手法を提案する。
標準モデルフリーRLに比べて,本手法のサンプル複雑性において,桁違いの優位性を示す。
提案アルゴリズムは,部分的特徴付き1量子ビット系と2量子ビット系の制御に適している。
論文 参考訳(メタデータ) (2023-04-19T15:05:19Z) - Free-Form Variational Inference for Gaussian Process State-Space Models [21.644570034208506]
ベイズGPSSMにおける新しい推論法を提案する。
本手法はハミルトニアンモンテカルロの誘導による自由形式変分推論に基づく。
提案手法は, 競合する手法よりも, 遷移力学や潜伏状態をより正確に学習できることを示す。
論文 参考訳(メタデータ) (2023-02-20T11:34:16Z) - Continuous-Time Modeling of Counterfactual Outcomes Using Neural
Controlled Differential Equations [84.42837346400151]
反現実的な結果を予測することは、パーソナライズされたヘルスケアをアンロックする可能性がある。
既存の因果推論アプローチでは、観察と治療決定の間の通常の離散時間間隔が考慮されている。
そこで本研究では,腫瘍増殖モデルに基づく制御可能なシミュレーション環境を提案する。
論文 参考訳(メタデータ) (2022-06-16T17:15:15Z) - Online Time Series Anomaly Detection with State Space Gaussian Processes [12.483273106706623]
R-ssGPFAは、一様および多変量時系列の教師なしオンライン異常検出モデルである。
高次元時系列に対して、時系列の一般的な潜伏過程を特定するためにガウス過程因子解析の拡張を提案する。
異常観測時にカルマン更新をスキップすることで,モデルの堅牢性を向上させる。
論文 参考訳(メタデータ) (2022-01-18T06:43:32Z) - Learning Unstable Dynamics with One Minute of Data: A
Differentiation-based Gaussian Process Approach [47.045588297201434]
ガウス過程の微分可能性を利用して、真の連続力学の状態依存線形化近似を作成する方法を示す。
9次元セグウェイのような不安定なシステムのシステムダイナミクスを反復的に学習することで、アプローチを検証する。
論文 参考訳(メタデータ) (2021-03-08T05:08:47Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z) - Training Generative Adversarial Networks by Solving Ordinary
Differential Equations [54.23691425062034]
GANトレーニングによって引き起こされる連続時間ダイナミクスについて検討する。
この観点から、GANのトレーニングにおける不安定性は積分誤差から生じると仮定する。
本研究では,有名なODEソルバ(Runge-Kutta など)がトレーニングを安定化できるかどうかを実験的に検証する。
論文 参考訳(メタデータ) (2020-10-28T15:23:49Z) - A Kernel-Based Approach to Non-Stationary Reinforcement Learning in
Metric Spaces [53.47210316424326]
KeRNSは、非定常マルコフ決定過程におけるエピソード強化学習のためのアルゴリズムである。
我々は、状態-作用空間の被覆次元と時間とともにMDPの総変動にスケールする後悔境界を証明した。
論文 参考訳(メタデータ) (2020-07-09T21:37:13Z) - Model-based Reinforcement Learning for Semi-Markov Decision Processes
with Neural ODEs [30.36381338938319]
ニューラル常微分方程式(ODE)を用いた連続時間力学のモデリングのための2つの解を提案する。
我々のモデルは、連続時間力学を正確に特徴付け、少量のデータを用いて高性能なポリシーを開発することができる。
各種連続時間領域における手法の有効性を実験的に実証した。
論文 参考訳(メタデータ) (2020-06-29T17:21:43Z) - STEER: Simple Temporal Regularization For Neural ODEs [80.80350769936383]
トレーニング中のODEの終了時刻をランダムにサンプリングする新しい正規化手法を提案する。
提案された正規化は実装が簡単で、オーバーヘッドを無視でき、様々なタスクで有効である。
本稿では,フローの正規化,時系列モデル,画像認識などの実験を通じて,提案した正規化がトレーニング時間を大幅に短縮し,ベースラインモデルよりも性能を向上できることを示す。
論文 参考訳(メタデータ) (2020-06-18T17:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。