論文の概要: Efficient Exploration in Continuous-time Model-based Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2310.19848v1
- Date: Mon, 30 Oct 2023 15:04:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 18:29:24.200223
- Title: Efficient Exploration in Continuous-time Model-based Reinforcement
Learning
- Title(参考訳): 連続時間モデルに基づく強化学習における効率的な探索
- Authors: Lenart Treven, Jonas H\"ubotter, Bhavya Sukhija, Florian D\"orfler,
Andreas Krause
- Abstract要約: 強化学習アルゴリズムは典型的には離散時間力学を考察するが、基礎となるシステムは時間的に連続していることが多い。
連続時間力学を表すモデルに基づく強化学習アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 37.14026153342745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning algorithms typically consider discrete-time dynamics,
even though the underlying systems are often continuous in time. In this paper,
we introduce a model-based reinforcement learning algorithm that represents
continuous-time dynamics using nonlinear ordinary differential equations
(ODEs). We capture epistemic uncertainty using well-calibrated probabilistic
models, and use the optimistic principle for exploration. Our regret bounds
surface the importance of the measurement selection strategy(MSS), since in
continuous time we not only must decide how to explore, but also when to
observe the underlying system. Our analysis demonstrates that the regret is
sublinear when modeling ODEs with Gaussian Processes (GP) for common choices of
MSS, such as equidistant sampling. Additionally, we propose an adaptive,
data-dependent, practical MSS that, when combined with GP dynamics, also
achieves sublinear regret with significantly fewer samples. We showcase the
benefits of continuous-time modeling over its discrete-time counterpart, as
well as our proposed adaptive MSS over standard baselines, on several
applications.
- Abstract(参考訳): 強化学習アルゴリズムは、基礎となるシステムがしばしば連続しているにもかかわらず、通常離散時間ダイナミクスを考える。
本稿では,非線形常微分方程式(odes)を用いた連続時間ダイナミクスを表現するモデルベース強化学習アルゴリズムを提案する。
高度に調整された確率モデルを用いて認識論的不確かさを捉え、楽観的な原理を探索に利用する。
私たちの後悔は、測定選択戦略(MSS)の重要性を表面化しています。
等価サンプリングなどのMSSの共通選択に対して,ガウス過程(GP)を用いてODEをモデル化する場合,後悔はサブリニアであることを示す。
さらに,適応的でデータに依存した実用的なMSSを提案し,GPダイナミックスと組み合わせることで,より少ないサンプルでサブ線形後悔を実現する。
我々は,その離散時間に対する連続時間モデリングの利点と,提案する標準ベースライン上の適応型mssを,いくつかのアプリケーションで紹介する。
関連論文リスト
- Recursive Learning of Asymptotic Variational Objectives [49.69399307452126]
一般状態空間モデル(英: General State-space Model, SSM)は、統計機械学習において広く用いられ、時系列データに対して最も古典的な生成モデルの一つである。
オンラインシーケンシャルIWAE(OSIWAE)は、潜在状態の推測のためのモデルパラメータとマルコフ認識モデルの両方のオンライン学習を可能にする。
このアプローチは、最近提案されたオンライン変分SMC法よりも理論的によく確立されている。
論文 参考訳(メタデータ) (2024-11-04T16:12:37Z) - A Poisson-Gamma Dynamic Factor Model with Time-Varying Transition Dynamics [51.147876395589925]
非定常PGDSは、基礎となる遷移行列が時間とともに進化できるように提案されている。
後続シミュレーションを行うために, 完全共役かつ効率的なギブスサンプリング装置を開発した。
実験により,提案した非定常PGDSは,関連するモデルと比較して予測性能が向上することを示した。
論文 参考訳(メタデータ) (2024-02-26T04:39:01Z) - Discrete-Time Mean-Variance Strategy Based on Reinforcement Learning [5.8184275610981615]
エントロピーを用いて探索コストを測定し、最適な投資戦略を導出します。
対応する強化学習アルゴリズムを設計する。
本モデルは,実世界のデータ解析において,連続時間モデルよりも優れた適用性を示す。
論文 参考訳(メタデータ) (2023-12-24T02:08:49Z) - Exact Inference for Continuous-Time Gaussian Process Dynamics [6.941863788146731]
実際には、真のシステムはよく知られておらず、測定データから学ぶ必要がある。
ガウス過程(GP)力学モデル学習におけるほとんどの手法は、一段階先進予測に基づいて訓練されている。
このような評価に対して,フレキシブルな推論スキームを導出する方法を示す。
論文 参考訳(メタデータ) (2023-09-05T16:07:00Z) - OpenSTL: A Comprehensive Benchmark of Spatio-Temporal Predictive
Learning [67.07363529640784]
提案するOpenSTLは,一般的なアプローチを再帰的モデルと再帰的モデルに分類する。
我々は, 合成移動物体軌道, 人間の動き, 運転シーン, 交通流, 天気予報など, さまざまな領域にわたるデータセットの標準評価を行う。
リカレントフリーモデルは、リカレントモデルよりも効率と性能のバランスが良いことがわかった。
論文 参考訳(メタデータ) (2023-06-20T03:02:14Z) - Learning the Dynamics of Sparsely Observed Interacting Systems [0.6021787236982659]
ターゲットと特徴時系列をリンクする未知の非パラメトリックシステムのダイナミクスを学習する問題に対処する。
符号のリッチな理論を活用することで、この非線形問題を高次元線形回帰として考えることができる。
論文 参考訳(メタデータ) (2023-01-27T10:48:28Z) - Markov Chain Monte Carlo for Continuous-Time Switching Dynamical Systems [26.744964200606784]
マルコフ連鎖モンテカルロ法による新しい推論アルゴリズムを提案する。
提示されたギブスサンプルは、正確な連続時間後処理から試料を効率的に得ることができる。
論文 参考訳(メタデータ) (2022-05-18T09:03:00Z) - Learning continuous models for continuous physics [94.42705784823997]
本研究では,科学技術応用のための機械学習モデルを検証する数値解析理論に基づくテストを開発する。
本研究は,従来のMLトレーニング/テスト手法と一体化して,科学・工学分野におけるモデルの検証を行う方法である。
論文 参考訳(メタデータ) (2022-02-17T07:56:46Z) - Deep Efficient Continuous Manifold Learning for Time Series Modeling [11.876985348588477]
対称正定値行列はコンピュータビジョン、信号処理、医療画像解析において研究されている。
本稿では,リーマン多様体とコレスキー空間の間の微分同相写像を利用する枠組みを提案する。
時系列データの動的モデリングのために,多様体常微分方程式とゲートリカレントニューラルネットワークを体系的に統合した連続多様体学習法を提案する。
論文 参考訳(メタデータ) (2021-12-03T01:38:38Z) - Consistency of mechanistic causal discovery in continuous-time using
Neural ODEs [85.7910042199734]
ダイナミカルシステムの研究において,連続時間における因果的発見を検討する。
本稿では,ニューラルネットワークを用いた因果探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-05-06T08:48:02Z) - Stochastically forced ensemble dynamic mode decomposition for
forecasting and analysis of near-periodic systems [65.44033635330604]
本稿では,観測力学を強制線形系としてモデル化した新しい負荷予測手法を提案する。
固有線型力学の利用は、解釈可能性やパーシモニーの観点から、多くの望ましい性質を提供することを示す。
電力グリッドからの負荷データを用いたテストケースの結果が提示される。
論文 参考訳(メタデータ) (2020-10-08T20:25:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。