論文の概要: A Multi-step Loss Function for Robust Learning of the Dynamics in
Model-based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2402.03146v1
- Date: Mon, 5 Feb 2024 16:13:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 15:07:03.102844
- Title: A Multi-step Loss Function for Robust Learning of the Dynamics in
Model-based Reinforcement Learning
- Title(参考訳): モデルに基づく強化学習におけるロバスト学習のための多段階損失関数
- Authors: Abdelhakim Benechehab, Albert Thomas, Giuseppe Paolo, Maurizio
Filippone and Bal\'azs K\'egl
- Abstract要約: モデルに基づく強化学習では、ほとんどのアルゴリズムはデータに基づいて学習したダイナミクスの一段階モデルからの軌道のシミュレーションに依存している。
我々は、多段階の目標を用いてワンステップモデルを訓練することでこの問題に対処する。
この新たな損失は、データが騒々しいときに特に有効であることが分かっています。
- 参考スコア(独自算出の注目度): 10.940666275830052
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In model-based reinforcement learning, most algorithms rely on simulating
trajectories from one-step models of the dynamics learned on data. A critical
challenge of this approach is the compounding of one-step prediction errors as
the length of the trajectory grows. In this paper we tackle this issue by using
a multi-step objective to train one-step models. Our objective is a weighted
sum of the mean squared error (MSE) loss at various future horizons. We find
that this new loss is particularly useful when the data is noisy (additive
Gaussian noise in the observations), which is often the case in real-life
environments. To support the multi-step loss, first we study its properties in
two tractable cases: i) uni-dimensional linear system, and ii) two-parameter
non-linear system. Second, we show in a variety of tasks (environments or
datasets) that the models learned with this loss achieve a significant
improvement in terms of the averaged R2-score on future prediction horizons.
Finally, in the pure batch reinforcement learning setting, we demonstrate that
one-step models serve as strong baselines when dynamics are deterministic,
while multi-step models would be more advantageous in the presence of noise,
highlighting the potential of our approach in real-world applications.
- Abstract(参考訳): モデルに基づく強化学習では、ほとんどのアルゴリズムはデータに基づいて学習されたダイナミクスの1ステップモデルからの軌道をシミュレートする。
このアプローチの批判的な課題は、軌道の長さが大きくなるにつれて1ステップの予測誤差を複合することである。
本稿では,一段階モデルを学習するための多段階目標を用いてこの問題に対処する。
我々の目的は、様々な将来の地平線における平均二乗誤差(MSE)損失の重み付き和である。
この新たな損失は、データがノイズ(観測における付加的なガウスノイズ)である場合に特に有用である。
複数ステップの損失に対応するため,まずその特性を2症例に分けて検討する。
一 一次元線形系、及び
二 二パラメータの非線形システム
第二に、この損失で得られたモデルが将来の予測地平線上の平均R2スコアで大幅に改善されることを、様々なタスク(環境やデータセット)で示します。
最後に,純粋バッチ強化学習環境では,ダイナミクスが決定論的である場合,ワンステップモデルが強いベースラインとなり,マルチステップモデルがノイズの存在においてより有利となることを実証し,実世界のアプリケーションにおけるアプローチの可能性を強調した。
関連論文リスト
- Towards Learning Stochastic Population Models by Gradient Descent [0.0]
パラメータと構造を同時に推定することで,最適化手法に大きな課題が生じることを示す。
モデルの正確な推定を実証するが、擬似的、解釈可能なモデルの推論を強制することは、難易度を劇的に高める。
論文 参考訳(メタデータ) (2024-04-10T14:38:58Z) - Deep autoregressive density nets vs neural ensembles for model-based
offline reinforcement learning [2.9158689853305693]
本稿では、利用可能なデータからシステムダイナミクスを推定し、仮想モデルロールアウトにおけるポリシー最適化を行うモデルベース強化学習アルゴリズムについて考察する。
このアプローチは、実際のシステムで破滅的な失敗を引き起こす可能性のあるモデルエラーを悪用することに対して脆弱である。
D4RLベンチマークの1つのよく校正された自己回帰モデルにより、より良い性能が得られることを示す。
論文 参考訳(メタデータ) (2024-02-05T10:18:15Z) - Multi-timestep models for Model-based Reinforcement Learning [10.940666275830052]
モデルベース強化学習(MBRL)では、ほとんどのアルゴリズムはデータに基づいて学習した1ステップのダイナミックスモデルからの軌道のシミュレーションに依存している。
我々は、マルチステップの目標を用いてワンステップモデルをトレーニングすることでこの問題に対処する。
指数関数的に減衰する重みは、長い水平R2スコアを著しく改善するモデルに繋がることがわかった。
論文 参考訳(メタデータ) (2023-10-09T12:42:39Z) - Theoretical Characterization of the Generalization Performance of
Overfitted Meta-Learning [70.52689048213398]
本稿では,ガウス的特徴を持つ線形回帰モデルの下で,過剰適合型メタラーニングの性能について検討する。
シングルタスク線形回帰には存在しない新しい興味深い性質が見つかる。
本分析は,各訓練課題における基礎的真理のノイズや多様性・変動が大きい場合には,良心過剰がより重要かつ容易に観察できることを示唆する。
論文 参考訳(メタデータ) (2023-04-09T20:36:13Z) - Bayesian Active Learning for Discrete Latent Variable Models [19.852463786440122]
アクティブラーニングは、モデルのパラメータに適合するために必要なデータ量を削減しようとする。
潜在変数モデルは神経科学、心理学、その他の様々な工学、科学分野において重要な役割を果たす。
論文 参考訳(メタデータ) (2022-02-27T19:07:12Z) - Learning continuous models for continuous physics [94.42705784823997]
本研究では,科学技術応用のための機械学習モデルを検証する数値解析理論に基づくテストを開発する。
本研究は,従来のMLトレーニング/テスト手法と一体化して,科学・工学分野におけるモデルの検証を行う方法である。
論文 参考訳(メタデータ) (2022-02-17T07:56:46Z) - Learning Dynamics from Noisy Measurements using Deep Learning with a
Runge-Kutta Constraint [9.36739413306697]
そこで本研究では,雑音と疎サンプルを用いた微分方程式の学習手法について論じる。
我々の方法論では、ディープニューラルネットワークと古典的な数値積分法の統合において、大きな革新が見られる。
論文 参考訳(メタデータ) (2021-09-23T15:43:45Z) - Sufficiently Accurate Model Learning for Planning [119.80502738709937]
本稿では,制約付きSufficiently Accurateモデル学習手法を提案する。
これはそのような問題の例を示し、いくつかの近似解がいかに近いかという定理を提示する。
近似解の質は、関数のパラメータ化、損失と制約関数の滑らかさ、モデル学習におけるサンプルの数に依存する。
論文 参考訳(メタデータ) (2021-02-11T16:27:31Z) - Anomaly Detection of Time Series with Smoothness-Inducing Sequential
Variational Auto-Encoder [59.69303945834122]
Smoothness-Inducing Sequential Variational Auto-Encoder (SISVAE) モデルを提案する。
我々のモデルは、フレキシブルニューラルネットワークを用いて各タイムスタンプの平均と分散をパラメータ化する。
合成データセットと公開実世界のベンチマークの両方において,本モデルの有効性を示す。
論文 参考訳(メタデータ) (2021-02-02T06:15:15Z) - Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。
その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文 参考訳(メタデータ) (2020-05-16T19:18:10Z) - Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。
これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。
この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-02-21T05:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。