論文の概要: Predictive Experience Replay for Continual Visual Control and
Forecasting
- arxiv url: http://arxiv.org/abs/2303.06572v1
- Date: Sun, 12 Mar 2023 05:08:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-14 18:03:47.725600
- Title: Predictive Experience Replay for Continual Visual Control and
Forecasting
- Title(参考訳): 連続視覚制御と予測のための予測経験リプレイ
- Authors: Wendong Zhang, Geng Chen, Xiangming Zhu, Siyu Gao, Yunbo Wang,
Xiaokang Yang
- Abstract要約: 視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
- 参考スコア(独自算出の注目度): 62.06183102362871
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning physical dynamics in a series of non-stationary environments is a
challenging but essential task for model-based reinforcement learning (MBRL)
with visual inputs. It requires the agent to consistently adapt to novel tasks
without forgetting previous knowledge. In this paper, we present a new
continual learning approach for visual dynamics modeling and explore its
efficacy in visual control and forecasting. The key assumption is that an ideal
world model can provide a non-forgetting environment simulator, which enables
the agent to optimize the policy in a multi-task learning manner based on the
imagined trajectories from the world model. To this end, we first propose the
mixture world model that learns task-specific dynamics priors with a mixture of
Gaussians, and then introduce a new training strategy to overcome catastrophic
forgetting, which we call predictive experience replay. Finally, we extend
these methods to continual RL and further address the value estimation problems
with the exploratory-conservative behavior learning approach. Our model
remarkably outperforms the naive combinations of existing continual learning
and visual RL algorithms on DeepMind Control and Meta-World benchmarks with
continual visual control tasks. It is also shown to effectively alleviate the
forgetting of spatiotemporal dynamics in video prediction datasets with
evolving domains.
- Abstract(参考訳): 非定常環境における物理力学の学習は、視覚的な入力を伴うモデルベース強化学習(MBRL)にとって難しいが不可欠な課題である。
エージェントは、以前の知識を忘れずに、新しいタスクに一貫して適応する必要がある。
本稿では,視覚力学モデリングのための新しい連続学習手法を提案し,視覚制御と予測におけるその効果について検討する。
キーとなる仮定は、理想的な世界モデルが、エージェントが世界モデルから想像された軌道に基づいてマルチタスク学習方法でポリシーを最適化できる非鍛造環境シミュレータを提供することである。
そこで我々はまず,タスク固有のダイナミクスをガウシアンの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
最後に,これらの手法を連続RLに拡張し,探索・保守的行動学習手法による値推定問題にさらに対処する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
また,進化する領域を持つ映像予測データセットにおける時空間ダイナミクスの欠落を効果的に緩和することが示されている。
関連論文リスト
- ReCoRe: Regularized Contrastive Representation Learning of World Model [21.29132219042405]
対照的な教師なし学習と介入不変正規化器を用いて不変特徴を学習する世界モデルを提案する。
提案手法は,現状のモデルベースおよびモデルフリーのRL法より優れ,iGibsonベンチマークで評価された分布外ナビゲーションタスクを大幅に改善する。
論文 参考訳(メタデータ) (2023-12-14T15:53:07Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Dream to Explore: Adaptive Simulations for Autonomous Systems [3.0664963196464448]
ベイズ的非パラメトリック法を適用し,力学系制御の学習に挑戦する。
ガウス過程を用いて潜在世界力学を探索することにより、強化学習で観測される一般的なデータ効率の問題を緩和する。
本アルゴリズムは,ログの変動的下界を最適化することにより,世界モデルと政策を共同で学習する。
論文 参考訳(メタデータ) (2021-10-27T04:27:28Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - Model-based Meta Reinforcement Learning using Graph Structured Surrogate
Models [40.08137765886609]
グラフ構造化サーロゲートモデル (GSSM) と呼ばれるモデルが, 環境ダイナミクス予測における最先端の手法を上回っていることを示した。
当社のアプローチでは,テスト時間ポリシの勾配最適化を回避して,デプロイメント中の高速実行を実現しつつ,高いリターンを得ることができる。
論文 参考訳(メタデータ) (2021-02-16T17:21:55Z) - Planning from Pixels using Inverse Dynamics Models [44.16528631970381]
本稿では,タスク完了にともなう未来の行動の順序を学習することで,潜在世界モデルを学ぶ新しい方法を提案する。
本研究では,視覚目標達成タスクの課題に対する提案手法の評価を行い,従来のモデルフリー手法と比較して性能が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2020-12-04T06:07:36Z) - Trajectory-wise Multiple Choice Learning for Dynamics Generalization in
Reinforcement Learning [137.39196753245105]
本稿では,動的一般化のためのマルチヘッドダイナミックスモデルを学習するモデルベース強化学習アルゴリズムを提案する。
文脈学習は,過去の経験から得られる動的情報からコンテキスト潜在ベクトルにエンコードする。
提案手法は,最先端のRL法と比較して,様々な制御タスクにおいて優れたゼロショット一般化性能を示す。
論文 参考訳(メタデータ) (2020-10-26T03:20:42Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z) - Context-aware Dynamics Model for Generalization in Model-Based
Reinforcement Learning [124.9856253431878]
グローバルなダイナミクスモデルを学習するタスクを,(a)ローカルなダイナミクスをキャプチャするコンテキスト潜在ベクトルを学習し,(b)次に条件付き状態を予測するという2つの段階に分割する。
本研究では,コンテキスト潜在ベクトルに動的情報をエンコードするために,コンテキスト潜在ベクトルを前方と後方の両方のダイナミクスを予測するのに役立つような新しい損失関数を導入する。
提案手法は,既存のRL方式と比較して,様々なシミュレーションロボットや制御タスクの一般化能力に優れる。
論文 参考訳(メタデータ) (2020-05-14T08:10:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。