論文の概要: Continual Model-Based Reinforcement Learning with Hypernetworks
- arxiv url: http://arxiv.org/abs/2009.11997v2
- Date: Tue, 30 Mar 2021 02:46:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 22:40:55.463671
- Title: Continual Model-Based Reinforcement Learning with Hypernetworks
- Title(参考訳): Hypernetworksによる連続モデルに基づく強化学習
- Authors: Yizhou Huang, Kevin Xie, Homanga Bharadhwaj and Florian Shkurti
- Abstract要約: 本稿では,タスク条件付きハイパーネットを用いたタスクのシーケンスにおいて,遭遇するダイナミクスを継続的に学習する手法を提案する。
まず、従来のタスクからトレーニングデータを再考しない動的学習セッションを含むので、状態遷移経験の最新の固定サイズの部分を格納するだけです。
ロボットの移動と操作のシナリオにおいて,HyperCRLは連続モデルに基づく強化学習に有効であることを示す。
- 参考スコア(独自算出の注目度): 24.86684067407964
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effective planning in model-based reinforcement learning (MBRL) and
model-predictive control (MPC) relies on the accuracy of the learned dynamics
model. In many instances of MBRL and MPC, this model is assumed to be
stationary and is periodically re-trained from scratch on state transition
experience collected from the beginning of environment interactions. This
implies that the time required to train the dynamics model - and the pause
required between plan executions - grows linearly with the size of the
collected experience. We argue that this is too slow for lifelong robot
learning and propose HyperCRL, a method that continually learns the encountered
dynamics in a sequence of tasks using task-conditional hypernetworks. Our
method has three main attributes: first, it includes dynamics learning sessions
that do not revisit training data from previous tasks, so it only needs to
store the most recent fixed-size portion of the state transition experience;
second, it uses fixed-capacity hypernetworks to represent non-stationary and
task-aware dynamics; third, it outperforms existing continual learning
alternatives that rely on fixed-capacity networks, and does competitively with
baselines that remember an ever increasing coreset of past experience. We show
that HyperCRL is effective in continual model-based reinforcement learning in
robot locomotion and manipulation scenarios, such as tasks involving pushing
and door opening. Our project website with videos is at this link
https://rvl.cs.toronto.edu/blog/2020/hypercrl
- Abstract(参考訳): モデルベース強化学習(MBRL)とモデル予測制御(MPC)の効果的な計画は、学習力学モデルの精度に依存する。
MBRLとMPCの多くの例では、このモデルは定常であると仮定され、環境相互作用の初期から収集された状態遷移経験に基づいてスクラッチから定期的に再訓練される。
これは、動的モデルのトレーニングに必要な時間、および計画実行の間の一時停止が、収集されたエクスペリエンスのサイズとともに線形に増加することを意味します。
我々は、これは生涯にわたるロボット学習には遅すぎると論じ、タスク条件のハイパーネットワークを用いて、遭遇したダイナミクスを連続的に学習する手法であるHyperCRLを提案する。
Our method has three main attributes: first, it includes dynamics learning sessions that do not revisit training data from previous tasks, so it only needs to store the most recent fixed-size portion of the state transition experience; second, it uses fixed-capacity hypernetworks to represent non-stationary and task-aware dynamics; third, it outperforms existing continual learning alternatives that rely on fixed-capacity networks, and does competitively with baselines that remember an ever increasing coreset of past experience.
ロボットの移動や操作のシナリオにおいて,HyperCRLは連続モデルに基づく強化学習に有効であることを示す。
ビデオ付きプロジェクトのwebサイトは、このリンクhttps://rvl.cs.toronto.edu/blog/2020/hypercrlです。
関連論文リスト
- Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。
このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。
得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文 参考訳(メタデータ) (2024-10-28T13:48:43Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Learning a model is paramount for sample efficiency in reinforcement
learning control of PDEs [5.488334211013093]
RLエージェントの訓練と並行して動作モデルを学ぶことで,実システムからサンプリングしたデータ量を大幅に削減できることを示す。
また、RLトレーニングのバイアスを避けるために、モデルを反復的に更新することが重要であることも示している。
論文 参考訳(メタデータ) (2023-02-14T16:14:39Z) - Contrastive Value Learning: Implicit Models for Simple Offline RL [40.95632543012637]
本研究では,環境力学の暗黙的多段階モデルを学習するコントラスト価値学習(CVL)を提案する。
CVLは報酬関数を使わずに学習できるが、それでも各アクションの値を直接見積もることができる。
CVLは, 複雑な連続制御ベンチマークにおいて, 従来のオフラインRL法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-11-03T19:10:05Z) - GEM: Group Enhanced Model for Learning Dynamical Control Systems [78.56159072162103]
サンプルベースの学習が可能な効果的なダイナミクスモデルを構築します。
リー代数ベクトル空間上のダイナミクスの学習は、直接状態遷移モデルを学ぶよりも効果的であることを示す。
この研究は、ダイナミクスの学習とリー群の性質の関連性を明らかにし、新たな研究の方向への扉を開く。
論文 参考訳(メタデータ) (2021-04-07T01:08:18Z) - Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。
軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。
NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文 参考訳(メタデータ) (2020-12-04T18:59:32Z) - Iterative Semi-parametric Dynamics Model Learning For Autonomous Racing [2.40966076588569]
本稿では,ニューラルネットワークを用いた反復学習セミパラメトリックモデルを自律レースの課題に適用する。
我々のモデルは純粋にパラメトリックモデルよりも正確に学習でき、純粋に非パラメトリックモデルよりもより一般化できることを示す。
論文 参考訳(メタデータ) (2020-11-17T16:24:10Z) - Learning to Continuously Optimize Wireless Resource In Episodically
Dynamic Environment [55.91291559442884]
この研究は、データ駆動型手法が動的環境で継続的に学習し、最適化できる方法論を開発する。
本稿では,無線システム学習のモデリングプロセスに連続学習の概念を構築することを提案する。
我々の設計は、異なるデータサンプル間で「一定の公正性を保証する」新しいmin-maxの定式化に基づいている。
論文 参考訳(メタデータ) (2020-11-16T08:24:34Z) - Online Constrained Model-based Reinforcement Learning [13.362455603441552]
主要な要件は、限られた時間とリソース予算内に留まりながら、継続的な状態とアクションスペースを扱う能力である。
本稿では,ガウス過程回帰と回帰水平制御を組み合わせたモデルに基づくアプローチを提案する。
本研究では,自動走行作業におけるオンライン学習のメリットを実証する。
論文 参考訳(メタデータ) (2020-04-07T15:51:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。