Fugu-MT 論文翻訳(概要): Continual Model-Based Reinforcement Learning with Hypernetworks

論文の概要: Continual Model-Based Reinforcement Learning with Hypernetworks

arxiv url: http://arxiv.org/abs/2009.11997v2
Date: Tue, 30 Mar 2021 02:46:27 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-14 22:40:55.463671
Title: Continual Model-Based Reinforcement Learning with Hypernetworks
Title（参考訳）: Hypernetworksによる連続モデルに基づく強化学習
Authors: Yizhou Huang, Kevin Xie, Homanga Bharadhwaj and Florian Shkurti
Abstract要約: 本稿では,タスク条件付きハイパーネットを用いたタスクのシーケンスにおいて,遭遇するダイナミクスを継続的に学習する手法を提案する。まず、従来のタスクからトレーニングデータを再考しない動的学習セッションを含むので、状態遷移経験の最新の固定サイズの部分を格納するだけです。ロボットの移動と操作のシナリオにおいて,HyperCRLは連続モデルに基づく強化学習に有効であることを示す。
参考スコア（独自算出の注目度）: 24.86684067407964
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Effective planning in model-based reinforcement learning (MBRL) and model-predictive control (MPC) relies on the accuracy of the learned dynamics model. In many instances of MBRL and MPC, this model is assumed to be stationary and is periodically re-trained from scratch on state transition experience collected from the beginning of environment interactions. This implies that the time required to train the dynamics model - and the pause required between plan executions - grows linearly with the size of the collected experience. We argue that this is too slow for lifelong robot learning and propose HyperCRL, a method that continually learns the encountered dynamics in a sequence of tasks using task-conditional hypernetworks. Our method has three main attributes: first, it includes dynamics learning sessions that do not revisit training data from previous tasks, so it only needs to store the most recent fixed-size portion of the state transition experience; second, it uses fixed-capacity hypernetworks to represent non-stationary and task-aware dynamics; third, it outperforms existing continual learning alternatives that rely on fixed-capacity networks, and does competitively with baselines that remember an ever increasing coreset of past experience. We show that HyperCRL is effective in continual model-based reinforcement learning in robot locomotion and manipulation scenarios, such as tasks involving pushing and door opening. Our project website with videos is at this link https://rvl.cs.toronto.edu/blog/2020/hypercrl
Abstract（参考訳）: モデルベース強化学習(MBRL)とモデル予測制御(MPC)の効果的な計画は、学習力学モデルの精度に依存する。 MBRLとMPCの多くの例では、このモデルは定常であると仮定され、環境相互作用の初期から収集された状態遷移経験に基づいてスクラッチから定期的に再訓練される。これは、動的モデルのトレーニングに必要な時間、および計画実行の間の一時停止が、収集されたエクスペリエンスのサイズとともに線形に増加することを意味します。我々は、これは生涯にわたるロボット学習には遅すぎると論じ、タスク条件のハイパーネットワークを用いて、遭遇したダイナミクスを連続的に学習する手法であるHyperCRLを提案する。 Our method has three main attributes: first, it includes dynamics learning sessions that do not revisit training data from previous tasks, so it only needs to store the most recent fixed-size portion of the state transition experience; second, it uses fixed-capacity hypernetworks to represent non-stationary and task-aware dynamics; third, it outperforms existing continual learning alternatives that rely on fixed-capacity networks, and does competitively with baselines that remember an ever increasing coreset of past experience. ロボットの移動や操作のシナリオにおいて,HyperCRLは連続モデルに基づく強化学習に有効であることを示す。ビデオ付きプロジェクトのwebサイトは、このリンクhttps://rvl.cs.toronto.edu/blog/2020/hypercrlです。

関連論文リスト

DreamerV3 for Traffic Signal Control: Hyperparameter Tuning and Performance [4.962905815955427]
強化学習(Reinforcement Learning, RL)は、スマートTSC戦略の開発において、広く研究されている技術である。 DreamerV3アルゴリズムはポリシー学習のための魅力的な特性を示す。本稿では,TSC戦略学習のための世界モデルの利点を探るため,DreamerV3アルゴリズムを用いて廊下TSCモデルを訓練する。
論文参考訳（メタデータ） (2025-03-04T05:02:46Z)
Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文参考訳（メタデータ） (2024-10-28T13:48:43Z)
Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文参考訳（メタデータ） (2023-06-06T02:24:41Z)
Predictive Experience Replay for Continual Visual Control and Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文参考訳（メタデータ） (2023-03-12T05:08:03Z)
Learning a model is paramount for sample efficiency in reinforcement learning control of PDEs [5.488334211013093]
RLエージェントの訓練と並行して動作モデルを学ぶことで,実システムからサンプリングしたデータ量を大幅に削減できることを示す。また、RLトレーニングのバイアスを避けるために、モデルを反復的に更新することが重要であることも示している。
論文参考訳（メタデータ） (2023-02-14T16:14:39Z)
Contrastive Value Learning: Implicit Models for Simple Offline RL [40.95632543012637]
本研究では,環境力学の暗黙的多段階モデルを学習するコントラスト価値学習(CVL)を提案する。 CVLは報酬関数を使わずに学習できるが、それでも各アクションの値を直接見積もることができる。 CVLは, 複雑な連続制御ベンチマークにおいて, 従来のオフラインRL法よりも優れていることを示す。
論文参考訳（メタデータ） (2022-11-03T19:10:05Z)
GEM: Group Enhanced Model for Learning Dynamical Control Systems [78.56159072162103]
サンプルベースの学習が可能な効果的なダイナミクスモデルを構築します。リー代数ベクトル空間上のダイナミクスの学習は、直接状態遷移モデルを学ぶよりも効果的であることを示す。この研究は、ダイナミクスの学習とリー群の性質の関連性を明らかにし、新たな研究の方向への扉を開く。
論文参考訳（メタデータ） (2021-04-07T01:08:18Z)
Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。 NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文参考訳（メタデータ） (2020-12-04T18:59:32Z)
Iterative Semi-parametric Dynamics Model Learning For Autonomous Racing [2.40966076588569]
本稿では,ニューラルネットワークを用いた反復学習セミパラメトリックモデルを自律レースの課題に適用する。我々のモデルは純粋にパラメトリックモデルよりも正確に学習でき、純粋に非パラメトリックモデルよりもより一般化できることを示す。
論文参考訳（メタデータ） (2020-11-17T16:24:10Z)
Learning to Continuously Optimize Wireless Resource In Episodically Dynamic Environment [55.91291559442884]
この研究は、データ駆動型手法が動的環境で継続的に学習し、最適化できる方法論を開発する。本稿では,無線システム学習のモデリングプロセスに連続学習の概念を構築することを提案する。我々の設計は、異なるデータサンプル間で「一定の公正性を保証する」新しいmin-maxの定式化に基づいている。
論文参考訳（メタデータ） (2020-11-16T08:24:34Z)
Online Constrained Model-based Reinforcement Learning [13.362455603441552]
主要な要件は、限られた時間とリソース予算内に留まりながら、継続的な状態とアクションスペースを扱う能力である。本稿では,ガウス過程回帰と回帰水平制御を組み合わせたモデルに基づくアプローチを提案する。本研究では,自動走行作業におけるオンライン学習のメリットを実証する。
論文参考訳（メタデータ） (2020-04-07T15:51:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。