論文の概要: For Pre-Trained Vision Models in Motor Control, Not All Policy Learning
Methods are Created Equal
- arxiv url: http://arxiv.org/abs/2304.04591v2
- Date: Tue, 20 Jun 2023 08:23:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 02:49:54.144988
- Title: For Pre-Trained Vision Models in Motor Control, Not All Policy Learning
Methods are Created Equal
- Title(参考訳): 運動制御における事前学習型視覚モデルの場合、全ての政策学習手法が等しくなるわけではない
- Authors: Yingdong Hu, Renhao Wang, Li Erran Li, Yang Gao
- Abstract要約: 事前訓練された視覚モデルが異なる制御ポリシーの下で有効性に一貫性があるかどうかは不明である。
本研究は, 事前学習の有効性が下流政策学習アルゴリズムの選択に大きく依存していることの発見を含む, 一連の興味深い結果をもたらす。
- 参考スコア(独自算出の注目度): 17.467998596393116
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, increasing attention has been directed to leveraging
pre-trained vision models for motor control. While existing works mainly
emphasize the importance of this pre-training phase, the arguably equally
important role played by downstream policy learning during control-specific
fine-tuning is often neglected. It thus remains unclear if pre-trained vision
models are consistent in their effectiveness under different control policies.
To bridge this gap in understanding, we conduct a comprehensive study on 14
pre-trained vision models using 3 distinct classes of policy learning methods,
including reinforcement learning (RL), imitation learning through behavior
cloning (BC), and imitation learning with a visual reward function (VRF). Our
study yields a series of intriguing results, including the discovery that the
effectiveness of pre-training is highly dependent on the choice of the
downstream policy learning algorithm. We show that conventionally accepted
evaluation based on RL methods is highly variable and therefore unreliable, and
further advocate for using more robust methods like VRF and BC. To facilitate
more universal evaluations of pre-trained models and their policy learning
methods in the future, we also release a benchmark of 21 tasks across 3
different environments alongside our work.
- Abstract(参考訳): 近年,運動制御のための事前学習型視覚モデルの利用に注目が集まっている。
既存の研究は主にプレトレーニングフェーズの重要性を強調しているが、制御固有の微調整において下流政策学習が果たす重要な役割は無視されることが多い。
したがって、事前訓練された視覚モデルが異なる制御ポリシーの下で有効性に一貫性があるかどうかは不明である。
このギャップを埋めるために、強化学習(RL)、行動クローニングによる模倣学習(BC)、視覚報酬機能付き模倣学習(VRF)を含む3種類の政策学習手法を用いて、14種類の事前学習された視覚モデルについて包括的な研究を行う。
本研究は, 事前学習の有効性が下流政策学習アルゴリズムの選択に大きく依存していることの発見を含む, 一連の興味深い結果をもたらす。
従来,RL法に基づく評価は非常に可変であり,信頼性が低いことを示し,VRFやBCといったより堅牢な手法の活用を提唱している。
事前学習されたモデルとそのポリシー学習手法のより普遍的な評価を容易にするため、我々は、作業とともに3つの異なる環境にわたる21のタスクのベンチマークもリリースした。
関連論文リスト
- Unlearning with Control: Assessing Real-world Utility for Large Language Model Unlearning [97.2995389188179]
最近の研究は、勾配上昇(GA)を通した大規模言語モデル(LLM)の未学習にアプローチし始めている。
その単純さと効率性にもかかわらず、我々はGAベースの手法が過剰な未学習の傾向に直面することを示唆している。
過剰な未学習の度合いを制御できるいくつかの制御手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - PILOT: A Pre-Trained Model-Based Continual Learning Toolbox [71.63186089279218]
本稿では,PILOTとして知られるモデルベース連続学習ツールボックスについて紹介する。
一方、PILOTはL2P、DualPrompt、CODA-Promptといった事前学習モデルに基づいて、最先端のクラスインクリメンタル学習アルゴリズムを実装している。
一方、PILOTは、事前学習されたモデルの文脈に典型的なクラス増分学習アルゴリズムを適合させ、それらの効果を評価する。
論文 参考訳(メタデータ) (2023-09-13T17:55:11Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Training and Evaluation of Deep Policies using Reinforcement Learning
and Generative Models [67.78935378952146]
GenRLはシーケンシャルな意思決定問題を解決するためのフレームワークである。
強化学習と潜在変数生成モデルの組み合わせを利用する。
最終方針訓練の性能に最も影響を与える生成モデルの特徴を実験的に決定する。
論文 参考訳(メタデータ) (2022-04-18T22:02:32Z) - Reinforcement Learning with Action-Free Pre-Training from Videos [95.25074614579646]
本稿では,ビデオにおける生成前学習を通じて動的理解に役立つ表現を学習するフレームワークを提案する。
我々のフレームワークは、視覚に基づく強化学習の最終性能とサンプル効率の両方を著しく改善する。
論文 参考訳(メタデータ) (2022-03-25T19:44:09Z) - Data-efficient visuomotor policy training using reinforcement learning
and generative models [27.994338318811952]
本稿では,ビジュモータの逐次的意思決定問題を解決するためのデータ効率フレームワークを提案する。
我々は強化学習と潜在変数生成モデルの組み合わせを利用する。
論文 参考訳(メタデータ) (2020-07-26T14:19:00Z) - Ready Policy One: World Building Through Active Learning [35.358315617358976]
本稿では,モデルに基づく強化学習を積極的学習問題とみなすフレームワークであるReady Policy One(RP1)を紹介する。
RP1は、最適化中に重要な適応を行うハイブリッド目的関数を利用することで、これを実現する。
本手法を各種連続制御タスクにおいて厳密に評価し,既存手法に比べて統計的に有意な向上を示した。
論文 参考訳(メタデータ) (2020-02-07T09:57:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。