論文の概要: Pretrained Visual Representations in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2407.17238v1
- Date: Wed, 24 Jul 2024 12:53:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-25 13:54:30.597475
- Title: Pretrained Visual Representations in Reinforcement Learning
- Title(参考訳): 強化学習における事前学習型視覚表現
- Authors: Emlyn Williams, Athanasios Polydoros,
- Abstract要約: 本稿では、畳み込みニューラルネットワーク(CNN)をスクラッチから学習する視覚強化学習アルゴリズムの性能と、事前学習された視覚表現(PVR)を利用するものとの比較を行う。
ResNet18, DINOv2, Visual Cortex (VC) の3つのPVRに対して, 最先端のビジュアルRL法である Dormant Ratio Minimization (DRM) アルゴリズムの評価を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual reinforcement learning (RL) has made significant progress in recent years, but the choice of visual feature extractor remains a crucial design decision. This paper compares the performance of RL algorithms that train a convolutional neural network (CNN) from scratch with those that utilize pre-trained visual representations (PVRs). We evaluate the Dormant Ratio Minimization (DRM) algorithm, a state-of-the-art visual RL method, against three PVRs: ResNet18, DINOv2, and Visual Cortex (VC). We use the Metaworld Push-v2 and Drawer-Open-v2 tasks for our comparison. Our results show that the choice of training from scratch compared to using PVRs for maximising performance is task-dependent, but PVRs offer advantages in terms of reduced replay buffer size and faster training times. We also identify a strong correlation between the dormant ratio and model performance, highlighting the importance of exploration in visual RL. Our study provides insights into the trade-offs between training from scratch and using PVRs, informing the design of future visual RL algorithms.
- Abstract(参考訳): 近年,視覚的強化学習 (RL) は大きな進歩を遂げているが,視覚的特徴抽出器の選択は依然として重要な設計決定である。
本稿では,畳み込みニューラルネットワーク(CNN)をスクラッチから学習するRLアルゴリズムの性能と,事前学習された視覚表現(PVR)を利用するアルゴリズムとの比較を行った。
ResNet18, DINOv2, Visual Cortex (VC) の3つのPVRに対して, 最先端のビジュアルRL法である Dormant Ratio Minimization (DRM) アルゴリズムを評価した。
比較にはMetaworld Push-v2タスクとDrawer-Open-v2タスクを使用します。
以上の結果から,PVRを最大化するために使用する場合と比較して,スクラッチからトレーニングを選択することはタスク依存であることがわかったが,PVRはリプレイバッファサイズを小さくし,トレーニング時間を短縮できるという利点がある。
また、休眠率とモデル性能の相関関係を強く把握し、視覚的RLにおける探索の重要性を強調した。
我々の研究は、スクラッチからのトレーニングとPVRの使用のトレードオフに関する洞察を提供し、将来のビジュアルRLアルゴリズムの設計を知らせる。
関連論文リスト
- The Surprising Ineffectiveness of Pre-Trained Visual Representations for Model-Based Reinforcement Learning [8.36595587335589]
視覚強化学習法は、しばしば大量のデータを必要とする。
モデルベースRL(MBRL)は、プランニングによる効率的なデータ利用の潜在的なソリューションを提供する。
MBRLには現実世界のタスクの一般化機能が欠けている。
論文 参考訳(メタデータ) (2024-11-15T13:21:26Z) - Pretraining the Vision Transformer using self-supervised methods for
vision based Deep Reinforcement Learning [0.0]
いくつかの最先端の自己教師型手法を用いて視覚変換器の事前学習を行い、学習した表現の質を評価する。
その結果,すべての手法が有用な表現を学習し,表現の崩壊を避けるのに有効であることが示唆された。
時間順序検証タスクで事前訓練されたエンコーダは、すべての実験で最高の結果を示す。
論文 参考訳(メタデータ) (2022-09-22T10:18:59Z) - Light-weight probing of unsupervised representations for Reinforcement Learning [20.638410483549706]
線形探索が教師なしRL表現の品質評価の代行的タスクであるかどうかを検討する。
本稿では,Atari100kベンチマークにおける下流RL性能と,探索タスクが強く相関していることを示す。
これにより、事前学習アルゴリズムの空間を探索し、有望な事前学習レシピを特定するためのより効率的な方法が提供される。
論文 参考訳(メタデータ) (2022-08-25T21:08:01Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - SCVRL: Shuffled Contrastive Video Representation Learning [28.06521069427918]
SCVRLはビデオの自己教師型学習のためのコントラストベースのフレームワークである。
我々は、現代のコントラスト学習パラダイムにおいて、一般的なシャッフル述語タスクを再構築する。
我々のネットワークは、自己監督された設定で動きを学習する能力があり、4つのベンチマークでCVRLよりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-05-24T01:24:47Z) - Offline Visual Representation Learning for Embodied Navigation [50.442660137987275]
自己教師付き学習による視覚表現のオフライン事前学習(SSL)
長期学習スケジュール下での画像強調による特定のタスクにおけるビジュモータ表現のオンライン微調整
論文 参考訳(メタデータ) (2022-04-27T23:22:43Z) - Visual Alignment Constraint for Continuous Sign Language Recognition [74.26707067455837]
ビジョンベースの継続的署名言語認識は、画像シーケンスから未分割ジェスチャーを認識することを目的とする。
本研究は,最近のCTCに基づくCSLRにおける過剰適合問題を再考し,特徴抽出器の訓練不足によるものである。
視覚アライメント制約(vac)により、よりアライメントの監督により特徴抽出器を強化する。
論文 参考訳(メタデータ) (2021-04-06T07:24:58Z) - Improving Computational Efficiency in Visual Reinforcement Learning via
Stored Embeddings [89.63764845984076]
効率的な強化学習のためのストアド埋め込み(SEER)について紹介します。
SEERは、既存の非政治深層強化学習方法の簡単な修正です。
計算とメモリを大幅に節約しながら、SEERがRLizableエージェントのパフォーマンスを低下させないことを示します。
論文 参考訳(メタデータ) (2021-03-04T08:14:10Z) - Decoupling Representation Learning from Reinforcement Learning [89.82834016009461]
Augmented Temporal Contrast (ATC) と呼ばれる教師なし学習タスクを導入する。
ATCは畳み込みエンコーダを訓練し、短い時間差で分離された観測ペアを関連付ける。
オンラインRL実験では,ATCマッチを用いたエンコーダのトレーニングや,エンド・ツー・エンドのRLよりも優れていた。
論文 参考訳(メタデータ) (2020-09-14T19:11:13Z) - Learning to Prune Deep Neural Networks via Reinforcement Learning [64.85939668308966]
PuRLは、ニューラルネットワークのプルーニングのためのディープ強化学習ベースのアルゴリズムである。
現在の最先端の手法に匹敵する幅と精度を実現している。
論文 参考訳(メタデータ) (2020-07-09T13:06:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。