論文の概要: Pretraining the Vision Transformer using self-supervised methods for
vision based Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2209.10901v2
- Date: Tue, 18 Jul 2023 16:12:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-20 18:13:24.558096
- Title: Pretraining the Vision Transformer using self-supervised methods for
vision based Deep Reinforcement Learning
- Title(参考訳): 視覚に基づく深層強化学習のための自己指導手法を用いた視覚変換器の事前学習
- Authors: Manuel Goul\~ao and Arlindo L. Oliveira
- Abstract要約: いくつかの最先端の自己教師型手法を用いて視覚変換器の事前学習を行い、学習した表現の質を評価する。
その結果,すべての手法が有用な表現を学習し,表現の崩壊を避けるのに有効であることが示唆された。
時間順序検証タスクで事前訓練されたエンコーダは、すべての実験で最高の結果を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Vision Transformer architecture has shown to be competitive in the
computer vision (CV) space where it has dethroned convolution-based networks in
several benchmarks. Nevertheless, convolutional neural networks (CNN) remain
the preferential architecture for the representation module in reinforcement
learning. In this work, we study pretraining a Vision Transformer using several
state-of-the-art self-supervised methods and assess the quality of the learned
representations. To show the importance of the temporal dimension in this
context we propose an extension of VICReg to better capture temporal relations
between observations by adding a temporal order verification task. Our results
show that all methods are effective in learning useful representations and
avoiding representational collapse for observations from Atari Learning
Environment (ALE) which leads to improvements in data efficiency when we
evaluated in reinforcement learning (RL). Moreover, the encoder pretrained with
the temporal order verification task shows the best results across all
experiments, with richer representations, more focused attention maps and
sparser representation vectors throughout the layers of the encoder, which
shows the importance of exploring such similarity dimension. With this work, we
hope to provide some insights into the representations learned by ViT during a
self-supervised pretraining with observations from RL environments and which
properties arise in the representations that lead to the best-performing
agents. The source code will be available at:
https://github.com/mgoulao/TOV-VICReg
- Abstract(参考訳): Vision Transformerアーキテクチャは、いくつかのベンチマークで畳み込みベースのネットワークを廃止したコンピュータビジョン(CV)分野での競争力を示している。
それでも、畳み込みニューラルネットワーク(CNN)は強化学習における表現モジュールの優先的なアーキテクチャである。
本研究では,最先端の自己管理手法を用いて視覚トランスフォーマーを事前学習し,学習した表現の質を評価する。
この文脈における時間次元の重要性を示すために,時間順序検証タスクを付加することにより観測間の時間関係をよりよく捉えるためのvicregの拡張を提案する。
以上の結果から,ALE(Atari Learning Environment)の観測結果から有用な表現を学習し,表現の崩壊を回避し,強化学習(RL)におけるデータ効率の向上につながることが示唆された。
さらに、時間順序検証タスクで事前訓練されたエンコーダは、よりリッチな表現、より集中した注意マップ、およびエンコーダの層全体にわたるスペーサー表現ベクトルを含む全ての実験において最良の結果を示す。
この研究により、RL環境からの観察による自己教師付き事前学習において、ViTが学んだ表現について、そして、どの特性が最高のパフォーマンスエージェントに導かれるかについて、いくつかの洞察を提供したいと思っています。
ソースコードは、https://github.com/mgoulao/TOV-VICRegで入手できる。
関連論文リスト
- Locality Alignment Improves Vision-Language Models [55.275235524659905]
近年では視覚言語モデル (VLM) が普及しているが、その多くが基本的な空間推論の誤りに悩まされている。
局所性アライメント(Locality alignment)と呼ばれる,視覚障害者のための新しい学習段階を提案する。
局所性に整合したバックボーンは、様々なベンチマークでパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-10-14T21:01:01Z) - Value Explicit Pretraining for Learning Transferable Representations [11.069853883599102]
本稿では,伝達強化学習のための一般化可能な表現を学習する手法を提案する。
我々は、目的条件付き表現のためのエンコーダを学習することで、前回学習したタスクと同様の目的を共有する新しいタスクを学ぶ。
現実的なナビゲーションシミュレータとAtariベンチマークを用いて実験したところ,本手法により生成された事前学習エンコーダは,現在のSoTA事前学習法より優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-19T17:12:35Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-27T12:16:44Z) - SERE: Exploring Feature Self-relation for Self-supervised Transformer [79.5769147071757]
視覚変換器(ViT)は、空間的自己アテンションとチャネルレベルのフィードフォワードネットワークを備えた強力な表現能力を有する。
最近の研究によると、自己教師型学習はViTの大きな可能性を解き放つのに役立つ。
空間次元とチャネル次元のリレーショナルモデリングは、他のネットワークとViTを区別する。
論文 参考訳(メタデータ) (2022-06-10T15:25:00Z) - Self-Promoted Supervision for Few-Shot Transformer [178.52948452353834]
SUN(Self-promoted sUpervisioN)は視覚変換器(ViT)のための数発の学習フレームワークである
SUNは、数ショットの学習データセットでViTを事前トレーニングし、各パッチトークンを導くために、個別のロケーション固有の監視を生成する。
実験によると、ViTを使ったSUNは、ViTを使った他の数発の学習フレームワークを大幅に上回っており、CNNの最先端技術よりも高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-03-14T12:53:27Z) - PreViTS: Contrastive Pretraining with Video Tracking Supervision [53.73237606312024]
PreViTSは、同じオブジェクトを含むクリップを選択するための教師なしSSLフレームワークである。
PreViTSはフレーム領域を空間的に制約し、モデルから学習し、意味のあるオブジェクトを見つけるように訓練する。
モーメントコントラスト(MoCo)エンコーダを,PreViTSを用いてVGG-SoundとKinetics-400データセットでトレーニングする。
論文 参考訳(メタデータ) (2021-12-01T19:49:57Z) - Do Vision Transformers See Like Convolutional Neural Networks? [45.69780772718875]
近年の研究では、画像分類タスクにおいて、(Vision) Transformer Model (ViT) が同等またはそれ以上の性能を達成できることが示されている。
畳み込みネットワークのように振る舞うのか、それとも全く異なる視覚表現を学ぶのか?
例えば、ViTはすべての層にわたってより均一な表現を持つ。
論文 参考訳(メタデータ) (2021-08-19T17:27:03Z) - Representation Learning with Video Deep InfoMax [26.692717942430185]
我々は、DeepInfoMaxをビデオ領域に拡張し、時間的ネットワークにおける同様の構造を利用する。
自然数列と時間ダウンサンプル列の両方からの描画ビューが,キネティクスに制約された行動認識タスクに結果をもたらすことがわかった。
論文 参考訳(メタデータ) (2020-07-27T02:28:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。