論文の概要: Pretraining the Vision Transformer using self-supervised methods for
vision based Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2209.10901v1
- Date: Thu, 22 Sep 2022 10:18:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 14:01:51.805737
- Title: Pretraining the Vision Transformer using self-supervised methods for
vision based Deep Reinforcement Learning
- Title(参考訳): 視覚に基づく深層強化学習のための自己指導手法を用いた視覚変換器の事前学習
- Authors: Manuel Goul\~ao and Arlindo L. Oliveira
- Abstract要約: いくつかの最先端の自己管理手法を用いて、視覚変換器の事前学習を行う。
toV-VICRegという,観察間の時間的関係をよりよく把握するために,VICRegを拡張した自己教師型学習手法を提案する。
以上の結果から,TOV-VICRegで事前訓練したビジョントランスフォーマーは,他の自己監督手法よりも優れているが,それでもCNNの克服に苦慮していることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Vision Transformer architecture has shown to be competitive in the
computer vision (CV) space where it has dethroned convolution-based networks in
several benchmarks. Nevertheless, Convolutional Neural Networks (CNN) remain
the preferential architecture for the representation module in Reinforcement
Learning. In this work, we study pretraining a Vision Transformer using several
state-of-the-art self-supervised methods and assess data-efficiency gains from
this training framework. We propose a new self-supervised learning method
called TOV-VICReg that extends VICReg to better capture temporal relations
between observations by adding a temporal order verification task. Furthermore,
we evaluate the resultant encoders with Atari games in a sample-efficiency
regime. Our results show that the vision transformer, when pretrained with
TOV-VICReg, outperforms the other self-supervised methods but still struggles
to overcome a CNN. Nevertheless, we were able to outperform a CNN in two of the
ten games where we perform a 100k steps evaluation. Ultimately, we believe that
such approaches in Deep Reinforcement Learning (DRL) might be the key to
achieving new levels of performance as seen in natural language processing and
computer vision. Source code will be available at:
https://github.com/mgoulao/TOV-VICReg
- Abstract(参考訳): Vision Transformerアーキテクチャは、いくつかのベンチマークで畳み込みベースのネットワークを廃止したコンピュータビジョン(CV)分野での競争力を示している。
それでも、畳み込みニューラルネットワーク(CNN)は強化学習における表現モジュールの優先的なアーキテクチャである。
本研究では,最先端の自己監視手法を用いて視覚トランスフォーマーを事前訓練し,このトレーニングフレームワークによるデータ効率の向上を評価する。
tov-vicreg という自己教師付き学習手法を提案し,時間順検証タスクを付加することで観測間の時間的関係をよりよく把握できるようにvicregを拡張した。
さらに,Atariゲームを用いたエンコーダのサンプル効率評価を行った。
以上の結果から,TOV-VICRegで事前訓練したビジョントランスフォーマーは,他の自己監督手法よりも優れているが,それでもCNNの克服に苦慮していることがわかった。
それでも、我々は100kステップの評価を行う10のゲームのうち2つのゲームでCNNを上回りました。
最終的に、ディープラーニング学習(DRL)におけるこのようなアプローチが、自然言語処理やコンピュータビジョンに見られるような、新たなレベルのパフォーマンスを達成するための鍵となると信じています。
ソースコードは、https://github.com/mgoulao/TOV-VICRegで入手できる。
関連論文リスト
- Locality Alignment Improves Vision-Language Models [55.275235524659905]
近年では視覚言語モデル (VLM) が普及しているが、その多くが基本的な空間推論の誤りに悩まされている。
局所性アライメント(Locality alignment)と呼ばれる,視覚障害者のための新しい学習段階を提案する。
局所性に整合したバックボーンは、様々なベンチマークでパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-10-14T21:01:01Z) - Value Explicit Pretraining for Learning Transferable Representations [11.069853883599102]
本稿では,伝達強化学習のための一般化可能な表現を学習する手法を提案する。
我々は、目的条件付き表現のためのエンコーダを学習することで、前回学習したタスクと同様の目的を共有する新しいタスクを学ぶ。
現実的なナビゲーションシミュレータとAtariベンチマークを用いて実験したところ,本手法により生成された事前学習エンコーダは,現在のSoTA事前学習法より優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-19T17:12:35Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-27T12:16:44Z) - SERE: Exploring Feature Self-relation for Self-supervised Transformer [79.5769147071757]
視覚変換器(ViT)は、空間的自己アテンションとチャネルレベルのフィードフォワードネットワークを備えた強力な表現能力を有する。
最近の研究によると、自己教師型学習はViTの大きな可能性を解き放つのに役立つ。
空間次元とチャネル次元のリレーショナルモデリングは、他のネットワークとViTを区別する。
論文 参考訳(メタデータ) (2022-06-10T15:25:00Z) - Self-Promoted Supervision for Few-Shot Transformer [178.52948452353834]
SUN(Self-promoted sUpervisioN)は視覚変換器(ViT)のための数発の学習フレームワークである
SUNは、数ショットの学習データセットでViTを事前トレーニングし、各パッチトークンを導くために、個別のロケーション固有の監視を生成する。
実験によると、ViTを使ったSUNは、ViTを使った他の数発の学習フレームワークを大幅に上回っており、CNNの最先端技術よりも高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-03-14T12:53:27Z) - PreViTS: Contrastive Pretraining with Video Tracking Supervision [53.73237606312024]
PreViTSは、同じオブジェクトを含むクリップを選択するための教師なしSSLフレームワークである。
PreViTSはフレーム領域を空間的に制約し、モデルから学習し、意味のあるオブジェクトを見つけるように訓練する。
モーメントコントラスト(MoCo)エンコーダを,PreViTSを用いてVGG-SoundとKinetics-400データセットでトレーニングする。
論文 参考訳(メタデータ) (2021-12-01T19:49:57Z) - Do Vision Transformers See Like Convolutional Neural Networks? [45.69780772718875]
近年の研究では、画像分類タスクにおいて、(Vision) Transformer Model (ViT) が同等またはそれ以上の性能を達成できることが示されている。
畳み込みネットワークのように振る舞うのか、それとも全く異なる視覚表現を学ぶのか?
例えば、ViTはすべての層にわたってより均一な表現を持つ。
論文 参考訳(メタデータ) (2021-08-19T17:27:03Z) - Representation Learning with Video Deep InfoMax [26.692717942430185]
我々は、DeepInfoMaxをビデオ領域に拡張し、時間的ネットワークにおける同様の構造を利用する。
自然数列と時間ダウンサンプル列の両方からの描画ビューが,キネティクスに制約された行動認識タスクに結果をもたらすことがわかった。
論文 参考訳(メタデータ) (2020-07-27T02:28:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。