Fugu-MT 論文翻訳(概要): Pretraining the Vision Transformer using self-supervised methods for vision based Deep Reinforcement Learning

論文の概要: Pretraining the Vision Transformer using self-supervised methods for vision based Deep Reinforcement Learning

arxiv url: http://arxiv.org/abs/2209.10901v1
Date: Thu, 22 Sep 2022 10:18:59 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-23 14:01:51.805737
Title: Pretraining the Vision Transformer using self-supervised methods for vision based Deep Reinforcement Learning
Title（参考訳）: 視覚に基づく深層強化学習のための自己指導手法を用いた視覚変換器の事前学習
Authors: Manuel Goul\~ao and Arlindo L. Oliveira
Abstract要約: いくつかの最先端の自己管理手法を用いて、視覚変換器の事前学習を行う。 toV-VICRegという,観察間の時間的関係をよりよく把握するために,VICRegを拡張した自己教師型学習手法を提案する。以上の結果から,TOV-VICRegで事前訓練したビジョントランスフォーマーは,他の自己監督手法よりも優れているが,それでもCNNの克服に苦慮していることがわかった。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The Vision Transformer architecture has shown to be competitive in the computer vision (CV) space where it has dethroned convolution-based networks in several benchmarks. Nevertheless, Convolutional Neural Networks (CNN) remain the preferential architecture for the representation module in Reinforcement Learning. In this work, we study pretraining a Vision Transformer using several state-of-the-art self-supervised methods and assess data-efficiency gains from this training framework. We propose a new self-supervised learning method called TOV-VICReg that extends VICReg to better capture temporal relations between observations by adding a temporal order verification task. Furthermore, we evaluate the resultant encoders with Atari games in a sample-efficiency regime. Our results show that the vision transformer, when pretrained with TOV-VICReg, outperforms the other self-supervised methods but still struggles to overcome a CNN. Nevertheless, we were able to outperform a CNN in two of the ten games where we perform a 100k steps evaluation. Ultimately, we believe that such approaches in Deep Reinforcement Learning (DRL) might be the key to achieving new levels of performance as seen in natural language processing and computer vision. Source code will be available at: https://github.com/mgoulao/TOV-VICReg
Abstract（参考訳）: Vision Transformerアーキテクチャは、いくつかのベンチマークで畳み込みベースのネットワークを廃止したコンピュータビジョン(CV)分野での競争力を示している。それでも、畳み込みニューラルネットワーク(CNN)は強化学習における表現モジュールの優先的なアーキテクチャである。本研究では,最先端の自己監視手法を用いて視覚トランスフォーマーを事前訓練し,このトレーニングフレームワークによるデータ効率の向上を評価する。 tov-vicreg という自己教師付き学習手法を提案し,時間順検証タスクを付加することで観測間の時間的関係をよりよく把握できるようにvicregを拡張した。さらに,Atariゲームを用いたエンコーダのサンプル効率評価を行った。以上の結果から,TOV-VICRegで事前訓練したビジョントランスフォーマーは,他の自己監督手法よりも優れているが,それでもCNNの克服に苦慮していることがわかった。それでも、我々は100kステップの評価を行う10のゲームのうち2つのゲームでCNNを上回りました。最終的に、ディープラーニング学習(DRL)におけるこのようなアプローチが、自然言語処理やコンピュータビジョンに見られるような、新たなレベルのパフォーマンスを達成するための鍵となると信じています。ソースコードは、https://github.com/mgoulao/TOV-VICRegで入手できる。

関連論文リスト

IN45023 Neural Network Design Patterns in Computer Vision Seminar Report, Summer 2025 [0.0]
本報告では,コンピュータビジョンにおけるキーデザインパターンの進化を,影響力のある6つの論文から分析する。本稿では,残差接続を導入したResNetについて概説する。我々は、画像パッチのシーケンスにTransformer ar- chitectureを適用することで、新しいパラダイムを確立したビジョントランスフォーマー(ViT)について検討する。
論文参考訳（メタデータ） (2025-07-31T09:08:11Z)
Locality Alignment Improves Vision-Language Models [55.275235524659905]
近年では視覚言語モデル (VLM) が普及しているが、その多くが基本的な空間推論の誤りに悩まされている。局所性アライメント(Locality alignment)と呼ばれる,視覚障害者のための新しい学習段階を提案する。局所性に整合したバックボーンは、様々なベンチマークでパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2024-10-14T21:01:01Z)
Value Explicit Pretraining for Learning Transferable Representations [11.069853883599102]
本稿では,伝達強化学習のための一般化可能な表現を学習する手法を提案する。我々は、目的条件付き表現のためのエンコーダを学習することで、前回学習したタスクと同様の目的を共有する新しいタスクを学ぶ。現実的なナビゲーションシミュレータとAtariベンチマークを用いて実験したところ,本手法により生成された事前学習エンコーダは,現在のSoTA事前学習法より優れていることがわかった。
論文参考訳（メタデータ） (2023-12-19T17:12:35Z)
What Makes Pre-Trained Visual Representations Successful for Robust Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文参考訳（メタデータ） (2023-11-03T18:09:08Z)
Deeply-Coupled Convolution-Transformer with Spatial-temporal Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文参考訳（メタデータ） (2023-04-27T12:16:44Z)
SERE: Exploring Feature Self-relation for Self-supervised Transformer [79.5769147071757]
視覚変換器(ViT)は、空間的自己アテンションとチャネルレベルのフィードフォワードネットワークを備えた強力な表現能力を有する。最近の研究によると、自己教師型学習はViTの大きな可能性を解き放つのに役立つ。空間次元とチャネル次元のリレーショナルモデリングは、他のネットワークとViTを区別する。
論文参考訳（メタデータ） (2022-06-10T15:25:00Z)
Self-Promoted Supervision for Few-Shot Transformer [178.52948452353834]
SUN(Self-promoted sUpervisioN)は視覚変換器(ViT)のための数発の学習フレームワークである SUNは、数ショットの学習データセットでViTを事前トレーニングし、各パッチトークンを導くために、個別のロケーション固有の監視を生成する。実験によると、ViTを使ったSUNは、ViTを使った他の数発の学習フレームワークを大幅に上回っており、CNNの最先端技術よりも高いパフォーマンスを実現している。
論文参考訳（メタデータ） (2022-03-14T12:53:27Z)
PreViTS: Contrastive Pretraining with Video Tracking Supervision [53.73237606312024]
PreViTSは、同じオブジェクトを含むクリップを選択するための教師なしSSLフレームワークである。 PreViTSはフレーム領域を空間的に制約し、モデルから学習し、意味のあるオブジェクトを見つけるように訓練する。モーメントコントラスト(MoCo)エンコーダを,PreViTSを用いてVGG-SoundとKinetics-400データセットでトレーニングする。
論文参考訳（メタデータ） (2021-12-01T19:49:57Z)
Do Vision Transformers See Like Convolutional Neural Networks? [45.69780772718875]
近年の研究では、画像分類タスクにおいて、(Vision) Transformer Model (ViT) が同等またはそれ以上の性能を達成できることが示されている。畳み込みネットワークのように振る舞うのか、それとも全く異なる視覚表現を学ぶのか? 例えば、ViTはすべての層にわたってより均一な表現を持つ。
論文参考訳（メタデータ） (2021-08-19T17:27:03Z)
PredRNN: A Recurrent Neural Network for Spatiotemporal Predictive Learning [109.84770951839289]
歴史的文脈からビジュアルダイナミクスを学習するための新しいリカレントネットワークであるPredRNNを紹介する。本手法は,3つの標準データセット上で高い競争結果が得られることを示す。
論文参考訳（メタデータ） (2021-03-17T08:28:30Z)
Representation Learning with Video Deep InfoMax [26.692717942430185]
我々は、DeepInfoMaxをビデオ領域に拡張し、時間的ネットワークにおける同様の構造を利用する。自然数列と時間ダウンサンプル列の両方からの描画ビューが,キネティクスに制約された行動認識タスクに結果をもたらすことがわかった。
論文参考訳（メタデータ） (2020-07-27T02:28:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。