論文の概要: Objectives Matter: Understanding the Impact of Self-Supervised
Objectives on Vision Transformer Representations
- arxiv url: http://arxiv.org/abs/2304.13089v1
- Date: Tue, 25 Apr 2023 18:48:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-27 16:54:11.780406
- Title: Objectives Matter: Understanding the Impact of Self-Supervised
Objectives on Vision Transformer Representations
- Title(参考訳): 目的:自己監督目標が視覚トランスフォーマー表現に与える影響を理解すること
- Authors: Shashank Shekhar, Florian Bordes, Pascal Vincent, Ari Morcos
- Abstract要約: 本研究では,再建型学習機能と共同埋め込み型学習機能との相違について述べる。
結合埋め込み特性は,異なる目的が異なる情報分布を駆動するため,分類のための線形プローブ転送の精度が向上することがわかった。
- 参考スコア(独自算出の注目度): 13.437097059358067
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Joint-embedding based learning (e.g., SimCLR, MoCo, DINO) and
reconstruction-based learning (e.g., BEiT, SimMIM, MAE) are the two leading
paradigms for self-supervised learning of vision transformers, but they differ
substantially in their transfer performance. Here, we aim to explain these
differences by analyzing the impact of these objectives on the structure and
transferability of the learned representations. Our analysis reveals that
reconstruction-based learning features are significantly dissimilar to
joint-embedding based learning features and that models trained with similar
objectives learn similar features even across architectures. These differences
arise early in the network and are primarily driven by attention and
normalization layers. We find that joint-embedding features yield better linear
probe transfer for classification because the different objectives drive
different distributions of information and invariances in the learned
representation. These differences explain opposite trends in transfer
performance for downstream tasks that require spatial specificity in features.
Finally, we address how fine-tuning changes reconstructive representations to
enable better transfer, showing that fine-tuning re-organizes the information
to be more similar to pre-trained joint embedding models.
- Abstract(参考訳): 共同学習(例: simclr, moco, dino)と再構成学習(例: beit, simmim, mae)は視覚トランスフォーマーの自己教師付き学習のための2つの主要なパラダイムであるが、それらは転送性能において大きく異なる。
本稿では,これらの目的が学習表現の構造と伝達性に与える影響を分析することにより,これらの違いを説明することを目的とする。
分析の結果,リコンストラクションに基づく学習機能は,共同インベディングに基づく学習機能とは大きく異なっており,類似した目的を持ったモデルでは,アーキテクチャ全体でも類似した機能を学習できることが判明した。
これらの違いはネットワークの初期に発生し、主に注目層と正規化層によって引き起こされる。
異なる目的が異なる情報分布と学習表現の不変性を駆動するため,ジョイントエンベディング特徴は分類のためのより良い線形プローブ移動をもたらすことがわかった。
これらの違いは、機能に空間的特異性を必要とする下流タスクの転送性能の逆の傾向を説明する。
最後に, 微調整による再構成表現が, より優れた伝達を可能にすること, 微調整による情報再構成が, 事前訓練された関節埋め込みモデルとよりよく似たものになることを示す。
関連論文リスト
- Differentiation and Specialization of Attention Heads via the Refined Local Learning Coefficient [0.49478969093606673]
特異学習理論に基づくモデル複雑性の尺度である局所学習係数 (LLC) の洗練された変種を導入する。
本研究では,トランスフォーマー言語モデルにおける内部構造の開発について検討する。
論文 参考訳(メタデータ) (2024-10-03T20:51:02Z) - Unveiling Backbone Effects in CLIP: Exploring Representational Synergies
and Variances [49.631908848868505]
コントラスト言語-画像事前学習(CLIP)は画像表現学習において顕著な手法である。
各種ニューラルアーキテクチャにおけるCLIP性能の違いについて検討する。
我々は、複数のバックボーンからの予測を組み合わせるためのシンプルで効果的なアプローチを提案し、最大6.34%のパフォーマンス向上につながった。
論文 参考訳(メタデータ) (2023-12-22T03:01:41Z) - ExpPoint-MAE: Better interpretability and performance for self-supervised point cloud transformers [7.725095281624494]
マスク付き自動符号化の有効性を事前学習方式として評価し,代替手段としてMomentum Contrastを探索する。
我々は,トランスフォーマーが意味論的に意味のある領域への参加を学ぶことを観察し,事前学習が基礎となる幾何学の理解を深めることを示す。
論文 参考訳(メタデータ) (2023-06-19T09:38:21Z) - Analyzing Multimodal Objectives Through the Lens of Generative Diffusion
Guidance [34.27851973031995]
我々は,分類器誘導拡散モデルが,分類器が提供する意味的信号を反映した画像を生成するという事実を活用する。
具体的には, コントラスト, マッチング, キャプションの損失を意味的信号の観点から比較し, 解析だけでなく, 生成指導の質も向上する単純なベースラインを導入する。
論文 参考訳(メタデータ) (2023-02-10T11:17:20Z) - Demystify Transformers & Convolutions in Modern Image Deep Networks [82.32018252867277]
本稿では,一般のコンボリューションとアテンション演算子の真の利益を,詳細な研究により同定することを目的とする。
注意や畳み込みのようなこれらの特徴変換モジュールの主な違いは、それらの空間的特徴集約アプローチにある。
各種課題の実験と帰納的バイアスの解析により,ネットワークレベルとブロックレベルの高度な設計により,性能が著しく向上した。
論文 参考訳(メタデータ) (2022-11-10T18:59:43Z) - Task Formulation Matters When Learning Continually: A Case Study in
Visual Question Answering [58.82325933356066]
継続的な学習は、以前の知識を忘れずに、一連のタスクでモデルを漸進的にトレーニングすることを目的としている。
本稿では,視覚的質問応答において,異なる設定がパフォーマンスに与える影響について詳細に検討する。
論文 参考訳(メタデータ) (2022-09-30T19:12:58Z) - Weak Augmentation Guided Relational Self-Supervised Learning [80.0680103295137]
本稿では、異なるインスタンス間の関係をモデル化して表現を学習する新しいリレーショナル自己教師型学習(ReSSL)フレームワークを提案する。
提案手法では,異なるインスタンス間でのペアワイズ類似度の分布を,テクトitrelationmetricとして高めている。
実験の結果,提案したReSSLは,ネットワークアーキテクチャの異なる最先端手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-03-16T16:14:19Z) - Divergent representations of ethological visual inputs emerge from
supervised, unsupervised, and reinforcement learning [20.98896935012773]
8つの異なる畳み込みニューラルネットワークによって学習された表現を比較する。
強化学習で訓練されたネットワークは,他のネットワークと大きく異なることがわかった。
論文 参考訳(メタデータ) (2021-12-03T17:18:09Z) - Why Do Self-Supervised Models Transfer? Investigating the Impact of
Invariance on Downstream Tasks [79.13089902898848]
自己教師付き学習は、非競合画像上での表現学習の強力なパラダイムである。
コンピュータビジョンにおける異なるタスクは、異なる(不変の)分散を符号化する機能を必要とすることを示す。
論文 参考訳(メタデータ) (2021-11-22T18:16:35Z) - Do Vision Transformers See Like Convolutional Neural Networks? [45.69780772718875]
近年の研究では、画像分類タスクにおいて、(Vision) Transformer Model (ViT) が同等またはそれ以上の性能を達成できることが示されている。
畳み込みネットワークのように振る舞うのか、それとも全く異なる視覚表現を学ぶのか?
例えば、ViTはすべての層にわたってより均一な表現を持つ。
論文 参考訳(メタデータ) (2021-08-19T17:27:03Z) - What is being transferred in transfer learning? [51.6991244438545]
事前訓練した重量からトレーニングを行うと、モデルは損失景観の同じ流域に留まることを示す。
事前学習した重みからトレーニングする場合、モデルは損失ランドスケープの同じ流域に留まり、そのようなモデルの異なるインスタンスは特徴空間と類似しており、パラメータ空間は近接している。
論文 参考訳(メタデータ) (2020-08-26T17:23:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。