論文の概要: What Do Self-Supervised Vision Transformers Learn?
- arxiv url: http://arxiv.org/abs/2305.00729v1
- Date: Mon, 1 May 2023 09:12:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-02 13:31:58.661168
- Title: What Do Self-Supervised Vision Transformers Learn?
- Title(参考訳): 自己監督型ビジョントランスフォーマーは何を学べるか?
- Authors: Namuk Park, Wonjae Kim, Byeongho Heo, Taekyung Kim, Sangdoo Yun
- Abstract要約: 比較学習 (CL) とマスク画像モデリング (MIM) が下流タスクの表現や性能にどのように異なるかを示す。
CLとMIMは相互に補完し、最も単純なものでさえ両方の手法の利点を活用できることを観察する。
- 参考スコア(独自算出の注目度): 29.284786316215918
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a comparative study on how and why contrastive learning (CL) and
masked image modeling (MIM) differ in their representations and in their
performance of downstream tasks. In particular, we demonstrate that
self-supervised Vision Transformers (ViTs) have the following properties: (1)
CL trains self-attentions to capture longer-range global patterns than MIM,
such as the shape of an object, especially in the later layers of the ViT
architecture. This CL property helps ViTs linearly separate images in their
representation spaces. However, it also makes the self-attentions collapse into
homogeneity for all query tokens and heads. Such homogeneity of self-attention
reduces the diversity of representations, worsening scalability and dense
prediction performance. (2) CL utilizes the low-frequency signals of the
representations, but MIM utilizes high-frequencies. Since low- and
high-frequency information respectively represent shapes and textures, CL is
more shape-oriented and MIM more texture-oriented. (3) CL plays a crucial role
in the later layers, while MIM mainly focuses on the early layers. Upon these
analyses, we find that CL and MIM can complement each other and observe that
even the simplest harmonization can help leverage the advantages of both
methods. The code is available at https://github.com/naver-ai/cl-vs-mim.
- Abstract(参考訳): 本稿では, コントラスト学習 (cl) とマスキング画像モデリング (mim) が, それらの表現と下流課題の性能にどのように異なるか, 比較研究を行う。
特に, 自己監督型視覚変換器(ViT)は, (1) CLはオブジェクトの形状, 特にViTアーキテクチャの後期層において, MIM よりも長距離なグローバルなパターンをキャプチャするための自己注意を訓練する。
このCL特性は、ViTが表現空間内の画像を線形に分離するのに役立つ。
しかし、これはまた、全てのクエリトークンとヘッドの自己アテンションを均質にする。
このような自己注意の均一性は表現の多様性を減らし、スケーラビリティと密接な予測性能を悪化させる。
2) CLは表現の低周波信号を利用するが,MIMは高周波信号を使用する。
低周波情報と高周波情報はそれぞれ形状とテクスチャを表すため、CLはより形状指向であり、MIMはよりテクスチャ指向である。
3) clは後期層において重要な役割を果たすが,mimは主に初期層に注目している。
これらの分析の結果、CLとMIMは相互に補完し、最も単純な調和でも両方の手法の利点を活用できることがわかった。
コードはhttps://github.com/naver-ai/cl-vs-mimで入手できる。
関連論文リスト
- Beyond [cls]: Exploring the true potential of Masked Image Modeling representations [10.800240155402417]
Masked Image Modeling (MIM) は視覚表現の自己監督学習(SSL)の一般的な手法として登場した。
ハイレベルな知覚タスクのために、MIMが事前訓練したモデルは、JEA(Joint-Embedding Architectures)よりも低品質のアウト・オブ・ボックス表現を提供する。
JEAが関連する画像断片の集合上に表現を構築するのに対して、MIMモデルは、ほぼ全ての画像コンテンツを集約する。
論文 参考訳(メタデータ) (2024-12-04T11:08:32Z) - KNN Transformer with Pyramid Prompts for Few-Shot Learning [52.735070934075736]
Few-Shot Learningはラベル付きデータで新しいクラスを認識することを目的としている。
近年の研究では、視覚的特徴を調節するためのテキストプロンプトを用いたまれなサンプルの課題に対処しようと試みている。
論文 参考訳(メタデータ) (2024-10-14T07:39:30Z) - A Theoretical Analysis of Self-Supervised Learning for Vision Transformers [66.08606211686339]
マスク付きオートエンコーダ(MAE)とコントラスト学習(CL)は異なる種類の表現をキャプチャする。
我々は,MAEとCLの両目的に対して,一層ソフトマックス型視覚変換器(ViT)のトレーニングダイナミクスについて検討した。
論文 参考訳(メタデータ) (2024-03-04T17:24:03Z) - Morphing Tokens Draw Strong Masked Image Models [28.356863521946607]
Masked Image Modeling (MIM) はビジョントランスフォーマー(ViT)のトレーニングに有望なアプローチとして登場した。
本稿では,動的トークンを動的に集約し,コンテキスト化された目標を出力する動的トーケンモーフィング(DTM)という,新たな自己超越信号を導入する。
DTMはさまざまなSSLフレームワークと互換性があり、DTMを採用することで改善されたMIM結果を示します。
論文 参考訳(メタデータ) (2023-12-30T14:53:09Z) - A Close Look at Spatial Modeling: From Attention to Convolution [70.5571582194057]
ビジョントランスフォーマーは最近、洞察に富んだアーキテクチャ設計とアテンションメカニズムのために、多くのビジョンタスクに対して大きな約束をしました。
我々は、自己意図の定式化を一般化し、クエリ非関連なグローバルコンテキストを直接抽象化し、グローバルコンテキストを畳み込みに統合する。
FCViT-S12は14M未満のパラメータを持つため、ImageNet-1K上でのResT-Liteの精度は3.7%向上した。
論文 参考訳(メタデータ) (2022-12-23T19:13:43Z) - CAE v2: Context Autoencoder with CLIP Target [63.61868058214267]
マスク付き画像モデリング(MIM)は、画像パッチのマスキングと再構成によって視覚表現を学習する。
再建管理をCLIP表現に適用することはMIMに有効であることが証明されている。
CLIPをターゲットとしたMIMの精製戦略を検討するため,MIMにおける2つの重要な要素,すなわち,監督位置とマスク比について検討した。
論文 参考訳(メタデータ) (2022-11-17T18:58:33Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - Do Vision Transformers See Like Convolutional Neural Networks? [45.69780772718875]
近年の研究では、画像分類タスクにおいて、(Vision) Transformer Model (ViT) が同等またはそれ以上の性能を達成できることが示されている。
畳み込みネットワークのように振る舞うのか、それとも全く異なる視覚表現を学ぶのか?
例えば、ViTはすべての層にわたってより均一な表現を持つ。
論文 参考訳(メタデータ) (2021-08-19T17:27:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。