論文の概要: What Do Self-Supervised Vision Transformers Learn?
- arxiv url: http://arxiv.org/abs/2305.00729v1
- Date: Mon, 1 May 2023 09:12:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-02 13:31:58.661168
- Title: What Do Self-Supervised Vision Transformers Learn?
- Title(参考訳): 自己監督型ビジョントランスフォーマーは何を学べるか?
- Authors: Namuk Park, Wonjae Kim, Byeongho Heo, Taekyung Kim, Sangdoo Yun
- Abstract要約: 比較学習 (CL) とマスク画像モデリング (MIM) が下流タスクの表現や性能にどのように異なるかを示す。
CLとMIMは相互に補完し、最も単純なものでさえ両方の手法の利点を活用できることを観察する。
- 参考スコア(独自算出の注目度): 29.284786316215918
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a comparative study on how and why contrastive learning (CL) and
masked image modeling (MIM) differ in their representations and in their
performance of downstream tasks. In particular, we demonstrate that
self-supervised Vision Transformers (ViTs) have the following properties: (1)
CL trains self-attentions to capture longer-range global patterns than MIM,
such as the shape of an object, especially in the later layers of the ViT
architecture. This CL property helps ViTs linearly separate images in their
representation spaces. However, it also makes the self-attentions collapse into
homogeneity for all query tokens and heads. Such homogeneity of self-attention
reduces the diversity of representations, worsening scalability and dense
prediction performance. (2) CL utilizes the low-frequency signals of the
representations, but MIM utilizes high-frequencies. Since low- and
high-frequency information respectively represent shapes and textures, CL is
more shape-oriented and MIM more texture-oriented. (3) CL plays a crucial role
in the later layers, while MIM mainly focuses on the early layers. Upon these
analyses, we find that CL and MIM can complement each other and observe that
even the simplest harmonization can help leverage the advantages of both
methods. The code is available at https://github.com/naver-ai/cl-vs-mim.
- Abstract(参考訳): 本稿では, コントラスト学習 (cl) とマスキング画像モデリング (mim) が, それらの表現と下流課題の性能にどのように異なるか, 比較研究を行う。
特に, 自己監督型視覚変換器(ViT)は, (1) CLはオブジェクトの形状, 特にViTアーキテクチャの後期層において, MIM よりも長距離なグローバルなパターンをキャプチャするための自己注意を訓練する。
このCL特性は、ViTが表現空間内の画像を線形に分離するのに役立つ。
しかし、これはまた、全てのクエリトークンとヘッドの自己アテンションを均質にする。
このような自己注意の均一性は表現の多様性を減らし、スケーラビリティと密接な予測性能を悪化させる。
2) CLは表現の低周波信号を利用するが,MIMは高周波信号を使用する。
低周波情報と高周波情報はそれぞれ形状とテクスチャを表すため、CLはより形状指向であり、MIMはよりテクスチャ指向である。
3) clは後期層において重要な役割を果たすが,mimは主に初期層に注目している。
これらの分析の結果、CLとMIMは相互に補完し、最も単純な調和でも両方の手法の利点を活用できることがわかった。
コードはhttps://github.com/naver-ai/cl-vs-mimで入手できる。
関連論文リスト
- KNN Transformer with Pyramid Prompts for Few-Shot Learning [52.735070934075736]
Few-Shot Learningはラベル付きデータで新しいクラスを認識することを目的としている。
近年の研究では、視覚的特徴を調節するためのテキストプロンプトを用いたまれなサンプルの課題に対処しようと試みている。
論文 参考訳(メタデータ) (2024-10-14T07:39:30Z) - SemanticMIM: Marring Masked Image Modeling with Semantics Compression for General Visual Representation [13.013776924941205]
SemanticMIMは、一般的な視覚表現のためのマスク付き画像モデリング(MIM)とコントラスト学習(CL)の利点を統合するためのフレームワークである。
我々はCLとMIMの徹底的な比較分析を行い、それらの相補的優位性は2つの相、すなわち圧縮と再構成から生じることを明らかにした。
我々は,SemanticMIMがCLとMIMの利点を効果的に実現し,性能と特徴線形分離性を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2024-06-15T15:39:32Z) - MIM-Refiner: A Contrastive Learning Boost from Intermediate Pre-Trained Representations [16.885965702357314]
MIM-Refinerは、事前訓練されたMIMモデルの対照的な学習促進である。
我々はMIMモデルの特徴を、サブパーから最先端のオフ・ザ・シェルフ機能まで洗練する。
論文 参考訳(メタデータ) (2024-02-15T16:46:16Z) - Morphing Tokens Draw Strong Masked Image Models [28.356863521946607]
Masked Image Modeling (MIM) はビジョントランスフォーマー(ViT)のトレーニングに有望なアプローチとして登場した。
本稿では,動的トークンを動的に集約し,コンテキスト化された目標を出力する動的トーケンモーフィング(DTM)という,新たな自己超越信号を導入する。
DTMはさまざまなSSLフレームワークと互換性があり、DTMを採用することで改善されたMIM結果を示します。
論文 参考訳(メタデータ) (2023-12-30T14:53:09Z) - A Close Look at Spatial Modeling: From Attention to Convolution [70.5571582194057]
ビジョントランスフォーマーは最近、洞察に富んだアーキテクチャ設計とアテンションメカニズムのために、多くのビジョンタスクに対して大きな約束をしました。
我々は、自己意図の定式化を一般化し、クエリ非関連なグローバルコンテキストを直接抽象化し、グローバルコンテキストを畳み込みに統合する。
FCViT-S12は14M未満のパラメータを持つため、ImageNet-1K上でのResT-Liteの精度は3.7%向上した。
論文 参考訳(メタデータ) (2022-12-23T19:13:43Z) - CAE v2: Context Autoencoder with CLIP Target [63.61868058214267]
マスク付き画像モデリング(MIM)は、画像パッチのマスキングと再構成によって視覚表現を学習する。
再建管理をCLIP表現に適用することはMIMに有効であることが証明されている。
CLIPをターゲットとしたMIMの精製戦略を検討するため,MIMにおける2つの重要な要素,すなわち,監督位置とマスク比について検討した。
論文 参考訳(メタデータ) (2022-11-17T18:58:33Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - Siamese Image Modeling for Self-Supervised Vision Representation
Learning [73.78790119050056]
自己教師付き学習(SSL)は、さまざまな下流視覚タスクにおいて優れたパフォーマンスを提供している。
2つのメインストリームSSLフレームワーク、すなわちインスタンス識別(ID)とマスク画像モデリング(MIM)が提案されている。
本稿では,拡張ビューの濃密な表現を予測できるSiamese Image Modeling (SIM)を提案する。
論文 参考訳(メタデータ) (2022-06-02T17:59:58Z) - Do Vision Transformers See Like Convolutional Neural Networks? [45.69780772718875]
近年の研究では、画像分類タスクにおいて、(Vision) Transformer Model (ViT) が同等またはそれ以上の性能を達成できることが示されている。
畳み込みネットワークのように振る舞うのか、それとも全く異なる視覚表現を学ぶのか?
例えば、ViTはすべての層にわたってより均一な表現を持つ。
論文 参考訳(メタデータ) (2021-08-19T17:27:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。