論文の概要: What Do Self-Supervised Vision Transformers Learn?
- arxiv url: http://arxiv.org/abs/2305.00729v1
- Date: Mon, 1 May 2023 09:12:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-02 13:31:58.661168
- Title: What Do Self-Supervised Vision Transformers Learn?
- Title(参考訳): 自己監督型ビジョントランスフォーマーは何を学べるか?
- Authors: Namuk Park, Wonjae Kim, Byeongho Heo, Taekyung Kim, Sangdoo Yun
- Abstract要約: 比較学習 (CL) とマスク画像モデリング (MIM) が下流タスクの表現や性能にどのように異なるかを示す。
CLとMIMは相互に補完し、最も単純なものでさえ両方の手法の利点を活用できることを観察する。
- 参考スコア(独自算出の注目度): 29.284786316215918
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a comparative study on how and why contrastive learning (CL) and
masked image modeling (MIM) differ in their representations and in their
performance of downstream tasks. In particular, we demonstrate that
self-supervised Vision Transformers (ViTs) have the following properties: (1)
CL trains self-attentions to capture longer-range global patterns than MIM,
such as the shape of an object, especially in the later layers of the ViT
architecture. This CL property helps ViTs linearly separate images in their
representation spaces. However, it also makes the self-attentions collapse into
homogeneity for all query tokens and heads. Such homogeneity of self-attention
reduces the diversity of representations, worsening scalability and dense
prediction performance. (2) CL utilizes the low-frequency signals of the
representations, but MIM utilizes high-frequencies. Since low- and
high-frequency information respectively represent shapes and textures, CL is
more shape-oriented and MIM more texture-oriented. (3) CL plays a crucial role
in the later layers, while MIM mainly focuses on the early layers. Upon these
analyses, we find that CL and MIM can complement each other and observe that
even the simplest harmonization can help leverage the advantages of both
methods. The code is available at https://github.com/naver-ai/cl-vs-mim.
- Abstract(参考訳): 本稿では, コントラスト学習 (cl) とマスキング画像モデリング (mim) が, それらの表現と下流課題の性能にどのように異なるか, 比較研究を行う。
特に, 自己監督型視覚変換器(ViT)は, (1) CLはオブジェクトの形状, 特にViTアーキテクチャの後期層において, MIM よりも長距離なグローバルなパターンをキャプチャするための自己注意を訓練する。
このCL特性は、ViTが表現空間内の画像を線形に分離するのに役立つ。
しかし、これはまた、全てのクエリトークンとヘッドの自己アテンションを均質にする。
このような自己注意の均一性は表現の多様性を減らし、スケーラビリティと密接な予測性能を悪化させる。
2) CLは表現の低周波信号を利用するが,MIMは高周波信号を使用する。
低周波情報と高周波情報はそれぞれ形状とテクスチャを表すため、CLはより形状指向であり、MIMはよりテクスチャ指向である。
3) clは後期層において重要な役割を果たすが,mimは主に初期層に注目している。
これらの分析の結果、CLとMIMは相互に補完し、最も単純な調和でも両方の手法の利点を活用できることがわかった。
コードはhttps://github.com/naver-ai/cl-vs-mimで入手できる。
関連論文リスト
- Masked Image Modeling as a Framework for Self-Supervised Learning across Eye Movements [0.624151172311885]
本稿では,視覚情報を予測し,提示する自己指導型作業として,眼球運動が重要であることを提案する。
マスキング技術やデータ拡張といったMIMのコアコンポーネントが,カテゴリ固有の表現の形成にどのように影響するかを分析する。
我々はMIMがニューロンを潜伏空間でアンタングルし,その特性が霊長類における視覚的表現を明示的制御なしで構築することが示唆された。
論文 参考訳(メタデータ) (2024-04-12T15:15:39Z) - Morphing Tokens Draw Strong Masked Image Models [28.356863521946607]
Masked Image Modeling (MIM)は、ビジョントランスフォーマーをトレーニングするための有望なオプションである。
DTM(Dynamic Token Morphing)と呼ばれる新しい自己超越信号を導入する。
DTMはコンテキスト関連トークンを動的に集約し、コンテキスト化ターゲットを生成する。
論文 参考訳(メタデータ) (2023-12-30T14:53:09Z) - Layer Grafted Pre-training: Bridging Contrastive Learning And Masked
Image Modeling For Label-Efficient Representations [130.05189514598996]
Mask Image Modeling (MIM) と Contrastive Learning (CL) は、自己超越が優れた表現を学ぶのに強力であることを示した。
本稿では,CLとMIMの損失の簡易な共同最適化が,矛盾する勾配方向を導いた経験的観察を行う。
実験により,MIMとCLは下層と上層にそれぞれ適していることがわかった。
初期のレイヤはまず1つのMIM損失の下でトレーニングされ、その上に、後者のレイヤは別のCL損失の下でトレーニングされ続けます。
論文 参考訳(メタデータ) (2023-02-27T20:52:10Z) - A Close Look at Spatial Modeling: From Attention to Convolution [70.5571582194057]
ビジョントランスフォーマーは最近、洞察に富んだアーキテクチャ設計とアテンションメカニズムのために、多くのビジョンタスクに対して大きな約束をしました。
我々は、自己意図の定式化を一般化し、クエリ非関連なグローバルコンテキストを直接抽象化し、グローバルコンテキストを畳み込みに統合する。
FCViT-S12は14M未満のパラメータを持つため、ImageNet-1K上でのResT-Liteの精度は3.7%向上した。
論文 参考訳(メタデータ) (2022-12-23T19:13:43Z) - CAE v2: Context Autoencoder with CLIP Target [63.61868058214267]
マスク付き画像モデリング(MIM)は、画像パッチのマスキングと再構成によって視覚表現を学習する。
再建管理をCLIP表現に適用することはMIMに有効であることが証明されている。
CLIPをターゲットとしたMIMの精製戦略を検討するため,MIMにおける2つの重要な要素,すなわち,監督位置とマスク比について検討した。
論文 参考訳(メタデータ) (2022-11-17T18:58:33Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [144.38869017091199]
画像分類における視覚変換器(ViT)は、視覚表現学習の方法論をシフトさせている。
本研究では、高密度視覚予測のためのVTのグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - Siamese Image Modeling for Self-Supervised Vision Representation
Learning [73.78790119050056]
自己教師付き学習(SSL)は、さまざまな下流視覚タスクにおいて優れたパフォーマンスを提供している。
2つのメインストリームSSLフレームワーク、すなわちインスタンス識別(ID)とマスク画像モデリング(MIM)が提案されている。
本稿では,拡張ビューの濃密な表現を予測できるSiamese Image Modeling (SIM)を提案する。
論文 参考訳(メタデータ) (2022-06-02T17:59:58Z) - Do Vision Transformers See Like Convolutional Neural Networks? [45.69780772718875]
近年の研究では、画像分類タスクにおいて、(Vision) Transformer Model (ViT) が同等またはそれ以上の性能を達成できることが示されている。
畳み込みネットワークのように振る舞うのか、それとも全く異なる視覚表現を学ぶのか?
例えば、ViTはすべての層にわたってより均一な表現を持つ。
論文 参考訳(メタデータ) (2021-08-19T17:27:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。