Fugu-MT 論文翻訳(概要): What Do Self-Supervised Vision Transformers Learn?

論文の概要: What Do Self-Supervised Vision Transformers Learn?

arxiv url: http://arxiv.org/abs/2305.00729v1
Date: Mon, 1 May 2023 09:12:30 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-02 13:31:58.661168
Title: What Do Self-Supervised Vision Transformers Learn?
Title（参考訳）: 自己監督型ビジョントランスフォーマーは何を学べるか?
Authors: Namuk Park, Wonjae Kim, Byeongho Heo, Taekyung Kim, Sangdoo Yun
Abstract要約: 比較学習 (CL) とマスク画像モデリング (MIM) が下流タスクの表現や性能にどのように異なるかを示す。 CLとMIMは相互に補完し、最も単純なものでさえ両方の手法の利点を活用できることを観察する。
参考スコア（独自算出の注目度）: 29.284786316215918
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present a comparative study on how and why contrastive learning (CL) and masked image modeling (MIM) differ in their representations and in their performance of downstream tasks. In particular, we demonstrate that self-supervised Vision Transformers (ViTs) have the following properties: (1) CL trains self-attentions to capture longer-range global patterns than MIM, such as the shape of an object, especially in the later layers of the ViT architecture. This CL property helps ViTs linearly separate images in their representation spaces. However, it also makes the self-attentions collapse into homogeneity for all query tokens and heads. Such homogeneity of self-attention reduces the diversity of representations, worsening scalability and dense prediction performance. (2) CL utilizes the low-frequency signals of the representations, but MIM utilizes high-frequencies. Since low- and high-frequency information respectively represent shapes and textures, CL is more shape-oriented and MIM more texture-oriented. (3) CL plays a crucial role in the later layers, while MIM mainly focuses on the early layers. Upon these analyses, we find that CL and MIM can complement each other and observe that even the simplest harmonization can help leverage the advantages of both methods. The code is available at https://github.com/naver-ai/cl-vs-mim.
Abstract（参考訳）: 本稿では, コントラスト学習 (cl) とマスキング画像モデリング (mim) が, それらの表現と下流課題の性能にどのように異なるか, 比較研究を行う。特に, 自己監督型視覚変換器(ViT)は, (1) CLはオブジェクトの形状, 特にViTアーキテクチャの後期層において, MIM よりも長距離なグローバルなパターンをキャプチャするための自己注意を訓練する。このCL特性は、ViTが表現空間内の画像を線形に分離するのに役立つ。しかし、これはまた、全てのクエリトークンとヘッドの自己アテンションを均質にする。このような自己注意の均一性は表現の多様性を減らし、スケーラビリティと密接な予測性能を悪化させる。 2) CLは表現の低周波信号を利用するが,MIMは高周波信号を使用する。低周波情報と高周波情報はそれぞれ形状とテクスチャを表すため、CLはより形状指向であり、MIMはよりテクスチャ指向である。 3) clは後期層において重要な役割を果たすが,mimは主に初期層に注目している。これらの分析の結果、CLとMIMは相互に補完し、最も単純な調和でも両方の手法の利点を活用できることがわかった。コードはhttps://github.com/naver-ai/cl-vs-mimで入手できる。

関連論文リスト

Emergent musical properties of a transformer under contrastive self-supervised learning [8.007443439979944]
時間周波数領域の1次元パッチで視覚変換器を訓練する。ウェイトシェアリングにより、VT-1Dのシーケンストークンに情報的音楽特性が出現する可能性があることを観察する。本論文は,パフォーマンス向上ではなく,変圧器の音楽解釈の進歩に焦点をあてる。
論文参考訳（メタデータ） (2025-06-30T14:04:59Z)
KNN Transformer with Pyramid Prompts for Few-Shot Learning [52.735070934075736]
Few-Shot Learningはラベル付きデータで新しいクラスを認識することを目的としている。近年の研究では、視覚的特徴を調節するためのテキストプロンプトを用いたまれなサンプルの課題に対処しようと試みている。
論文参考訳（メタデータ） (2024-10-14T07:39:30Z)
SemanticMIM: Marring Masked Image Modeling with Semantics Compression for General Visual Representation [13.013776924941205]
SemanticMIMは、一般的な視覚表現のためのマスク付き画像モデリング(MIM)とコントラスト学習(CL)の利点を統合するためのフレームワークである。我々はCLとMIMの徹底的な比較分析を行い、それらの相補的優位性は2つの相、すなわち圧縮と再構成から生じることを明らかにした。我々は,SemanticMIMがCLとMIMの利点を効果的に実現し,性能と特徴線形分離性を大幅に向上させることを示した。
論文参考訳（メタデータ） (2024-06-15T15:39:32Z)
A Theoretical Analysis of Self-Supervised Learning for Vision Transformers [66.08606211686339]
マスク付きオートエンコーダ(MAE)とコントラスト学習(CL)は異なる種類の表現をキャプチャする。我々は,MAEとCLの両目的に対して,一層ソフトマックス型視覚変換器(ViT)のトレーニングダイナミクスについて検討した。
論文参考訳（メタデータ） (2024-03-04T17:24:03Z)
MIM-Refiner: A Contrastive Learning Boost from Intermediate Pre-Trained Representations [16.885965702357314]
MIM-Refinerは、事前訓練されたMIMモデルの対照的な学習促進である。我々はMIMモデルの特徴を、サブパーから最先端のオフ・ザ・シェルフ機能まで洗練する。
論文参考訳（メタデータ） (2024-02-15T16:46:16Z)
Morphing Tokens Draw Strong Masked Image Models [28.356863521946607]
Masked Image Modeling (MIM) はビジョントランスフォーマー(ViT)のトレーニングに有望なアプローチとして登場した。本稿では,動的トークンを動的に集約し,コンテキスト化された目標を出力する動的トーケンモーフィング(DTM)という,新たな自己超越信号を導入する。 DTMはさまざまなSSLフレームワークと互換性があり、DTMを採用することで改善されたMIM結果を示します。
論文参考訳（メタデータ） (2023-12-30T14:53:09Z)
A Close Look at Spatial Modeling: From Attention to Convolution [70.5571582194057]
ビジョントランスフォーマーは最近、洞察に富んだアーキテクチャ設計とアテンションメカニズムのために、多くのビジョンタスクに対して大きな約束をしました。我々は、自己意図の定式化を一般化し、クエリ非関連なグローバルコンテキストを直接抽象化し、グローバルコンテキストを畳み込みに統合する。 FCViT-S12は14M未満のパラメータを持つため、ImageNet-1K上でのResT-Liteの精度は3.7%向上した。
論文参考訳（メタデータ） (2022-12-23T19:13:43Z)
CAE v2: Context Autoencoder with CLIP Target [63.61868058214267]
マスク付き画像モデリング(MIM)は、画像パッチのマスキングと再構成によって視覚表現を学習する。再建管理をCLIP表現に適用することはMIMに有効であることが証明されている。 CLIPをターゲットとしたMIMの精製戦略を検討するため,MIMにおける2つの重要な要素,すなわち,監督位置とマスク比について検討した。
論文参考訳（メタデータ） (2022-11-17T18:58:33Z)
Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文参考訳（メタデータ） (2022-07-19T15:49:35Z)
Siamese Image Modeling for Self-Supervised Vision Representation Learning [73.78790119050056]
自己教師付き学習(SSL)は、さまざまな下流視覚タスクにおいて優れたパフォーマンスを提供している。 2つのメインストリームSSLフレームワーク、すなわちインスタンス識別(ID)とマスク画像モデリング(MIM)が提案されている。本稿では,拡張ビューの濃密な表現を予測できるSiamese Image Modeling (SIM)を提案する。
論文参考訳（メタデータ） (2022-06-02T17:59:58Z)
Do Vision Transformers See Like Convolutional Neural Networks? [45.69780772718875]
近年の研究では、画像分類タスクにおいて、(Vision) Transformer Model (ViT) が同等またはそれ以上の性能を達成できることが示されている。畳み込みネットワークのように振る舞うのか、それとも全く異なる視覚表現を学ぶのか? 例えば、ViTはすべての層にわたってより均一な表現を持つ。
論文参考訳（メタデータ） (2021-08-19T17:27:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。