論文の概要: Beyond [cls]: Exploring the true potential of Masked Image Modeling representations
- arxiv url: http://arxiv.org/abs/2412.03215v1
- Date: Wed, 04 Dec 2024 11:08:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 21:42:00.637686
- Title: Beyond [cls]: Exploring the true potential of Masked Image Modeling representations
- Title(参考訳): Beyond [cls]: Masked Image Modeling Expressionsの真の可能性を探る
- Authors: Marcin Przewięźlikowski, Randall Balestriero, Wojciech Jasiński, Marek Śmieja, Bartosz Zieliński,
- Abstract要約: Masked Image Modeling (MIM) は視覚表現の自己監督学習(SSL)の一般的な手法として登場した。
ハイレベルな知覚タスクのために、MIMが事前訓練したモデルは、JEA(Joint-Embedding Architectures)よりも低品質のアウト・オブ・ボックス表現を提供する。
JEAが関連する画像断片の集合上に表現を構築するのに対して、MIMモデルは、ほぼ全ての画像コンテンツを集約する。
- 参考スコア(独自算出の注目度): 10.800240155402417
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked Image Modeling (MIM) has emerged as a popular method for Self-Supervised Learning (SSL) of visual representations. However, for high-level perception tasks, MIM-pretrained models offer lower out-of-the-box representation quality than the Joint-Embedding Architectures (JEA) - another prominent SSL paradigm. To understand this performance gap, we analyze the information flow in Vision Transformers (ViT) learned by both approaches. We reveal that whereas JEAs construct their representation on a selected set of relevant image fragments, MIM models aggregate nearly whole image content. Moreover, we demonstrate that MIM-trained ViTs retain valuable information within their patch tokens, which is not effectively captured by the global [cls] token representations. Therefore, selective aggregation of relevant patch tokens, without any fine-tuning, results in consistently higher-quality of MIM representations. To our knowledge, we are the first to highlight the lack of effective representation aggregation as an emergent issue of MIM and propose directions to address it, contributing to future advances in Self-Supervised Learning.
- Abstract(参考訳): Masked Image Modeling (MIM) は視覚表現の自己監督学習(SSL)の一般的な手法として登場した。
しかし、ハイレベルな認識タスクでは、MIMが推奨するモデルは、別の注目すべきSSLパラダイムであるJEA(Joint-Embedding Architectures)よりも、アウト・オブ・ボックスの表現品質が低い。
この性能ギャップを理解するため,両手法で学習した視覚変換器(ViT)の情報フローを解析した。
JEAが関連する画像断片の集合上に表現を構築するのに対して、MIMモデルは、ほぼ全ての画像コンテンツを集約する。
さらに,MIMでトレーニングしたViTが,グローバルな[cls]トークン表現によって効果的にキャプチャされないパッチトークン内に貴重な情報を保持することを示す。
したがって、関連するパッチトークンの選択的アグリゲーションは微調整なしで、MIM表現の質が一貫して向上する。
我々の知る限り、我々はMIMの創発的な課題として効果的な表現集約の欠如を強調し、それに対応するための方向性を提案し、今後の自己指導型学習の進歩に寄与する。
関連論文リスト
- Semantic Alignment for Multimodal Large Language Models [72.10272479476161]
多モード大言語モデル(SAM)のセマンティックアライメントについて紹介する。
画像間の双方向的意味指導を視覚的・視覚的抽出プロセスに組み込むことにより,コヒーレント解析のためのリンク情報の保存性を高めることを目的とする。
画像間の双方向的意味指導を視覚的・視覚的抽出プロセスに組み込むことにより,コヒーレント解析のためのリンク情報の保存性を高めることを目的とする。
論文 参考訳(メタデータ) (2024-08-23T06:48:46Z) - Towards Latent Masked Image Modeling for Self-Supervised Visual Representation Learning [18.424840375721303]
Masked Image Modeling (MIM) は、画像のマスク部分から失明画素を予測することで、ラベルのない画像データから視覚表現を導出するための有望な方法として登場した。
有望だが実現不可能なフレームワークは、MIMの局所性と高レベルな目標を組み合わせ、潜在空間におけるマスク付き再構成を通して表現を学習することである。
この研究は、このようなフレームワークの課題を徹底的に分析し、対処する最初の試みの一つであり、このフレームワークはLatent MIMと呼ばれている。
論文 参考訳(メタデータ) (2024-07-22T17:54:41Z) - On the Role of Discrete Tokenization in Visual Representation Learning [35.10829554701771]
マスク付き画像モデリング (MIM) は, 対照的な学習手法とともに人気を博している。
個別のトークンは 再建の標的だが この選択の理論的基盤は 未解明のままだ
離散トークン化がモデルの一般化能力にどのように影響するかを包括的に理論的に理解する。
我々は,MIMフレームワーク内の離散トークンの有効性を評価するために,TCASという新しいメトリクスを提案する。
論文 参考訳(メタデータ) (2024-07-12T08:25:31Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception [66.88792390480343]
本稿では,拡散モデルの生成的フィードバックを利用して画像エンコーダのセマンティックな分布を整合させる,シンプルだが効果的なアプローチであるDEEMを提案する。
DEEMは、トレーニング可能なパラメータが少なく、事前学習データが少なく、ベースモデルのサイズが小さいことを利用して、モデル幻覚を軽減するために、強化された堅牢性と優れた能力を示す。
論文 参考訳(メタデータ) (2024-05-24T05:46:04Z) - Semantics-enhanced Cross-modal Masked Image Modeling for Vision-Language
Pre-training [87.69394953339238]
Masked Image Modeling (MIM) が最近導入され、細粒度のクロスモーダルアライメントを実現している。
視覚言語表現学習のためのセマンティクス強化クロスモーダルMIMフレームワーク(SemMIM)を提案する。
論文 参考訳(メタデータ) (2024-03-01T03:25:58Z) - MIM-Refiner: A Contrastive Learning Boost from Intermediate Pre-Trained Representations [16.885965702357314]
MIM-Refinerは、事前訓練されたMIMモデルの対照的な学習促進である。
我々はMIMモデルの特徴を、サブパーから最先端のオフ・ザ・シェルフ機能まで洗練する。
論文 参考訳(メタデータ) (2024-02-15T16:46:16Z) - Morphing Tokens Draw Strong Masked Image Models [28.356863521946607]
Masked Image Modeling (MIM) はビジョントランスフォーマー(ViT)のトレーニングに有望なアプローチとして登場した。
本稿では,動的トークンを動的に集約し,コンテキスト化された目標を出力する動的トーケンモーフィング(DTM)という,新たな自己超越信号を導入する。
DTMはさまざまなSSLフレームワークと互換性があり、DTMを採用することで改善されたMIM結果を示します。
論文 参考訳(メタデータ) (2023-12-30T14:53:09Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - Revisiting Multimodal Representation in Contrastive Learning: From Patch
and Token Embeddings to Finite Discrete Tokens [76.40196364163663]
本稿では,CLIPのような学習型視覚言語事前学習手法を提案する。
提案手法は,より包括的な表現を学習し,意味のある相互対応を捉えることができることを示す。
論文 参考訳(メタデータ) (2023-03-27T00:58:39Z) - Masked Image Modeling with Local Multi-Scale Reconstruction [54.91442074100597]
Masked Image Modeling (MIM) は自己教師付き表現学習において顕著な成功を収めている。
既存のMIMモデルはエンコーダの最上層でのみ再構成タスクを実行する。
そこで我々は,下層と上層がそれぞれ微細かつ粗大な監視信号を再構成する局所的マルチスケール再構成を設計する。
論文 参考訳(メタデータ) (2023-03-09T13:42:04Z) - CAE v2: Context Autoencoder with CLIP Target [63.61868058214267]
マスク付き画像モデリング(MIM)は、画像パッチのマスキングと再構成によって視覚表現を学習する。
再建管理をCLIP表現に適用することはMIMに有効であることが証明されている。
CLIPをターゲットとしたMIMの精製戦略を検討するため,MIMにおける2つの重要な要素,すなわち,監督位置とマスク比について検討した。
論文 参考訳(メタデータ) (2022-11-17T18:58:33Z) - Revealing the Dark Secrets of Masked Image Modeling [25.221516344869805]
事前学習としてのマスク付き画像モデリング(MIM)は、多くの視線下流タスクに有効であることが示されているが、どのように、どこでMIMが機能するのかは定かではない。
本稿では,MIMと長大な教師付き事前学習モデルを比較し,可視化と実験を行った。
MIMは、トレーニングされたモデルのすべての層に局所性誘導バイアスをもたらすが、教師付きモデルは、より低い層に局所的に集中する傾向にある。
論文 参考訳(メタデータ) (2022-05-26T17:59:49Z) - Beyond Masking: Demystifying Token-Based Pre-Training for Vision
Transformers [122.01591448013977]
Masked Image Modeling (MIM) は下流タスクにおいて有望な結果を示した。
本稿では,欠落した内容を回復して学習する効果的な方法があるかどうかを考察する。
我々は、トークンベースのビジョントランスフォーマーの事前トレーニングに関するいくつかの設計原則を要約する。
この設計は、余分な計算コストを伴わない一連の下流認識タスクにおいて、MIMよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-03-27T14:23:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。