論文の概要: Learning with Unmasked Tokens Drives Stronger Vision Learners
- arxiv url: http://arxiv.org/abs/2310.13593v3
- Date: Sat, 24 Aug 2024 08:46:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-28 00:57:20.345528
- Title: Learning with Unmasked Tokens Drives Stronger Vision Learners
- Title(参考訳): 未知のトークンによる学習は、より強力な視力学習者を駆り立てる
- Authors: Taekyung Kim, Sanghyuk Chun, Byeongho Heo, Dongyoon Han,
- Abstract要約: マスク付き画像モデリング(MIM)は,自己指導型学習戦略の先駆けとなる。
トレーニングプロセスに不正トークンを明示的に組み込むことでMIMを改善する。
ImageNet-1Kでは、VT-Bで84.2%の精度を実現し、0.6%のゲインを得た。
- 参考スコア(独自算出の注目度): 39.752789949834536
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Masked image modeling (MIM) has become a leading self-supervised learning strategy. MIMs such as Masked Autoencoder (MAE) learn strong representations by randomly masking input tokens for the encoder to process, with the decoder reconstructing the masked tokens to the input. However, MIM pre-trained encoders often exhibit a limited attention span, attributed to MIM's sole focus on regressing masked tokens only, which may impede the encoder's broader context learning. To tackle the limitation, we improve MIM by explicitly incorporating unmasked tokens into the training process. Specifically, our method enables the encoder to learn from broader context supervision, allowing unmasked tokens to experience broader contexts while the decoder reconstructs masked tokens. Thus, the encoded unmasked tokens are equipped with extensive contextual information, empowering masked tokens to leverage the enhanced unmasked tokens for MIM. As a result, our simple remedy trains more discriminative representations revealed by achieving 84.2% top-1 accuracy with ViT-B on ImageNet-1K with 0.6%p gain. We attribute the success to the enhanced pre-training method, as evidenced by the singular value spectrum and attention analyses. Finally, our models achieve significant performance gains at the downstream semantic segmentation and fine-grained visual classification tasks; and on diverse robust evaluation metrics. Code is available at https://github.com/naver-ai/lut
- Abstract(参考訳): マスク付き画像モデリング(MIM)は,自己指導型学習戦略の先駆けとなる。
Masked Autoencoder (MAE) のようなMIMは、入力トークンをランダムにマスキングして処理し、デコーダが入力にマスクされたトークンを再構成することで、強力な表現を学ぶ。
しかし、MIM事前訓練エンコーダは、マスク付きトークンのみを回帰することにのみ焦点をあてているため、限られた注意幅を持つことが多いため、エンコーダのより広範な文脈学習を阻害する可能性がある。
この制限に対処するため、トレーニングプロセスに無意味なトークンを明示的に組み込むことによりMIMを改善する。
具体的には,デコーダがマスク付きトークンを再構成している間に,アンマスク付きトークンが広いコンテキストを体験できるようにする。
このように、符号化されたアンマスクトークンは、広範囲なコンテキスト情報を備えており、マスクされたトークンはMIMの強化されたアンマスクトークンを利用することができる。
その結果,ImageNet-1K上でのVT-Bによる84.2%のトップ-1の精度と0.6%の利得を達成して,より差別的な表現を訓練した。
この成功は、特異値スペクトルと注意分析によって証明されたように、事前学習の強化によるものである。
最後に、下流のセマンティックセグメンテーションときめ細かい視覚的分類タスク、そして多様なロバストな評価指標において、我々のモデルは大きなパフォーマンス向上を達成する。
コードはhttps://github.com/naver-ai/lutで入手できる。
関連論文リスト
- Enhancing Vision-Language Model with Unmasked Token Alignment [37.12838142681491]
本稿では,既存のCLIPモデルを利用して視覚言語表現をさらに強化する手法であるUnmasked Token Alignment (UTA)を紹介する。
UTAは、ViTモデルとCLIPテキストエンコーダを自動的に整列する凍結されたCLIPビジョンエンコーダから、未マッピングの視覚トークンを対応する画像トークンに整列させることで、ViT(Vit)を訓練する。
論文 参考訳(メタデータ) (2024-05-29T11:48:17Z) - SEP: Self-Enhanced Prompt Tuning for Visual-Language Model [93.94454894142413]
SEP(Self-Enhanced Prompt Tuning)という新しいアプローチを導入する。
SEPは、テキストレベルの埋め込みと視覚レベルの埋め込みの両方を強化するために、差別的な事前知識を明示的に取り入れている。
様々なベンチマークやタスクの総合的な評価は、プロンプトチューニングにおけるSEPの有効性を確認している。
論文 参考訳(メタデータ) (2024-05-24T13:35:56Z) - Downstream Task Guided Masking Learning in Masked Autoencoders Using
Multi-Level Optimization [42.82742477950748]
Masked Autoencoder (MAE) は視覚表現学習における自己教師付き事前学習のための重要な手法である。
プリトレーニング中に最適なマスキング戦略を学習する新しいフレームワークであるMulti-level Optimized Mask Autoencoder (MLO-MAE)を紹介する。
視覚表現学習におけるMLO-MAEの進歩について検討した。
論文 参考訳(メタデータ) (2024-02-28T07:37:26Z) - Tokenize Anything via Prompting [65.93061853439512]
我々は,任意のものを同時にセグメンテーションし,認識し,キャプションすることができる統一的,迅速なモデルを提案する。
我々は、50億のパラメータを持つ事前学習されたCLIPモデルから、巨大なセグメンテーションマスク、eg、SA-1Bマスク、セマンティックプリミティブを持つ一般化可能なモデルをトレーニングする。
我々は,このモデルが汎用領域コンテキストを符号化できる汎用領域レベルの画像トークン化器であると考えている。
論文 参考訳(メタデータ) (2023-12-14T17:01:02Z) - Leveraging per Image-Token Consistency for Vision-Language Pre-training [52.825150269820696]
クロスモーダルマスク言語モデリング(CMLM)は視覚言語事前学習には不十分である。
視覚言語事前学習のためのEPIC(Leveraging Per Image-Token Consistency)を提案する。
提案手法は, 事前学習法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2022-11-20T12:10:53Z) - AdaMAE: Adaptive Masking for Efficient Spatiotemporal Learning with
Masked Autoencoders [44.87786478095987]
Masked Autoencodersは、画像、テキスト、オーディオ、ビデオなどの一般的な表現を、可視データのトークンからマスクされた入力データによって学習する。
本稿では,エンド・ツー・エンドのトレーニングが可能なMAEに対する適応型マスキング戦略を提案する。
AdaMAEは補助サンプリングネットワークを用いて意味的コンテキストに基づいて可視トークンをサンプリングする。
論文 参考訳(メタデータ) (2022-11-16T18:59:48Z) - Beyond Masking: Demystifying Token-Based Pre-Training for Vision
Transformers [122.01591448013977]
Masked Image Modeling (MIM) は下流タスクにおいて有望な結果を示した。
本稿では,欠落した内容を回復して学習する効果的な方法があるかどうかを考察する。
我々は、トークンベースのビジョントランスフォーマーの事前トレーニングに関するいくつかの設計原則を要約する。
この設計は、余分な計算コストを伴わない一連の下流認識タスクにおいて、MIMよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-03-27T14:23:29Z) - What to Hide from Your Students: Attention-Guided Masked Image Modeling [32.402567373491834]
画像トークンマスキングは、テキストのトークンマスキングと根本的に異なる。
注意誘導マスキング(AttMask)と呼ばれる新しいマスキング戦略を導入する。
論文 参考訳(メタデータ) (2022-03-23T20:52:50Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。