論文の概要: Morphing Tokens Draw Strong Masked Image Models
- arxiv url: http://arxiv.org/abs/2401.00254v4
- Date: Fri, 21 Mar 2025 09:24:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:53:42.772765
- Title: Morphing Tokens Draw Strong Masked Image Models
- Title(参考訳): モーフィング・トークンは、強いマスク画像モデルを描く
- Authors: Taekyung Kim, Byeongho Heo, Dongyoon Han,
- Abstract要約: Masked Image Modeling (MIM) は、視覚変換器(ViT)の事前訓練のための有望なアプローチとして登場した。
動的トークンモルフィング(DTM)は,コンテキストを保存しながら動的にトークンを集約し,コンテキスト化されたターゲットを生成する手法である。
DTMはさまざまなSSLフレームワークと互換性があります。
- 参考スコア(独自算出の注目度): 28.356863521946607
- License:
- Abstract: Masked image modeling (MIM) has emerged as a promising approach for pre-training Vision Transformers (ViTs). MIMs predict masked tokens token-wise to recover target signals that are tokenized from images or generated by pre-trained models like vision-language models. While using tokenizers or pre-trained models is viable, they often offer spatially inconsistent supervision even for neighboring tokens, hindering models from learning discriminative representations. Our pilot study identifies spatial inconsistency in supervisory signals and suggests that addressing it can improve representation learning. Building upon this insight, we introduce Dynamic Token Morphing (DTM), a novel method that dynamically aggregates tokens while preserving context to generate contextualized targets, thereby likely reducing spatial inconsistency. DTM is compatible with various SSL frameworks; we showcase significantly improved MIM results, barely introducing extra training costs. Our method facilitates MIM training by using more spatially consistent targets, resulting in improved training trends as evidenced by lower losses. Experiments on ImageNet-1K and ADE20K demonstrate DTM's superiority, which surpasses complex state-of-the-art MIM methods. Furthermore, the evaluation of transfer learning on downstream tasks like iNaturalist, along with extensive empirical studies, supports DTM's effectiveness.
- Abstract(参考訳): Masked Image Modeling (MIM) は、視覚変換器(ViT)を事前訓練するための有望なアプローチとして登場した。
MIMはマスクされたトークンをトークン的に予測し、画像からトークン化されたり、視覚言語モデルのような事前訓練されたモデルによって生成されたターゲット信号を復元する。
トークン化器や事前訓練されたモデルを使用することは可能であるが、近隣のトークンに対しても空間的に一貫性のない監視を提供し、モデルの識別表現の学習を妨げることがしばしばある。
パイロット実験では、監視信号の空間的不整合を識別し、それに対応することで表現学習を改善することが示唆された。
この知見に基づいて,動的トークンモーフィング (DTM) を導入する。これはコンテキストを保存しながらトークンを動的に集約し,コンテキスト化されたターゲットを生成し,空間的不整合を減少させる新しい手法である。
DTMはさまざまなSSLフレームワークと互換性があります。
提案手法は,より空間的に一貫した目標を用いてMIMトレーニングを促進する。
ImageNet-1KとADE20Kの実験は、複雑な最先端MIM法を超えるDTMの優位性を実証している。
さらに、iNaturalistのような下流タスクにおける伝達学習の評価は、広範な実証的研究とともに、DTMの有効性を支持する。
関連論文リスト
- Beyond [cls]: Exploring the true potential of Masked Image Modeling representations [10.800240155402417]
Masked Image Modeling (MIM) は視覚表現の自己監督学習(SSL)の一般的な手法として登場した。
ハイレベルな知覚タスクのために、MIMが事前訓練したモデルは、JEA(Joint-Embedding Architectures)よりも低品質のアウト・オブ・ボックス表現を提供する。
JEAが関連する画像断片の集合上に表現を構築するのに対して、MIMモデルは、ほぼ全ての画像コンテンツを集約する。
論文 参考訳(メタデータ) (2024-12-04T11:08:32Z) - Fluid: Scaling Autoregressive Text-to-image Generative Models with Continuous Tokens [53.99177152562075]
視覚における自己回帰モデルのスケールアップは、大きな言語モデルほど有益でないことが証明されている。
モデルが離散トークンを使用するか、連続トークンを使用するか、BERTやGPTのようなトランスフォーマーアーキテクチャを用いてランダムまたは固定順序でトークンを生成するか、という2つの重要な要素に焦点を当てる。
その結果,すべてのモデルが検証損失の点で効果的にスケールしているのに対して,評価性能はFID,GenEvalスコア,視覚的品質などによって異なる傾向を呈することがわかった。
論文 参考訳(メタデータ) (2024-10-17T17:59:59Z) - Enhancing Vision-Language Model with Unmasked Token Alignment [37.12838142681491]
本稿では,既存のCLIPモデルを利用して視覚言語表現をさらに強化する手法であるUnmasked Token Alignment (UTA)を紹介する。
UTAは、ViTモデルとCLIPテキストエンコーダを自動的に整列する凍結されたCLIPビジョンエンコーダから、未マッピングの視覚トークンを対応する画像トークンに整列させることで、ViT(Vit)を訓練する。
論文 参考訳(メタデータ) (2024-05-29T11:48:17Z) - Semantics-enhanced Cross-modal Masked Image Modeling for Vision-Language
Pre-training [87.69394953339238]
Masked Image Modeling (MIM) が最近導入され、細粒度のクロスモーダルアライメントを実現している。
視覚言語表現学習のためのセマンティクス強化クロスモーダルMIMフレームワーク(SemMIM)を提案する。
論文 参考訳(メタデータ) (2024-03-01T03:25:58Z) - Latent State Models of Training Dynamics [51.88132043461152]
異なるランダムなシードでモデルをトレーニングし、トレーニングを通じてさまざまなメトリクスを計算します。
次に、結果のメトリクス列に隠れマルコフモデル(HMM)を適合させる。
我々はHMM表現を用いて相転移を研究し、収束を遅くする潜伏状態(detour state)を特定する。
論文 参考訳(メタデータ) (2023-08-18T13:20:08Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - Disjoint Masking with Joint Distillation for Efficient Masked Image
Modeling [36.231030262831005]
Masked Image Modeling (MIM) は自己教師型学習 (SSL) に大きく貢献している。
DMJD(Disjoint Masking with Joint Distillation)と呼ばれる,概念的にシンプルだが学習効率のよいMIMトレーニングスキームを導入する。
論文 参考訳(メタデータ) (2022-12-31T15:50:02Z) - Improve Transformer Pre-Training with Decoupled Directional Relative
Position Encoding and Representation Differentiations [23.2969212998404]
トランスフォーマーに基づく事前学習言語モデルを再検討し、モデルの表現性を制限する可能性のある2つの問題を特定する。
既存の相対位置符号化モデルは、相対距離と方向という2つの異種情報を混同する。
事前学習型言語モデルを改善するための2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2022-10-09T12:35:04Z) - Beyond Masking: Demystifying Token-Based Pre-Training for Vision
Transformers [122.01591448013977]
Masked Image Modeling (MIM) は下流タスクにおいて有望な結果を示した。
本稿では,欠落した内容を回復して学習する効果的な方法があるかどうかを考察する。
我々は、トークンベースのビジョントランスフォーマーの事前トレーニングに関するいくつかの設計原則を要約する。
この設計は、余分な計算コストを伴わない一連の下流認識タスクにおいて、MIMよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-03-27T14:23:29Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。