論文の概要: Centroid-centered Modeling for Efficient Vision Transformer Pre-training
- arxiv url: http://arxiv.org/abs/2303.04664v2
- Date: Thu, 1 Aug 2024 08:39:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-02 15:07:44.657788
- Title: Centroid-centered Modeling for Efficient Vision Transformer Pre-training
- Title(参考訳): 効率的な視覚変換器事前学習のためのセントロイド中心モデリング
- Authors: Xin Yan, Zuchao Li, Lefei Zhang,
- Abstract要約: Masked Image Modeling (MIM)は、視覚変換器(ViT)を用いた新しい自己教師型ビジョン事前学習パラダイムである。
提案するCentroid-based approach, CCViT は k-means clustering を利用して画像モデリングのためのCentroid を得る。
提案手法は, 外部監督や蒸留訓練を伴わずに, 最近のベースラインと競合する結果が得られる。
- 参考スコア(独自算出の注目度): 44.24223088955106
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked Image Modeling (MIM) is a new self-supervised vision pre-training paradigm using a Vision Transformer (ViT). Previous works can be pixel-based or token-based, using original pixels or discrete visual tokens from parametric tokenizer models, respectively. Our proposed centroid-based approach, CCViT, leverages k-means clustering to obtain centroids for image modeling without supervised training of the tokenizer model, which only takes seconds to create. This non-parametric centroid tokenizer only takes seconds to create and is faster for token inference. The centroids can represent both patch pixels and index tokens with the property of local invariance. Specifically, we adopt patch masking and centroid replacing strategies to construct corrupted inputs, and two stacked encoder blocks to predict corrupted patch tokens and reconstruct original patch pixels. Experiments show that our CCViT achieves 84.4% top-1 accuracy on ImageNet-1K classification with ViT-B and 86.0% with ViT-L. We also transfer our pre-trained model to other downstream tasks. Our approach achieves competitive results with recent baselines without external supervision and distillation training from other models.
- Abstract(参考訳): Masked Image Modeling (MIM) は、視覚変換器 (ViT) を用いた新しい自己教師型ビジョン事前学習パラダイムである。
以前の作品は、それぞれパラメトリックトークン化モデルからのオリジナルのピクセルまたは離散的な視覚トークンを使用して、ピクセルベースまたはトークンベースで作成することができる。
提案するCentroid-based approach, CCViTは, k-meansクラスタリングを利用して, 生成に数秒しかかからないトークンエーザモデルの教師付きトレーニングをすることなく, 画像モデリングのためのCentroidを得る。
この非パラメトリックセントロイドトークンライザは生成に数秒しかかからず、トークン推論では高速である。
セントロイドはパッチピクセルとインデックストークンの両方を局所的不変性で表現することができる。
具体的には、破損した入力を構成するためにパッチマスキングとセントロイド置換戦略を採用し、2つの積み重ねエンコーダブロックを用いて、破損したパッチトークンを予測し、元のパッチピクセルを再構築する。
CCViTは、ViT-BのImageNet-1K分類で84.4%、ViT-Lの86.0%を達成している。
また、トレーニング済みのモデルを他の下流タスクに転送します。
提案手法は, 外部監督や蒸留訓練を伴わずに, 最近のベースラインと競合する結果が得られる。
関連論文リスト
- Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - Bridging The Gaps Between Token Pruning and Full Pre-training via Masked
Fine-tuning [19.391064062033436]
動的視覚変換器はトークンを冗長にプルーニングすることで推論を加速するために使用される。
現在のベースモデルは、通常フルイメージトレーニングを採用し、フルイメージを入力として使用し、フィーチャーマップ全体をフォワードプロセスを通して保持する。
マスクと自己教師付きタスクを行うMAEにインスパイアされた我々は、事前訓練されたベースモデルとトークンプルーニングに基づく動的視覚変換器のギャップを埋めるために、マスク付き微調整を考案した。
論文 参考訳(メタデータ) (2023-10-26T06:03:18Z) - Learning Nuclei Representations with Masked Image Modelling [0.41998444721319206]
Masked Image Modelling (MIM) は強力な自己教師付き表現学習パラダイムである。
核レベルでのHemotoxylin & Eosin(H&E)染色画像のリッチな意味表現をMIMで捉える能力を示す。
論文 参考訳(メタデータ) (2023-06-29T17:20:05Z) - Learning to Mask and Permute Visual Tokens for Vision Transformer
Pre-Training [59.923672191632065]
我々はMasked and Permuted Vision Transformer(MaPeT)という自己教師型事前学習手法を提案する。
MaPeTは、自動回帰および置換予測を使用して、パッチ内依存関係をキャプチャする。
以上の結果から,MaPeTはImageNet上での競合性能を実証した。
論文 参考訳(メタデータ) (2023-06-12T18:12:19Z) - Denoising Masked AutoEncoders are Certifiable Robust Vision Learners [37.04863068273281]
DMAE(Denoising Masked AutoEncoders)と呼ばれる自己教師型手法を提案する。
DMAEは各ピクセル値にガウスノイズを加え、複数のパッチをランダムにマスキングすることで、各イメージを劣化させる。
その後、Transformerベースのエンコーダデコーダモデルをトレーニングして、オリジナルのイメージを破損したイメージから再構築する。
論文 参考訳(メタデータ) (2022-10-10T12:37:59Z) - BEiT v2: Masked Image Modeling with Vector-Quantized Visual Tokenizers [117.79456335844439]
マスク付き予測のための再構成ターゲットとして,セマンティックリッチなビジュアルトークン化器を提案する。
次に、マスクされた画像パッチに対する元の視覚トークンを予測して、視覚変換器を事前訓練する。
画像分類とセマンティックセグメンテーションの実験は、我々のアプローチがMIM法よりも優れていることを示している。
論文 参考訳(メタデータ) (2022-08-12T16:48:10Z) - Corrupted Image Modeling for Self-Supervised Visual Pre-Training [103.99311611776697]
自己教師型視覚前訓練のためのCIM(Corrupted Image Modeling)を提案する。
CIMは、小さなトレーニング可能なBEiTを備えた補助発電機を使用して、人工マスクトークンを使用する代わりに入力イメージを破損させる。
事前トレーニング後、エンハンサーは下流タスク用の高容量ビジュアルエンコーダとして使用できる。
論文 参考訳(メタデータ) (2022-02-07T17:59:04Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。