論文の概要: Centroid-centered Modeling for Efficient Vision Transformer Pre-training
- arxiv url: http://arxiv.org/abs/2303.04664v1
- Date: Wed, 8 Mar 2023 15:34:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-09 13:28:19.478965
- Title: Centroid-centered Modeling for Efficient Vision Transformer Pre-training
- Title(参考訳): 効率的な視覚トランスフォーマ訓練のための遠心中心モデル
- Authors: Xin Yan, Zuchao Li, Lefei Zhang, Bo Du, and Dacheng Tao
- Abstract要約: Masked Image Modeling (MIM)は、視覚変換器(ViT)を用いた新しい自己教師型ビジョン事前学習パラダイムである。
提案手法である textbfCCViT は k-means クラスタリングを利用して画像モデリングのためのセントロイドを得る。
実験の結果、300エポックしか持たないViT-BモデルはImageNet-1K分類で84.3%、ADE20Kセマンティックセグメンテーションで51.6%の精度を達成した。
- 参考スコア(独自算出の注目度): 109.18486172045701
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked Image Modeling (MIM) is a new self-supervised vision pre-training
paradigm using Vision Transformer (ViT). Previous works can be pixel-based or
token-based, using original pixels or discrete visual tokens from parametric
tokenizer models, respectively. Our proposed approach, \textbf{CCViT},
leverages k-means clustering to obtain centroids for image modeling without
supervised training of tokenizer model. The centroids represent patch pixels
and index tokens and have the property of local invariance. Non-parametric
centroid tokenizer only takes seconds to create and is faster for token
inference. Specifically, we adopt patch masking and centroid replacement
strategies to construct corrupted inputs, and two stacked encoder blocks to
predict corrupted patch tokens and reconstruct original patch pixels.
Experiments show that the ViT-B model with only 300 epochs achieves 84.3\%
top-1 accuracy on ImageNet-1K classification and 51.6\% on ADE20K semantic
segmentation. Our approach achieves competitive results with BEiTv2 without
distillation training from other models and outperforms other methods such as
MAE.
- Abstract(参考訳): Masked Image Modeling (MIM) は、視覚変換器 (ViT) を用いた新しい自己教師型ビジョン事前学習パラダイムである。
以前の作品はピクセルベースまたはトークンベースで、それぞれパラメトリックトークンモデルからのオリジナルピクセルまたは離散視覚トークンを使用する。
提案手法である「textbf{CCViT}」は,k平均クラスタリングを利用して画像モデリングのためのセントロイドを得る。
セントロイドはパッチピクセルとインデックストークンを表し、局所不変性を持っている。
non-parametric centroid tokenizerは作成にほんの数秒しかかからず、トークン推論のために高速である。
具体的には,パッチマスキングとセンタロイド置換戦略を用いて,破損した入力と2つのスタックエンコーダブロックを構築し,破損したパッチトークンを予測し,元のパッチピクセルを再構築する。
実験の結果、300エポックしか持たないViT-Bモデルでは、ImageNet-1K分類では84.3\%、ADE20Kセマンティックセグメンテーションでは51.6\%となる。
提案手法はBEiTv2と競合する結果を得るが,他のモデルからの蒸留訓練は行わない。
関連論文リスト
- Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - Bridging The Gaps Between Token Pruning and Full Pre-training via Masked
Fine-tuning [19.391064062033436]
動的視覚変換器はトークンを冗長にプルーニングすることで推論を加速するために使用される。
現在のベースモデルは、通常フルイメージトレーニングを採用し、フルイメージを入力として使用し、フィーチャーマップ全体をフォワードプロセスを通して保持する。
マスクと自己教師付きタスクを行うMAEにインスパイアされた我々は、事前訓練されたベースモデルとトークンプルーニングに基づく動的視覚変換器のギャップを埋めるために、マスク付き微調整を考案した。
論文 参考訳(メタデータ) (2023-10-26T06:03:18Z) - Learning Nuclei Representations with Masked Image Modelling [0.41998444721319206]
Masked Image Modelling (MIM) は強力な自己教師付き表現学習パラダイムである。
核レベルでのHemotoxylin & Eosin(H&E)染色画像のリッチな意味表現をMIMで捉える能力を示す。
論文 参考訳(メタデータ) (2023-06-29T17:20:05Z) - Learning to Mask and Permute Visual Tokens for Vision Transformer
Pre-Training [59.923672191632065]
我々はMasked and Permuted Vision Transformer(MaPeT)という自己教師型事前学習手法を提案する。
MaPeTは、自動回帰および置換予測を使用して、パッチ内依存関係をキャプチャする。
以上の結果から,MaPeTはImageNet上での競合性能を実証した。
論文 参考訳(メタデータ) (2023-06-12T18:12:19Z) - Denoising Masked AutoEncoders are Certifiable Robust Vision Learners [37.04863068273281]
DMAE(Denoising Masked AutoEncoders)と呼ばれる自己教師型手法を提案する。
DMAEは各ピクセル値にガウスノイズを加え、複数のパッチをランダムにマスキングすることで、各イメージを劣化させる。
その後、Transformerベースのエンコーダデコーダモデルをトレーニングして、オリジナルのイメージを破損したイメージから再構築する。
論文 参考訳(メタデータ) (2022-10-10T12:37:59Z) - BEiT v2: Masked Image Modeling with Vector-Quantized Visual Tokenizers [117.79456335844439]
マスク付き予測のための再構成ターゲットとして,セマンティックリッチなビジュアルトークン化器を提案する。
次に、マスクされた画像パッチに対する元の視覚トークンを予測して、視覚変換器を事前訓練する。
画像分類とセマンティックセグメンテーションの実験は、我々のアプローチがMIM法よりも優れていることを示している。
論文 参考訳(メタデータ) (2022-08-12T16:48:10Z) - Corrupted Image Modeling for Self-Supervised Visual Pre-Training [103.99311611776697]
自己教師型視覚前訓練のためのCIM(Corrupted Image Modeling)を提案する。
CIMは、小さなトレーニング可能なBEiTを備えた補助発電機を使用して、人工マスクトークンを使用する代わりに入力イメージを破損させる。
事前トレーニング後、エンハンサーは下流タスク用の高容量ビジュアルエンコーダとして使用できる。
論文 参考訳(メタデータ) (2022-02-07T17:59:04Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。