論文の概要: Img2Vec: A Teacher of High Token-Diversity Helps Masked AutoEncoders
- arxiv url: http://arxiv.org/abs/2304.12535v1
- Date: Tue, 25 Apr 2023 03:01:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-26 22:08:25.039277
- Title: Img2Vec: A Teacher of High Token-Diversity Helps Masked AutoEncoders
- Title(参考訳): Img2Vec:Token-Diversityの教師がマスクオートエンコーダーを支援
- Authors: Heng Pan, Chenyang Liu, Wenxiao Wang, Li Yuan, Hongfa Wang, Zhifeng
Li, Wei Liu
- Abstract要約: 我々は、深い特徴を持つマスク画像モデリング(MIM)のためのイメージ・トゥ・ベクター(Img2Vec)のパイプラインを提示する。
Img2Vecは、MIM学習を深く特徴付けるのに適した、シンプルで効果的なフレームワークである。
- 参考スコア(独自算出の注目度): 17.564722905991776
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a pipeline of Image to Vector (Img2Vec) for masked image modeling
(MIM) with deep features. To study which type of deep features is appropriate
for MIM as a learning target, we propose a simple MIM framework with serials of
well-trained self-supervised models to convert an Image to a feature Vector as
the learning target of MIM, where the feature extractor is also known as a
teacher model. Surprisingly, we empirically find that an MIM model benefits
more from image features generated by some lighter models (e.g., ResNet-50,
26M) than from those by a cumbersome teacher like Transformer-based models
(e.g., ViT-Large, 307M). To analyze this remarkable phenomenon, we devise a
novel attribute, token diversity, to evaluate the characteristics of generated
features from different models. Token diversity measures the feature
dissimilarity among different tokens. Through extensive experiments and
visualizations, we hypothesize that beyond the acknowledgment that a large
model can improve MIM, a high token-diversity of a teacher model is also
crucial. Based on the above discussion, Img2Vec adopts a teacher model with
high token-diversity to generate image features. Img2Vec pre-trained on
ImageNet unlabeled data with ViT-B yields 85.1\% top-1 accuracy on fine-tuning.
Moreover, we scale up Img2Vec on larger models, ViT-L and ViT-H, and get
$86.7\%$ and $87.5\%$ accuracy respectively. It also achieves state-of-the-art
results on other downstream tasks, e.g., 51.8\% mAP on COCO and 50.7\% mIoU on
ADE20K. Img2Vec is a simple yet effective framework tailored to deep feature
MIM learning, accomplishing superb comprehensive performance on representative
vision tasks.
- Abstract(参考訳): 本稿では,マスク画像モデリング(mim)のための画像からベクトルへのパイプライン(img2vec)を提案する。
学習対象としてmimにどのような深い特徴が適しているかを検討するため,我々は,学習対象として画像から特徴ベクトルに変換するための訓練された自己教師モデルを用いた簡易mimフレームワークを提案し,その特徴抽出器を教師モデルとしても知られている。
驚くべきことに、MIMモデルは、Transformerベースのモデル(例えば、ViT-Large、307M)のような面倒な教師によるものよりも、より軽いモデル(例えば、ResNet-50、26M)によって生成される画像特徴の恩恵を経験的に見出した。
この注目すべき現象を分析するために,新しい特徴であるトークン多様性を考案し,異なるモデルから生成した特徴の特性を評価する。
トークンの多様性は、異なるトークン間の特徴差を測定する。
広範な実験と可視化を通じて,大規模モデルがmimを改善できるという認識を超えて,教師モデルの高いトークン多様性も重要であると仮定する。
以上の議論に基づき、Img2Vecは高いトークン多様性を持つ教師モデルを採用し、画像特徴を生成する。
Img2VecはImageNetの未ラベルデータにViT-Bで事前トレーニングされた。
さらに、大型モデル、ViT-L と ViT-H で Img2Vec をスケールアップし、それぞれ 86.7\% と 87.5\% の精度を得る。
また、COCOでは51.8\% mAP、ADE20Kでは50.7\% mIoUなど、他の下流タスクでは最先端の結果も達成している。
Img2Vecは、MIM学習を深く特徴付けるのに適した、シンプルで効果的なフレームワークである。
関連論文リスト
- Fine-tuning a Multiple Instance Learning Feature Extractor with Masked
Context Modelling and Knowledge Distillation [0.21756081703275998]
我々は,知識蒸留を用いたコンテキストモデリングを用いて特徴抽出モデルを微調整することにより,下流MIL分類を向上させることを提案する。
提案したタスクの1つのエポックは、MILシナリオで使用する場合の特徴抽出モデルの下流性能を向上させるのに十分であり、計算のごく一部を必要とする。
論文 参考訳(メタデータ) (2024-03-08T14:04:30Z) - Heuristic Vision Pre-Training with Self-Supervised and Supervised
Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。
その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-11T14:06:04Z) - Heterogeneous Generative Knowledge Distillation with Masked Image
Modeling [33.95780732124864]
Masked Image Modeling (MIM) 法は様々な視覚的タスクにおいて大きな成功を収めるが、ヘテロジニアス深層モデルに対する知識蒸留では未解明のままである。
我々は,MIMに基づくH-GKD (Heterogeneous Generative Knowledge Distillation) を開発した。
本手法は,異種教師モデルからデータの視覚的表現と分布を学習するための,シンプルで効果的な学習パラダイムである。
論文 参考訳(メタデータ) (2023-09-18T08:30:55Z) - Delving Deeper into Data Scaling in Masked Image Modeling [145.36501330782357]
視覚認識のためのマスク付き画像モデリング(MIM)手法のスケーリング能力に関する実証的研究を行った。
具体的には、Webで収集したCoyo-700Mデータセットを利用する。
我々のゴールは、データとモデルのサイズの異なるスケールでダウンストリームタスクのパフォーマンスがどのように変化するかを調べることです。
論文 参考訳(メタデータ) (2023-05-24T15:33:46Z) - TinyMIM: An Empirical Study of Distilling MIM Pre-trained Models [31.16595289223858]
マスク付き画像モデリング(MIM)は、事前学習大型視覚変換器(ViT)に強く貢献する
しかし、現実世界のアプリケーションにとって重要な小さなモデルは、この事前学習アプローチの恩恵を受けることはできない。
我々は,MIMをベースとした大規模プレトレーニングモデルの成功を,より小さなモデルに伝達する蒸留技術について検討する。
論文 参考訳(メタデータ) (2023-01-03T18:59:54Z) - Masked Video Distillation: Rethinking Masked Feature Modeling for
Self-supervised Video Representation Learning [123.63301596019522]
Masked Video distillation (MVD) は、ビデオ表現学習のための単純な2段階マスク付き特徴モデリングフレームワークである。
教師モデルを選択するために,ビデオ教師が教える生徒が時間重のビデオタスクにおいて,より優れたパフォーマンスを発揮することを観察する。
我々は,異なる教師の利点を活用するために,MVDのための時空間協調学習法を設計する。
論文 参考訳(メタデータ) (2022-12-08T18:59:59Z) - CAE v2: Context Autoencoder with CLIP Target [63.61868058214267]
マスク付き画像モデリング(MIM)は、画像パッチのマスキングと再構成によって視覚表現を学習する。
再建管理をCLIP表現に適用することはMIMに有効であることが証明されている。
CLIPをターゲットとしたMIMの精製戦略を検討するため,MIMにおける2つの重要な要素,すなわち,監督位置とマスク比について検討した。
論文 参考訳(メタデータ) (2022-11-17T18:58:33Z) - Stare at What You See: Masked Image Modeling without Reconstruction [154.74533119863864]
Masked Autoencoders (MAE) は、大規模な視覚表現事前学習のパラダイムとして広く普及している。
近年の手法では, 画像特徴を再構成対象として抽出するために, セマンティック・リッチな教師モデルが適用されており, 性能が向上している。
強力な教師モデルによって抽出された特徴は、画像中の領域間のリッチなセマンティックな相関を既にエンコードしていると論じる。
論文 参考訳(メタデータ) (2022-11-16T12:48:52Z) - BEiT v2: Masked Image Modeling with Vector-Quantized Visual Tokenizers [117.79456335844439]
マスク付き予測のための再構成ターゲットとして,セマンティックリッチなビジュアルトークン化器を提案する。
次に、マスクされた画像パッチに対する元の視覚トークンを予測して、視覚変換器を事前訓練する。
画像分類とセマンティックセグメンテーションの実験は、我々のアプローチがMIM法よりも優れていることを示している。
論文 参考訳(メタデータ) (2022-08-12T16:48:10Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。