論文の概要: Beyond Masking: Demystifying Token-Based Pre-Training for Vision
Transformers
- arxiv url: http://arxiv.org/abs/2203.14313v1
- Date: Sun, 27 Mar 2022 14:23:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-02 18:44:06.870782
- Title: Beyond Masking: Demystifying Token-Based Pre-Training for Vision
Transformers
- Title(参考訳): beyond masking:視覚トランスフォーマーのためのトークンベースのプリトレーニング
- Authors: Yunjie Tian and Lingxi Xie and Jiemin Fang and Mengnan Shi and Junran
Peng and Xiaopeng Zhang and Jianbin Jiao and Qi Tian and Qixiang Ye
- Abstract要約: Masked Image Modeling (MIM) は下流タスクにおいて有望な結果を示した。
本稿では,欠落した内容を回復して学習する効果的な方法があるかどうかを考察する。
我々は、トークンベースのビジョントランスフォーマーの事前トレーニングに関するいくつかの設計原則を要約する。
この設計は、余分な計算コストを伴わない一連の下流認識タスクにおいて、MIMよりも優れた性能を実現する。
- 参考スコア(独自算出の注目度): 122.01591448013977
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The past year has witnessed a rapid development of masked image modeling
(MIM). MIM is mostly built upon the vision transformers, which suggests that
self-supervised visual representations can be done by masking input image parts
while requiring the target model to recover the missing contents. MIM has
demonstrated promising results on downstream tasks, yet we are interested in
whether there exist other effective ways to `learn by recovering missing
contents'. In this paper, we investigate this topic by designing five other
learning objectives that follow the same procedure as MIM but degrade the input
image in different ways. With extensive experiments, we manage to summarize a
few design principles for token-based pre-training of vision transformers. In
particular, the best practice is obtained by keeping the original image style
and enriching spatial masking with spatial misalignment -- this design achieves
superior performance over MIM in a series of downstream recognition tasks
without extra computational cost. The code is available at
https://github.com/sunsmarterjie/beyond_masking.
- Abstract(参考訳): 昨年は、マスク画像モデリング(mim)の急速な発展を目撃した。
MIMは、主に視覚変換器上に構築されており、入力画像部分をマスキングし、ターゲットモデルに欠落したコンテンツを復元する必要があることを示唆している。
MIMは下流のタスクに有望な結果を示してきたが、「不足したコンテンツを復元して学習する」他の効果的な方法があるかどうかに興味を持っている。
本稿では,MIMと同じ手順を踏襲する5つの学習目標を設計し,異なる方法で入力画像を劣化させることにより,この話題を考察する。
広範な実験によって、トークンベースの視覚トランスフォーマーの事前学習のためのいくつかの設計原則をまとめることができた。
特に,従来の画像スタイルを保ち,空間的ミスアライメントを伴って空間マスキングを充実させることで,一連の下流認識タスクにおいて,余分な計算コストを伴わずにMIMよりも優れた性能を実現する。
コードはhttps://github.com/sunsmarterjie/beyond_maskingで入手できる。
関連論文リスト
- Membership Inference Attack Against Masked Image Modeling [29.699606401861818]
Masked Image Modeling (MIM)は、視覚認識のための自己教師付き学習(SSL)の領域で大きな成功を収めた。
本研究では、MIMの事前学習データプライバシーを研究することで、異なる角度を採る。
MIMにより事前訓練された画像エンコーダに対する最初のメンバシップ推論攻撃を提案する。
論文 参考訳(メタデータ) (2024-08-13T11:34:28Z) - CL-MAE: Curriculum-Learned Masked Autoencoders [49.24994655813455]
本稿では,自己指導型再建作業の複雑さを継続的に増大させるために,マスキング戦略を更新するカリキュラム学習手法を提案する。
我々は、ImageNet上でCL-MAE(Curriculum-Learned Masked Autoencoder)をトレーニングし、MAEよりも優れた表現学習能力を示すことを示す。
論文 参考訳(メタデータ) (2023-08-31T09:13:30Z) - Learning to Mask and Permute Visual Tokens for Vision Transformer Pre-Training [55.12082817901671]
我々はMasked and Permuted Vision Transformer(MaPeT)という自己教師型事前学習手法を提案する。
MaPeTは、自動回帰および置換予測を使用して、パッチ内依存関係をキャプチャする。
以上の結果から,MaPeTはベースラインやコンペティターと同一のモデル設定で比較して,ImageNet上での競合性能を実証した。
論文 参考訳(メタデータ) (2023-06-12T18:12:19Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - PixMIM: Rethinking Pixel Reconstruction in Masked Image Modeling [83.67628239775878]
Masked Image Modeling (MIM) は Masked Autoencoders (MAE) と BEiT の出現によって有望な進歩を遂げた。
本稿では,画素再構成の観点からMIMの基本解析を行う。
我々は,2つの戦略を包含する極めて単純で効果的な方法,weelmethodを提案する。
論文 参考訳(メタデータ) (2023-03-04T13:38:51Z) - Masked Visual Reconstruction in Language Semantic Space [38.43966132249977]
Masked visual Reconstruction In Language semantic Space (RILS) pre-training frameworkについて述べる。
RILSは、視覚のみの信号を意味的に意味のあるMIM再構成ターゲットとしてパッチ文の確率に変換する。
本手法は,下流の分類,検出,セグメンテーションにおける高度な転送性を示す。
論文 参考訳(メタデータ) (2023-01-17T15:32:59Z) - Learning Explicit Object-Centric Representations with Vision
Transformers [81.38804205212425]
我々は、マスク付き自動符号化の自己超越タスクを構築し、トランスフォーマーを用いたオブジェクト中心表現学習の有効性を探求する。
複数のマルチオブジェクト・ベンチマークのセグメンテーション・メトリクスによって測定された単純なシーンを効率的に分解できることを示す。
論文 参考訳(メタデータ) (2022-10-25T16:39:49Z) - CroCo: Self-Supervised Pre-training for 3D Vision Tasks by Cross-View
Completion [20.121597331207276]
Masked Image Modeling (MIM)は、最近、強力な事前学習パラダイムとして確立されている。
本稿では,多種多様な3次元視覚と下層の幾何学的下流課題によく伝達される表現を学習することを目的とする。
実験の結果,本研究のプリテキストタスクは,モノラルな3次元視覚の下流タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2022-10-19T16:50:36Z) - Architecture-Agnostic Masked Image Modeling -- From ViT back to CNN [38.87225202482656]
自己教師型事前学習手法であるマスク付き画像モデリングは、ビジョントランスフォーマーを用いた多くの下流視覚タスクで驚くべき成功を収めた。
本稿では,トランスフォーマーとCNNの両方に統一的に対応可能なアーキテクチャ非依存型マスケ画像モデリングフレームワーク (A$2$MIM) を提案する。
論文 参考訳(メタデータ) (2022-05-27T12:42:02Z) - The Devil is in the Frequency: Geminated Gestalt Autoencoder for
Self-Supervised Visual Pre-Training [13.087987450384036]
視覚前訓練のための新しいMasked Image Modeling (MIM) をGeminated Autoencoder (Ge$2-AE) と呼ぶ。
具体的には、画素と周波数空間の両方から画像内容を再構成するgeminated decoderをモデルに装備する。
論文 参考訳(メタデータ) (2022-04-18T09:22:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。