論文の概要: CAE v2: Context Autoencoder with CLIP Target
- arxiv url: http://arxiv.org/abs/2211.09799v1
- Date: Thu, 17 Nov 2022 18:58:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 16:48:22.132028
- Title: CAE v2: Context Autoencoder with CLIP Target
- Title(参考訳): CAE v2: CLIP Targetを使ったコンテキストオートエンコーダ
- Authors: Xinyu Zhang, Jiahui Chen, Junkun Yuan, Qiang Chen, Jian Wang, Xiaodi
Wang, Shumin Han, Xiaokang Chen, Jimin Pi, Kun Yao, Junyu Han, Errui Ding,
Jingdong Wang
- Abstract要約: マスク付き画像モデリング(MIM)は、画像パッチのマスキングと再構成によって視覚表現を学習する。
再建管理をCLIP表現に適用することはMIMに有効であることが証明されている。
CLIPをターゲットとしたMIMの精製戦略を検討するため,MIMにおける2つの重要な要素,すなわち,監督位置とマスク比について検討した。
- 参考スコア(独自算出の注目度): 63.61868058214267
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked image modeling (MIM) learns visual representation by masking and
reconstructing image patches. Applying the reconstruction supervision on the
CLIP representation has been proven effective for MIM. However, it is still
under-explored how CLIP supervision in MIM influences performance. To
investigate strategies for refining the CLIP-targeted MIM, we study two
critical elements in MIM, i.e., the supervision position and the mask ratio,
and reveal two interesting perspectives, relying on our developed simple
pipeline, context autodecoder with CLIP target (CAE v2). Firstly, we observe
that the supervision on visible patches achieves remarkable performance, even
better than that on masked patches, where the latter is the standard format in
the existing MIM methods. Secondly, the optimal mask ratio positively
correlates to the model size. That is to say, the smaller the model, the lower
the mask ratio needs to be. Driven by these two discoveries, our simple and
concise approach CAE v2 achieves superior performance on a series of downstream
tasks. For example, a vanilla ViT-Large model achieves 81.7% and 86.7% top-1
accuracy on linear probing and fine-tuning on ImageNet-1K, and 55.9% mIoU on
semantic segmentation on ADE20K with the pre-training for 300 epochs. We hope
our findings can be helpful guidelines for the pre-training in the MIM area,
especially for the small-scale models.
- Abstract(参考訳): マスク付き画像モデリング(MIM)は、画像パッチのマスキングと再構成によって視覚表現を学習する。
再建管理をCLIP表現に適用することはMIMに有効であることが証明されている。
しかし、MIMにおけるCLIPの監督がパフォーマンスにどのように影響するかはまだ解明されていない。
CLIPターゲットMIMの精製戦略を検討するため,MIMにおける2つの重要な要素,すなわち監視位置とマスク比について検討し,CLIPターゲットを用いたコンテキスト自動デコーダ(CAE v2)の開発した単純なパイプラインに依存する2つの興味深い視点を明らかにする。
まず、目に見えるパッチに対する監督が、既存のmimメソッドの標準フォーマットであるマスクされたパッチよりも優れた、驚くべきパフォーマンスを達成することを観察する。
第二に、最適マスク比はモデルサイズと正に相関する。
つまり、モデルが小さくなればなるほど、マスク比は低くなります。
これら2つの発見によって駆動される私たちの単純で簡潔なアプローチであるCAE v2は、一連の下流タスクにおいて優れたパフォーマンスを実現する。
例えば、バニラViT-ラージモデルは、ImageNet-1K上の線形探索と微調整において81.7%と86.7%のトップ-1精度、ADE20K上のセマンティックセグメンテーションにおいて55.9%のmIoUを達成し、300エポックの事前トレーニングを行う。
本研究は,MIM領域,特に小規模モデルにおける事前トレーニングのガイドラインとして有用であると考えられた。
関連論文リスト
- Adapting LLaMA Decoder to Vision Transformer [65.47663195233802]
本研究は,LLaMAなどのデコーダのみのトランスフォーマーをコンピュータビジョン分野に適用できるかどうかを検討する。
まず、LLaMAのアーキテクチャと整合する標準的なViTを「LLaMAfy」と呼び、自己注意に因果マスクを直接適用することで、注意崩壊の問題が生じる。
我々は,訓練開始時の自己注意に因果マスクを徐々に導入し,最適化行動を容易にするソフトマスク戦略を開発する。
論文 参考訳(メタデータ) (2024-04-10T06:30:08Z) - MIM-Refiner: A Contrastive Learning Boost from Intermediate Pre-Trained Representations [16.885965702357314]
MIM-Refinerは、事前訓練されたMIMモデルの対照的な学習促進である。
我々はMIMモデルの特徴を、サブパーから最先端のオフ・ザ・シェルフ機能まで洗練する。
論文 参考訳(メタデータ) (2024-02-15T16:46:16Z) - RevColV2: Exploring Disentangled Representations in Masked Image
Modeling [12.876864261893909]
Masked Image Modeling (MIM) は、視覚基礎モデルのトレーニング前セットアップとして広く使われており、有望なパフォーマンスを実現している。
既存のMIMメソッドは、ダウンストリームアプリケーション中にデコーダネットワークを破棄し、事前トレーニングと微調整の間に一貫性のない表現をもたらす。
本稿では,事前学習と微調整の両方において,オートエンコーダアーキテクチャ全体を維持することで,この問題に対処する新しいアーキテクチャRevColV2を提案する。
論文 参考訳(メタデータ) (2023-09-02T18:41:27Z) - Improving Pixel-based MIM by Reducing Wasted Modeling Capability [77.99468514275185]
浅い層から低レベルの特徴を明示的に利用して画素再構成を支援する手法を提案する。
私たちの知る限りでは、等方的アーキテクチャのためのマルチレベル特徴融合を体系的に研究するのは、私たちは初めてです。
提案手法は, 微調整では1.2%, 線形探索では2.8%, セマンティックセグメンテーションでは2.6%など, 大幅な性能向上をもたらす。
論文 参考訳(メタデータ) (2023-08-01T03:44:56Z) - Img2Vec: A Teacher of High Token-Diversity Helps Masked AutoEncoders [17.564722905991776]
我々は、深い特徴を持つマスク画像モデリング(MIM)のためのイメージ・トゥ・ベクター(Img2Vec)のパイプラインを提示する。
Img2Vecは、MIM学習を深く特徴付けるのに適した、シンプルで効果的なフレームワークである。
論文 参考訳(メタデータ) (2023-04-25T03:01:37Z) - PixMIM: Rethinking Pixel Reconstruction in Masked Image Modeling [83.67628239775878]
Masked Image Modeling (MIM) は Masked Autoencoders (MAE) と BEiT の出現によって有望な進歩を遂げた。
本稿では,画素再構成の観点からMIMの基本解析を行う。
我々は,2つの戦略を包含する極めて単純で効果的な方法,weelmethodを提案する。
論文 参考訳(メタデータ) (2023-03-04T13:38:51Z) - Layer Grafted Pre-training: Bridging Contrastive Learning And Masked
Image Modeling For Label-Efficient Representations [130.05189514598996]
Mask Image Modeling (MIM) と Contrastive Learning (CL) は、自己超越が優れた表現を学ぶのに強力であることを示した。
本稿では,CLとMIMの損失の簡易な共同最適化が,矛盾する勾配方向を導いた経験的観察を行う。
実験により,MIMとCLは下層と上層にそれぞれ適していることがわかった。
初期のレイヤはまず1つのMIM損失の下でトレーニングされ、その上に、後者のレイヤは別のCL損失の下でトレーニングされ続けます。
論文 参考訳(メタデータ) (2023-02-27T20:52:10Z) - TinyMIM: An Empirical Study of Distilling MIM Pre-trained Models [31.16595289223858]
マスク付き画像モデリング(MIM)は、事前学習大型視覚変換器(ViT)に強く貢献する
しかし、現実世界のアプリケーションにとって重要な小さなモデルは、この事前学習アプローチの恩恵を受けることはできない。
我々は,MIMをベースとした大規模プレトレーニングモデルの成功を,より小さなモデルに伝達する蒸留技術について検討する。
論文 参考訳(メタデータ) (2023-01-03T18:59:54Z) - BEiT v2: Masked Image Modeling with Vector-Quantized Visual Tokenizers [117.79456335844439]
マスク付き予測のための再構成ターゲットとして,セマンティックリッチなビジュアルトークン化器を提案する。
次に、マスクされた画像パッチに対する元の視覚トークンを予測して、視覚変換器を事前訓練する。
画像分類とセマンティックセグメンテーションの実験は、我々のアプローチがMIM法よりも優れていることを示している。
論文 参考訳(メタデータ) (2022-08-12T16:48:10Z) - Revealing the Dark Secrets of Masked Image Modeling [25.221516344869805]
事前学習としてのマスク付き画像モデリング(MIM)は、多くの視線下流タスクに有効であることが示されているが、どのように、どこでMIMが機能するのかは定かではない。
本稿では,MIMと長大な教師付き事前学習モデルを比較し,可視化と実験を行った。
MIMは、トレーニングされたモデルのすべての層に局所性誘導バイアスをもたらすが、教師付きモデルは、より低い層に局所的に集中する傾向にある。
論文 参考訳(メタデータ) (2022-05-26T17:59:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。