論文の概要: Revealing the Dark Secrets of Masked Image Modeling
- arxiv url: http://arxiv.org/abs/2205.13543v2
- Date: Fri, 27 May 2022 15:12:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-30 11:14:32.180459
- Title: Revealing the Dark Secrets of Masked Image Modeling
- Title(参考訳): 仮面画像モデリングの暗黒秘密の発見
- Authors: Zhenda Xie, Zigang Geng, Jingcheng Hu, Zheng Zhang, Han Hu, Yue Cao
- Abstract要約: 事前学習としてのマスク付き画像モデリング(MIM)は、多くの視線下流タスクに有効であることが示されているが、どのように、どこでMIMが機能するのかは定かではない。
本稿では,MIMと長大な教師付き事前学習モデルを比較し,可視化と実験を行った。
MIMは、トレーニングされたモデルのすべての層に局所性誘導バイアスをもたらすが、教師付きモデルは、より低い層に局所的に集中する傾向にある。
- 参考スコア(独自算出の注目度): 25.221516344869805
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked image modeling (MIM) as pre-training is shown to be effective for
numerous vision downstream tasks, but how and where MIM works remain unclear.
In this paper, we compare MIM with the long-dominant supervised pre-trained
models from two perspectives, the visualizations and the experiments, to
uncover their key representational differences. From the visualizations, we
find that MIM brings locality inductive bias to all layers of the trained
models, but supervised models tend to focus locally at lower layers but more
globally at higher layers. That may be the reason why MIM helps Vision
Transformers that have a very large receptive field to optimize. Using MIM, the
model can maintain a large diversity on attention heads in all layers. But for
supervised models, the diversity on attention heads almost disappears from the
last three layers and less diversity harms the fine-tuning performance. From
the experiments, we find that MIM models can perform significantly better on
geometric and motion tasks with weak semantics or fine-grained classification
tasks, than their supervised counterparts. Without bells and whistles, a
standard MIM pre-trained SwinV2-L could achieve state-of-the-art performance on
pose estimation (78.9 AP on COCO test-dev and 78.0 AP on CrowdPose), depth
estimation (0.287 RMSE on NYUv2 and 1.966 RMSE on KITTI), and video object
tracking (70.7 SUC on LaSOT). For the semantic understanding datasets where the
categories are sufficiently covered by the supervised pre-training, MIM models
can still achieve highly competitive transfer performance. With a deeper
understanding of MIM, we hope that our work can inspire new and solid research
in this direction.
- Abstract(参考訳): 事前トレーニングとしてのマスク画像モデリング(mim)は、多くのビジョンダウンストリームタスクに有効であることが示されているが、mimの動作方法と場所はまだ不明である。
本稿では,MIMと長大な教師付き事前学習モデル(可視化と実験)を比較し,それらの重要な表現的差異を明らかにする。
可視化から、MIMはトレーニングされたモデルのすべての層に局所性帰納バイアスをもたらすが、教師付きモデルはより低い層に局所的に集中する傾向にある。
MIMは、非常に大きな受容野を持つ視覚変換器を最適化するのに役立ちます。
mimを使用すると、モデルはすべての層で注意の面で大きな多様性を維持することができる。
しかし、監督されたモデルでは、注意の多様性は最後の3層からほぼ消え、多様性の低下は微調整のパフォーマンスに悪影響を及ぼす。
実験の結果,MIMモデルは教師付きモデルよりも,弱いセマンティクスやきめ細かな分類を伴う幾何学的および運動的タスクにおいて,はるかに優れた性能を発揮することがわかった。
ベルとホイッスルがなければ、標準MIMのSwinV2-Lはポーズ推定(COCOテストデブでは78.9 AP、CrowdPoseでは78.0 AP)、深さ推定(NYUv2では0.287 RMSE、KITTIでは1.966 RMSE)、ビデオオブジェクト追跡(LaSOTでは70.7 SUC)で最先端のパフォーマンスを達成することができた。
教師付き事前学習によってカテゴリが十分にカバーされている意味理解データセットの場合、MIMモデルは高い競争力を持つ転送性能を達成することができる。
MIMをより深く理解することで、私たちの研究がこの方向に新しい、しっかりとした研究を刺激できることを願っています。
関連論文リスト
- LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。
本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。
異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文 参考訳(メタデータ) (2024-07-28T06:10:47Z) - MIM-Refiner: A Contrastive Learning Boost from Intermediate Pre-Trained Representations [16.885965702357314]
MIM-Refinerは、事前訓練されたMIMモデルの対照的な学習促進である。
我々はMIMモデルの特徴を、サブパーから最先端のオフ・ザ・シェルフ機能まで洗練する。
論文 参考訳(メタデータ) (2024-02-15T16:46:16Z) - Delving Deeper into Data Scaling in Masked Image Modeling [145.36501330782357]
視覚認識のためのマスク付き画像モデリング(MIM)手法のスケーリング能力に関する実証的研究を行った。
具体的には、Webで収集したCoyo-700Mデータセットを利用する。
我々のゴールは、データとモデルのサイズの異なるスケールでダウンストリームタスクのパフォーマンスがどのように変化するかを調べることです。
論文 参考訳(メタデータ) (2023-05-24T15:33:46Z) - Img2Vec: A Teacher of High Token-Diversity Helps Masked AutoEncoders [17.564722905991776]
我々は、深い特徴を持つマスク画像モデリング(MIM)のためのイメージ・トゥ・ベクター(Img2Vec)のパイプラインを提示する。
Img2Vecは、MIM学習を深く特徴付けるのに適した、シンプルで効果的なフレームワークである。
論文 参考訳(メタデータ) (2023-04-25T03:01:37Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Masked Image Modeling with Local Multi-Scale Reconstruction [54.91442074100597]
Masked Image Modeling (MIM) は自己教師付き表現学習において顕著な成功を収めている。
既存のMIMモデルはエンコーダの最上層でのみ再構成タスクを実行する。
そこで我々は,下層と上層がそれぞれ微細かつ粗大な監視信号を再構成する局所的マルチスケール再構成を設計する。
論文 参考訳(メタデータ) (2023-03-09T13:42:04Z) - CAE v2: Context Autoencoder with CLIP Target [63.61868058214267]
マスク付き画像モデリング(MIM)は、画像パッチのマスキングと再構成によって視覚表現を学習する。
再建管理をCLIP表現に適用することはMIMに有効であることが証明されている。
CLIPをターゲットとしたMIMの精製戦略を検討するため,MIMにおける2つの重要な要素,すなわち,監督位置とマスク比について検討した。
論文 参考訳(メタデータ) (2022-11-17T18:58:33Z) - MimCo: Masked Image Modeling Pre-training with Contrastive Teacher [14.413674270588023]
Masked Image Modeling (MIM) は自己教師型学習 (SSL) において多くの注目を集めている。
可視化は、学習された表現は、特に対照的な学習事前学習に基づく表現に比べて分離しにくいことを示している。
そこで本研究では,MIMと2段階事前学習によるコントラスト学習を組み合わせた,新しい,フレキシブルな事前学習フレームワークMimCoを提案する。
論文 参考訳(メタデータ) (2022-09-07T10:59:05Z) - Beyond Masking: Demystifying Token-Based Pre-Training for Vision
Transformers [122.01591448013977]
Masked Image Modeling (MIM) は下流タスクにおいて有望な結果を示した。
本稿では,欠落した内容を回復して学習する効果的な方法があるかどうかを考察する。
我々は、トークンベースのビジョントランスフォーマーの事前トレーニングに関するいくつかの設計原則を要約する。
この設計は、余分な計算コストを伴わない一連の下流認識タスクにおいて、MIMよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-03-27T14:23:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。