論文の概要: Understanding Masked Image Modeling via Learning Occlusion Invariant
Feature
- arxiv url: http://arxiv.org/abs/2208.04164v1
- Date: Mon, 8 Aug 2022 14:05:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-09 13:38:19.481211
- Title: Understanding Masked Image Modeling via Learning Occlusion Invariant
Feature
- Title(参考訳): 学習咬合不変特徴を用いたマスク画像モデリングの理解
- Authors: Xiangwen Kong, Xiangyu Zhang
- Abstract要約: Masked Image Modelingは、自己教師付き視覚認識において大きな成功をおさめている。
本稿では,MIMの動作に関する新しい視点を提案する。
MIM の定式化を等価なシアム形式に緩和することにより、MIM の手法は統一されたフレームワークで解釈できる。
- 参考スコア(独自算出の注目度): 9.786981202733033
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Masked Image Modeling (MIM) achieves great success in
self-supervised visual recognition. However, as a reconstruction-based
framework, it is still an open question to understand how MIM works, since MIM
appears very different from previous well-studied siamese approaches such as
contrastive learning. In this paper, we propose a new viewpoint: MIM implicitly
learns occlusion-invariant features, which is analogous to other siamese
methods while the latter learns other invariance. By relaxing MIM formulation
into an equivalent siamese form, MIM methods can be interpreted in a unified
framework with conventional methods, among which only a) data transformations,
i.e. what invariance to learn, and b) similarity measurements are different.
Furthermore, taking MAE (He et al.) as a representative example of MIM, we
empirically find the success of MIM models relates a little to the choice of
similarity functions, but the learned occlusion invariant feature introduced by
masked image -- it turns out to be a favored initialization for vision
transformers, even though the learned feature could be less semantic. We hope
our findings could inspire researchers to develop more powerful self-supervised
methods in computer vision community.
- Abstract(参考訳): 近年,Masked Image Modeling (MIM) は自己教師型視覚認識において大きな成功を収めている。
しかし,MIMは従来のコントラッシブ・ラーニングのような先進的なシャイムアプローチとは大きく異なるため,再構築ベースのフレームワークとしてMIMがどのように機能するかを理解することは依然としてオープンな疑問である。
本稿では,mimが他のシャム法に類似した咬合不変特徴を暗黙的に学習し,後者が他の不変性を学ぶという新しい視点を提案する。
MIMの定式化を等価なシマム形式に緩和することにより、MIM法は従来の方法で統一されたフレームワークで解釈できる。
a) データの変換、すなわち、学習すべき不変性、および
b) 類似度の測定は異なる。
さらに、mae (he et al.) をmimの代表的な例として、mimモデルの成功は類似度関数の選択に少し関係するが、マスク画像によって導入された学習型咬合不変特徴 -- は、学習された特徴が意味的でないとしても、視覚トランスフォーマーにとって好まれる初期化であることが判明した。
私たちの研究成果が、コンピュータビジョンコミュニティでより強力な自己管理手法を開発するきっかけになることを期待しています。
関連論文リスト
- Masked Image Modeling: A Survey [73.21154550957898]
マスク付き画像モデリングは、コンピュータビジョンにおける強力な自己教師付き学習技術として登場した。
我々は近年,分類学を構築し,最も顕著な論文をレビューしている。
我々は,最も人気のあるデータセット上で,様々なマスク付き画像モデリング手法の性能評価結果を集約する。
論文 参考訳(メタデータ) (2024-08-13T07:27:02Z) - On the Role of Discrete Tokenization in Visual Representation Learning [35.10829554701771]
マスク付き画像モデリング (MIM) は, 対照的な学習手法とともに人気を博している。
個別のトークンは 再建の標的だが この選択の理論的基盤は 未解明のままだ
離散トークン化がモデルの一般化能力にどのように影響するかを包括的に理論的に理解する。
我々は,MIMフレームワーク内の離散トークンの有効性を評価するために,TCASという新しいメトリクスを提案する。
論文 参考訳(メタデータ) (2024-07-12T08:25:31Z) - Masked Image Modeling as a Framework for Self-Supervised Learning across Eye Movements [0.624151172311885]
本稿では,視覚情報を予測し,提示する自己指導型作業として,眼球運動が重要であることを提案する。
マスキング技術やデータ拡張といったMIMのコアコンポーネントが,カテゴリ固有の表現の形成にどのように影響するかを分析する。
その結果,MIM はニューロンを非定常的に非定常的にアンタングルし,その特性は霊長類における視覚的表現の形成に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-04-12T15:15:39Z) - Semantics-enhanced Cross-modal Masked Image Modeling for Vision-Language
Pre-training [87.69394953339238]
Masked Image Modeling (MIM) が最近導入され、細粒度のクロスモーダルアライメントを実現している。
視覚言語表現学習のためのセマンティクス強化クロスモーダルMIMフレームワーク(SemMIM)を提案する。
論文 参考訳(メタデータ) (2024-03-01T03:25:58Z) - Understanding Masked Autoencoders From a Local Contrastive Perspective [80.57196495601826]
Masked AutoEncoder (MAE)は、シンプルだが効果的なマスキングと再構築戦略によって、自己指導型学習の分野に革命をもたらした。
そこで我々は,MaEの再構成的側面とコントラスト的側面の両方を解析するために,ローカルコントラストMAEと呼ばれる新しい経験的枠組みを導入する。
論文 参考訳(メタデータ) (2023-10-03T12:08:15Z) - Exploring The Role of Mean Teachers in Self-supervised Masked
Auto-Encoders [64.03000385267339]
マスク付き画像モデリング(MIM)は視覚変換器を用いた視覚表現の自己教師型学習(SSL)の一般的な戦略となっている。
簡単なSSL方式であるRC-MAE(Restruction-Consistent Masked Auto-Encoder)を提案する。
RC-MAEは、事前学習中に最先端の自己蒸留法よりも早く収束し、メモリ使用量の削減を必要とする。
論文 参考訳(メタデータ) (2022-10-05T08:08:55Z) - Architecture-Agnostic Masked Image Modeling -- From ViT back to CNN [38.87225202482656]
自己教師型事前学習手法であるマスク付き画像モデリングは、ビジョントランスフォーマーを用いた多くの下流視覚タスクで驚くべき成功を収めた。
本稿では,トランスフォーマーとCNNの両方に統一的に対応可能なアーキテクチャ非依存型マスケ画像モデリングフレームワーク (A$2$MIM) を提案する。
論文 参考訳(メタデータ) (2022-05-27T12:42:02Z) - Beyond Masking: Demystifying Token-Based Pre-Training for Vision
Transformers [122.01591448013977]
Masked Image Modeling (MIM) は下流タスクにおいて有望な結果を示した。
本稿では,欠落した内容を回復して学習する効果的な方法があるかどうかを考察する。
我々は、トークンベースのビジョントランスフォーマーの事前トレーニングに関するいくつかの設計原則を要約する。
この設計は、余分な計算コストを伴わない一連の下流認識タスクにおいて、MIMよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-03-27T14:23:29Z) - MAML is a Noisy Contrastive Learner [72.04430033118426]
モデルに依存しないメタラーニング(MAML)は、今日では最も人気があり広く採用されているメタラーニングアルゴリズムの1つである。
我々は、MAMLの動作メカニズムに対する新たな視点を提供し、以下に示すように、MAMLは、教師付きコントラスト目的関数を用いたメタラーナーに類似している。
このような干渉を軽減するため, 単純だが効果的な手法であるゼロ化手法を提案する。
論文 参考訳(メタデータ) (2021-06-29T12:52:26Z) - Exploring the Similarity of Representations in Model-Agnostic
Meta-Learning [0.0]
モデルに依存しないメタラーニング(MAML)は、メタラーニングで最も有望なアプローチの1つです。
近年の研究では、MMLは素早い学習よりも機能を再利用している。
神経科学の確立した手法である表現類似性分析(RSA)をMAMLの少数ショット学習インスタンス化に適用する。
論文 参考訳(メタデータ) (2021-05-12T16:20:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。