論文の概要: Architecture-Agnostic Masked Image Modeling -- From ViT back to CNN
- arxiv url: http://arxiv.org/abs/2205.13943v1
- Date: Fri, 27 May 2022 12:42:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-30 12:56:38.051547
- Title: Architecture-Agnostic Masked Image Modeling -- From ViT back to CNN
- Title(参考訳): アーキテクチャに依存しないマスク付き画像モデリング - ViTからCNNへ
- Authors: Siyuan Li, Di Wu, Fang Wu, Zelin Zang, Kai Wang, Lei Shang, Baigui
Sun, Hao Li, Stan.Z.Li
- Abstract要約: マスク付き画像モデリング(MIM)は、視覚トランスフォーマー(ViT)を用いた多くの下流視覚タスクにおいて素晴らしい成功を収めている。
本稿では,トランスフォーマだけでなくCNNとも互換性のあるアーキテクチャ非依存のマスク付き画像モデリングフレームワーク(A$2$MIM)を提案する。
- 参考スコア(独自算出の注目度): 40.25146143830986
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Masked image modeling (MIM), an emerging self-supervised pre-training method,
has shown impressive success across numerous downstream vision tasks with
Vision transformers (ViT). Its underlying idea is simple: a portion of the
input image is randomly masked out and then reconstructed via the pre-text
task. However, why MIM works well is not well explained, and previous studies
insist that MIM primarily works for the Transformer family but is incompatible
with CNNs. In this paper, we first study interactions among patches to
understand what knowledge is learned and how it is acquired via the MIM task.
We observe that MIM essentially teaches the model to learn better middle-level
interactions among patches and extract more generalized features. Based on this
fact, we propose an Architecture-Agnostic Masked Image Modeling framework
(A$^2$MIM), which is compatible with not only Transformers but also CNNs in a
unified way. Extensive experiments on popular benchmarks show that our A$^2$MIM
learns better representations and endows the backbone model with the stronger
capability to transfer to various downstream tasks for both Transformers and
CNNs.
- Abstract(参考訳): Masked Image Modeling (MIM) は、視覚トランスフォーマー(ViT)を用いた多くの下流視覚タスクにおいて、目覚ましい成功を収めている。
その基本的な考え方は単純で、入力画像の一部がランダムにマスクアウトされ、テキスト前タスクによって再構築される。
しかし、なぜMIMがうまく機能するのかはよく説明されておらず、以前の研究では、MIMは主にTransformerファミリーで機能するが、CNNと互換性がないと主張している。
本稿では,まずパッチ間の相互作用を研究し,学習した知識と,それがmimタスクを通じてどのように獲得されるかを理解する。
我々は、MIMが本質的に、パッチ間のより優れた中間レベル相互作用を学習し、より一般化された特徴を抽出するモデルを教えることを観察する。
この事実に基づいて,トランスフォーマーだけでなく,CNNと統一的に互換性のあるアーキテクチャ非依存型マスケード画像モデリングフレームワーク(A$^2$MIM)を提案する。
一般的なベンチマーク実験では、A$^2$MIMはより良い表現を学習し、トランスフォーマーとCNNの両方で様々な下流タスクに転送する機能を持つバックボーンモデルを提供する。
関連論文リスト
- VisionLLaMA: A Unified LLaMA Backbone for Vision Tasks [60.22144823791902]
我々は,LLaMAライクな視覚トランスフォーマーを,この目的のために設計されたVisionLLaMAと呼ばれる,平らでピラミッド的な形状で披露する。
VisionLLaMAは、ほとんどのビジョンタスクを解決するための統一的で汎用的なモデリングフレームワークである。
論文 参考訳(メタデータ) (2024-03-01T13:30:51Z) - Morphing Tokens Draw Strong Masked Image Models [28.356863521946607]
Masked Image Modeling (MIM) はビジョントランスフォーマー(ViT)のトレーニングに有望なアプローチとして登場した。
本稿では,動的トークンを動的に集約し,コンテキスト化された目標を出力する動的トーケンモーフィング(DTM)という,新たな自己超越信号を導入する。
DTMはさまざまなSSLフレームワークと互換性があり、DTMを採用することで改善されたMIM結果を示します。
論文 参考訳(メタデータ) (2023-12-30T14:53:09Z) - PixMIM: Rethinking Pixel Reconstruction in Masked Image Modeling [83.67628239775878]
Masked Image Modeling (MIM) は Masked Autoencoders (MAE) と BEiT の出現によって有望な進歩を遂げた。
本稿では,画素再構成の観点からMIMの基本解析を行う。
我々は,2つの戦略を包含する極めて単純で効果的な方法,weelmethodを提案する。
論文 参考訳(メタデータ) (2023-03-04T13:38:51Z) - Instruction-Following Agents with Multimodal Transformer [95.70039658112873]
本稿では,視覚環境下での指示追従課題をロボットが解くための,シンプルで効果的なモデルを提案する。
本手法は,視覚観察と言語指示を符号化したマルチモーダルトランスフォーマーからなる。
この統一型トランスモデルは, シングルタスクとマルチタスクの両方で, 最先端のトレーニング済みあるいは訓練済みのスクラッチ手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-24T17:46:47Z) - Beyond Masking: Demystifying Token-Based Pre-Training for Vision
Transformers [122.01591448013977]
Masked Image Modeling (MIM) は下流タスクにおいて有望な結果を示した。
本稿では,欠落した内容を回復して学習する効果的な方法があるかどうかを考察する。
我々は、トークンベースのビジョントランスフォーマーの事前トレーニングに関するいくつかの設計原則を要約する。
この設計は、余分な計算コストを伴わない一連の下流認識タスクにおいて、MIMよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-03-27T14:23:29Z) - On Vision Features in Multimodal Machine Translation [34.41229863267296]
我々は,マルチモーダル機械翻訳における画像のパッチレベルの寄与を研究するために,選択的アテンションモデルを開発する。
この結果から,MMTモデル,特に現在のベンチマークが小規模でバイアスのある場合,慎重に検討する必要があることが示唆された。
論文 参考訳(メタデータ) (2022-03-17T08:51:09Z) - Probing Inter-modality: Visual Parsing with Self-Attention for
Vision-Language Pre-training [139.4566371416662]
Vision-Language Pre-Trainingは、画像とテキストのペアからマルチモーダル表現を学ぶことを目的としている。
CNNは、長距離依存をモデル化する際の局所受容野の弱点により、視覚的関係学習に制限がある。
論文 参考訳(メタデータ) (2021-06-25T08:04:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。