論文の概要: Architecture-Agnostic Masked Image Modeling -- From ViT back to CNN
- arxiv url: http://arxiv.org/abs/2205.13943v4
- Date: Fri, 2 Jun 2023 10:21:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 21:16:32.935256
- Title: Architecture-Agnostic Masked Image Modeling -- From ViT back to CNN
- Title(参考訳): アーキテクチャに依存しないマスク付き画像モデリング - ViTからCNNへ
- Authors: Siyuan Li, Di Wu, Fang Wu, Zelin Zang, Stan.Z.Li
- Abstract要約: 自己教師型事前学習手法であるマスク付き画像モデリングは、ビジョントランスフォーマーを用いた多くの下流視覚タスクで驚くべき成功を収めた。
本稿では,トランスフォーマーとCNNの両方に統一的に対応可能なアーキテクチャ非依存型マスケ画像モデリングフレームワーク (A$2$MIM) を提案する。
- 参考スコア(独自算出の注目度): 38.87225202482656
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Masked image modeling, an emerging self-supervised pre-training method, has
shown impressive success across numerous downstream vision tasks with Vision
transformers. Its underlying idea is simple: a portion of the input image is
masked out and then reconstructed via a pre-text task. However, the working
principle behind MIM is not well explained, and previous studies insist that
MIM primarily works for the Transformer family but is incompatible with CNNs.
In this work, we observe that MIM essentially teaches the model to learn better
middle-order interactions among patches for more generalized feature
extraction. We then propose an Architecture-Agnostic Masked Image Modeling
framework (A$^2$MIM), which is compatible with both Transformers and CNNs in a
unified way. Extensive experiments on popular benchmarks show that A$^2$MIM
learns better representations without explicit design and endows the backbone
model with the stronger capability to transfer to various downstream tasks.
- Abstract(参考訳): 自己教師付き事前学習手法であるマスク画像モデリングは、視覚トランスフォーマーを備えた多数の下流の視覚タスクで素晴らしい成功を収めている。
その基本的な考え方は単純で、入力画像の一部がマスクアウトされ、テキスト前タスクによって再構築される。
しかし、MIMの動作原理はよく説明されておらず、以前の研究では、MIMは主にTransformerファミリーで機能するが、CNNと互換性がないと主張している。
そこで本研究では,MIMがより一般化された特徴抽出のために,パッチ間のより優れた中次相互作用を学習するためのモデルを教える。
次に、トランスフォーマーとCNNの両方と統一的に互換性のあるアーキテクチャ非依存のマスク付き画像モデリングフレームワーク(A$^2$MIM)を提案する。
一般的なベンチマーク実験では、A$^2$MIMは明示的な設計なしにより良い表現を学習し、様々な下流タスクに転送する能力を持つバックボーンモデルを提供する。
関連論文リスト
- Masked Image Modeling via Dynamic Token Morphing [31.870272819265058]
Masked Image Modeling (MIM)は、様々な自己教師付き学習(SSL)メソッドの中でビジョントランスフォーマーにとって有望な選択肢である。
本稿では動的トークンを動的に集約する動的トークンモーフィング(DTM)に基づく新しい自己超越信号を提案する。
DTMは一般的に様々なSSLフレームワークに適用できるが,DTMを利用するシンプルなMIMを提案する。
論文 参考訳(メタデータ) (2023-12-30T14:53:09Z) - PixMIM: Rethinking Pixel Reconstruction in Masked Image Modeling [83.67628239775878]
Masked Image Modeling (MIM) は Masked Autoencoders (MAE) と BEiT の出現によって有望な進歩を遂げた。
本稿では,画素再構成の観点からMIMの基本解析を行う。
我々は,2つの戦略を包含する極めて単純で効果的な方法,weelmethodを提案する。
論文 参考訳(メタデータ) (2023-03-04T13:38:51Z) - Instruction-Following Agents with Multimodal Transformer [95.70039658112873]
本稿では,視覚環境下での指示追従課題をロボットが解くための,シンプルで効果的なモデルを提案する。
本手法は,視覚観察と言語指示を符号化したマルチモーダルトランスフォーマーからなる。
この統一型トランスモデルは, シングルタスクとマルチタスクの両方で, 最先端のトレーニング済みあるいは訓練済みのスクラッチ手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-24T17:46:47Z) - Beyond Masking: Demystifying Token-Based Pre-Training for Vision
Transformers [122.01591448013977]
Masked Image Modeling (MIM) は下流タスクにおいて有望な結果を示した。
本稿では,欠落した内容を回復して学習する効果的な方法があるかどうかを考察する。
我々は、トークンベースのビジョントランスフォーマーの事前トレーニングに関するいくつかの設計原則を要約する。
この設計は、余分な計算コストを伴わない一連の下流認識タスクにおいて、MIMよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-03-27T14:23:29Z) - On Vision Features in Multimodal Machine Translation [34.41229863267296]
我々は,マルチモーダル機械翻訳における画像のパッチレベルの寄与を研究するために,選択的アテンションモデルを開発する。
この結果から,MMTモデル,特に現在のベンチマークが小規模でバイアスのある場合,慎重に検討する必要があることが示唆された。
論文 参考訳(メタデータ) (2022-03-17T08:51:09Z) - VIOLET : End-to-End Video-Language Transformers with Masked Visual-token
Modeling [88.30109041658618]
ビデオ言語(VidL)モデリングにおける大きな課題は、画像/映像理解モデルから抽出された固定されたビデオ表現と、下流のVidLデータとの切り離しにある。
我々は、ビデオ入力の時間的ダイナミクスを明示的にモデル化するビデオトランスを採用した、完全なエンドツーエンドVIdeO-LanguagE変換器であるVIOLETを提案する。
論文 参考訳(メタデータ) (2021-11-24T18:31:20Z) - Probing Inter-modality: Visual Parsing with Self-Attention for
Vision-Language Pre-training [139.4566371416662]
Vision-Language Pre-Trainingは、画像とテキストのペアからマルチモーダル表現を学ぶことを目的としている。
CNNは、長距離依存をモデル化する際の局所受容野の弱点により、視覚的関係学習に制限がある。
論文 参考訳(メタデータ) (2021-06-25T08:04:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。