Fugu-MT 論文翻訳(概要): Architecture-Agnostic Masked Image Modeling -- From ViT back to CNN

論文の概要: Architecture-Agnostic Masked Image Modeling -- From ViT back to CNN

arxiv url: http://arxiv.org/abs/2205.13943v4
Date: Fri, 2 Jun 2023 10:21:16 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-05 21:16:32.935256
Title: Architecture-Agnostic Masked Image Modeling -- From ViT back to CNN
Title（参考訳）: アーキテクチャに依存しないマスク付き画像モデリング - ViTからCNNへ
Authors: Siyuan Li, Di Wu, Fang Wu, Zelin Zang, Stan.Z.Li
Abstract要約: 自己教師型事前学習手法であるマスク付き画像モデリングは、ビジョントランスフォーマーを用いた多くの下流視覚タスクで驚くべき成功を収めた。本稿では,トランスフォーマーとCNNの両方に統一的に対応可能なアーキテクチャ非依存型マスケ画像モデリングフレームワーク (A$2$MIM) を提案する。
参考スコア（独自算出の注目度）: 38.87225202482656
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Masked image modeling, an emerging self-supervised pre-training method, has shown impressive success across numerous downstream vision tasks with Vision transformers. Its underlying idea is simple: a portion of the input image is masked out and then reconstructed via a pre-text task. However, the working principle behind MIM is not well explained, and previous studies insist that MIM primarily works for the Transformer family but is incompatible with CNNs. In this work, we observe that MIM essentially teaches the model to learn better middle-order interactions among patches for more generalized feature extraction. We then propose an Architecture-Agnostic Masked Image Modeling framework (A$^2$MIM), which is compatible with both Transformers and CNNs in a unified way. Extensive experiments on popular benchmarks show that A$^2$MIM learns better representations without explicit design and endows the backbone model with the stronger capability to transfer to various downstream tasks.
Abstract（参考訳）: 自己教師付き事前学習手法であるマスク画像モデリングは、視覚トランスフォーマーを備えた多数の下流の視覚タスクで素晴らしい成功を収めている。その基本的な考え方は単純で、入力画像の一部がマスクアウトされ、テキスト前タスクによって再構築される。しかし、MIMの動作原理はよく説明されておらず、以前の研究では、MIMは主にTransformerファミリーで機能するが、CNNと互換性がないと主張している。そこで本研究では,MIMがより一般化された特徴抽出のために,パッチ間のより優れた中次相互作用を学習するためのモデルを教える。次に、トランスフォーマーとCNNの両方と統一的に互換性のあるアーキテクチャ非依存のマスク付き画像モデリングフレームワーク(A$^2$MIM)を提案する。一般的なベンチマーク実験では、A$^2$MIMは明示的な設計なしにより良い表現を学習し、様々な下流タスクに転送する能力を持つバックボーンモデルを提供する。

関連論文リスト

VisionLLaMA: A Unified LLaMA Backbone for Vision Tasks [60.22144823791902]
我々は,LLaMAライクな視覚トランスフォーマーを,この目的のために設計されたVisionLLaMAと呼ばれる,平らでピラミッド的な形状で披露する。 VisionLLaMAは、ほとんどのビジョンタスクを解決するための統一的で汎用的なモデリングフレームワークである。
論文参考訳（メタデータ） (2024-03-01T13:30:51Z)
Morphing Tokens Draw Strong Masked Image Models [28.356863521946607]
Masked Image Modeling (MIM) はビジョントランスフォーマー(ViT)のトレーニングに有望なアプローチとして登場した。本稿では,動的トークンを動的に集約し,コンテキスト化された目標を出力する動的トーケンモーフィング(DTM)という,新たな自己超越信号を導入する。 DTMはさまざまなSSLフレームワークと互換性があり、DTMを採用することで改善されたMIM結果を示します。
論文参考訳（メタデータ） (2023-12-30T14:53:09Z)
Img2Vec: A Teacher of High Token-Diversity Helps Masked AutoEncoders [17.564722905991776]
我々は、深い特徴を持つマスク画像モデリング(MIM)のためのイメージ・トゥ・ベクター(Img2Vec)のパイプラインを提示する。 Img2Vecは、MIM学習を深く特徴付けるのに適した、シンプルで効果的なフレームワークである。
論文参考訳（メタデータ） (2023-04-25T03:01:37Z)
PixMIM: Rethinking Pixel Reconstruction in Masked Image Modeling [83.67628239775878]
Masked Image Modeling (MIM) は Masked Autoencoders (MAE) と BEiT の出現によって有望な進歩を遂げた。本稿では,画素再構成の観点からMIMの基本解析を行う。我々は,2つの戦略を包含する極めて単純で効果的な方法,weelmethodを提案する。
論文参考訳（メタデータ） (2023-03-04T13:38:51Z)
Instruction-Following Agents with Multimodal Transformer [95.70039658112873]
本稿では,視覚環境下での指示追従課題をロボットが解くための,シンプルで効果的なモデルを提案する。本手法は,視覚観察と言語指示を符号化したマルチモーダルトランスフォーマーからなる。この統一型トランスモデルは, シングルタスクとマルチタスクの両方で, 最先端のトレーニング済みあるいは訓練済みのスクラッチ手法よりも優れていることを示す。
論文参考訳（メタデータ） (2022-10-24T17:46:47Z)
Beyond Masking: Demystifying Token-Based Pre-Training for Vision Transformers [122.01591448013977]
Masked Image Modeling (MIM) は下流タスクにおいて有望な結果を示した。本稿では,欠落した内容を回復して学習する効果的な方法があるかどうかを考察する。我々は、トークンベースのビジョントランスフォーマーの事前トレーニングに関するいくつかの設計原則を要約する。この設計は、余分な計算コストを伴わない一連の下流認識タスクにおいて、MIMよりも優れた性能を実現する。
論文参考訳（メタデータ） (2022-03-27T14:23:29Z)
On Vision Features in Multimodal Machine Translation [34.41229863267296]
我々は,マルチモーダル機械翻訳における画像のパッチレベルの寄与を研究するために,選択的アテンションモデルを開発する。この結果から,MMTモデル,特に現在のベンチマークが小規模でバイアスのある場合,慎重に検討する必要があることが示唆された。
論文参考訳（メタデータ） (2022-03-17T08:51:09Z)
Probing Inter-modality: Visual Parsing with Self-Attention for Vision-Language Pre-training [139.4566371416662]
Vision-Language Pre-Trainingは、画像とテキストのペアからマルチモーダル表現を学ぶことを目的としている。 CNNは、長距離依存をモデル化する際の局所受容野の弱点により、視覚的関係学習に制限がある。
論文参考訳（メタデータ） (2021-06-25T08:04:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。