論文の概要: MVFormer: Diversifying Feature Normalization and Token Mixing for Efficient Vision Transformers
- arxiv url: http://arxiv.org/abs/2411.18995v1
- Date: Thu, 28 Nov 2024 08:49:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:20:15.731711
- Title: MVFormer: Diversifying Feature Normalization and Token Mixing for Efficient Vision Transformers
- Title(参考訳): MVFormer:効率的な視覚変換器のための特徴正規化とトークン混合の多様化
- Authors: Jongseong Bae, Susang Kim, Minsu Cho, Ha Young Kim,
- Abstract要約: マルチビュー正規化(MVN)と呼ばれる正規化モジュールと、マルチビュートークンミキサー(MVTM)と呼ばれるトークンミキサーを提案する。
MVNは、学習可能な重み付け和を使用して、バッチ、レイヤ、インスタンス正規化という3つの異なる正規化機能を統合する。
MVTMは、局所フィルタ、中間フィルタ、グローバルフィルタを備えた畳み込みベースのマルチスケールトークンミキサーである。
- 参考スコア(独自算出の注目度): 41.24966292625942
- License:
- Abstract: Active research is currently underway to enhance the efficiency of vision transformers (ViTs). Most studies have focused solely on effective token mixers, overlooking the potential relationship with normalization. To boost diverse feature learning, we propose two components: a normalization module called multi-view normalization (MVN) and a token mixer called multi-view token mixer (MVTM). The MVN integrates three differently normalized features via batch, layer, and instance normalization using a learnable weighted sum. Each normalization method outputs a different distribution, generating distinct features. Thus, the MVN is expected to offer diverse pattern information to the token mixer, resulting in beneficial synergy. The MVTM is a convolution-based multiscale token mixer with local, intermediate, and global filters, and it incorporates stage specificity by configuring various receptive fields for the token mixer at each stage, efficiently capturing ranges of visual patterns. We propose a novel ViT model, multi-vision transformer (MVFormer), adopting the MVN and MVTM in the MetaFormer block, the generalized ViT scheme. Our MVFormer outperforms state-of-the-art convolution-based ViTs on image classification, object detection, and instance and semantic segmentation with the same or lower parameters and MACs. Particularly, MVFormer variants, MVFormer-T, S, and B achieve 83.4%, 84.3%, and 84.6% top-1 accuracy, respectively, on ImageNet-1K benchmark.
- Abstract(参考訳): 現在、視覚変換器(ViT)の効率を高めるために活発な研究が進行中である。
ほとんどの研究は、効果的なトークンミキサーにのみ焦点を合わせ、正規化との潜在的な関係を見越した。
多様な特徴学習を促進するために,マルチビュー正規化(MVN)と呼ばれる正規化モジュールと,マルチビュートークンミキサー(MVTM)と呼ばれるトークンミキサーの2つのコンポーネントを提案する。
MVNは、学習可能な重み付け和を使用して、バッチ、レイヤ、インスタンス正規化という3つの異なる正規化機能を統合する。
各正規化法は異なる分布を出力し、異なる特徴を生成する。
したがって、MVNはトークンミキサーに多様なパターン情報を提供し、有益な相乗効果をもたらすことが期待されている。
MVTMは、局所フィルタ、中間フィルタ、グローバルフィルタを備えた畳み込みベースのマルチスケールトークンミキサーであり、各ステージでトークンミキサーの様々な受容フィールドを設定し、視覚パターンの範囲を効率的に捉えることで、ステージ特異性を取り入れている。
本稿では,MetaFormer ブロックに MVN と MVTM を採用した新しい ViT モデルである Multi-vision transformer (MVFormer) を提案する。
我々のMVFormerは、画像分類、オブジェクト検出、インスタンスとセマンティックセグメンテーションにおいて、最先端の畳み込みベースのViTよりも優れています。
特にMVFormerの変種であるMVFormer-T、S、Bは、ImageNet-1Kベンチマークでそれぞれ83.4%、84.3%、84.6%のトップ1の精度を達成した。
関連論文リスト
- MVSFormer++: Revealing the Devil in Transformer's Details for Multi-View
Stereo [60.75684891484619]
我々は、MVSパイプラインの様々なコンポーネントを強化するために、注意の特性を最大化するMVSFormer++を紹介する。
特徴エンコーダとコスト容積正規化には異なる注意機構を用い,それぞれ特徴量と空間的アグリゲーションに着目した。
DTU, タンク・アンド・テンプル, BlendedMVS, ETH3Dの総合的な実験により, 提案手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-01-22T03:22:49Z) - Deformable Mixer Transformer with Gating for Multi-Task Learning of
Dense Prediction [126.34551436845133]
CNNとTransformerには独自の利点があり、MTL(Multi-task Learning)の高密度予測に広く使われている。
本稿では,変形可能なCNNと問合せベースのTransformerの長所を共用したMTLモデルを提案する。
論文 参考訳(メタデータ) (2023-08-10T17:37:49Z) - MMViT: Multiscale Multiview Vision Transformers [36.93551299085767]
本稿では,マルチスケール・マルチビュー・ビジョン・トランスフォーマ (MMViT) を提案する。
我々のモデルは入力信号の異なるビューを符号化し、複数のチャンネル解像度の特徴段階を構築し、異なる解像度の入力の複数のビューを並列に処理する。
本稿では,MMViTが音声および画像の分類作業に有効であることを示す。
論文 参考訳(メタデータ) (2023-04-28T21:51:41Z) - MV-Adapter: Multimodal Video Transfer Learning for Video Text Retrieval [60.454321238910474]
最先端のビデオテキスト検索手法は、通常、特定のデータセット上で事前訓練されたモデルを完全に微調整する。
本稿では,事前学習モデルを用いてパラメータ効率の高いVTRを実現する先駆的手法を提案する。
本稿では,Multimodal Video Adapter (MV-Adapter) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-01-19T03:42:56Z) - MAFormer: A Transformer Network with Multi-scale Attention Fusion for
Visual Recognition [45.68567088645708]
マルチスケールアテンションフュージョンを変換器(MAFormer)に導入する。
MAFormerは、視覚認識のためのデュアルストリームフレームワークにおいて、局所的な集約とグローバルな特徴抽出について検討する。
私たちのMAFormerは、一般的な視覚タスクで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2022-08-31T06:29:27Z) - MulT: An End-to-End Multitask Learning Transformer [66.52419626048115]
我々はMulTと呼ばれるエンドツーエンドのマルチタスク学習トランスフォーマフレームワークを提案し、複数のハイレベル視覚タスクを同時に学習する。
本フレームワークは,入力画像を共有表現にエンコードし,タスク固有のトランスフォーマーベースのデコーダヘッドを用いて各視覚タスクの予測を行う。
論文 参考訳(メタデータ) (2022-05-17T13:03:18Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - MPViT: Multi-Path Vision Transformer for Dense Prediction [43.89623453679854]
Vision Transformers (ViTs) は、単一スケールパッチによるマルチスケール表現のためのシンプルなマルチステージ構造を構築する。
OuriTsのスケールは5Mから73Mまでで、最先端のVision Transformerよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2021-12-21T06:34:50Z) - TransMVSNet: Global Context-aware Multi-view Stereo Network with
Transformers [6.205844084751411]
マルチビューステレオ(MVS)における特徴マッチングの探索に基づくTransMVSNetを提案する。
本研究では,FMT(Feature Matching Transformer)を提案する。
提案手法は,DTUデータセット,タンク・アンド・テンプルベンチマーク,およびBlendedMVSデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2021-11-29T15:31:49Z) - MM-ViT: Multi-Modal Video Transformer for Compressed Video Action
Recognition [11.573689558780764]
本稿では,ビデオアクション認識のためのMulti-Modal Video Transformer(MM-Vi)と呼ばれる,純粋なトランスフォーマーベースのアプローチを提案する。
複数のモダリティから抽出された多数のトークンを扱うために、空間、時間、モダリティ次元をまたいだ自己注意を分解するいくつかのモデル変種を開発する。
3つの公開行動認識ベンチマーク(UCF-101, Something-Something-v2, Kinetics-600)の大規模な実験は、MM-ViTが最先端のビデオトランスフォーマーよりも効率と精度で優れていることを示した。
論文 参考訳(メタデータ) (2021-08-20T18:05:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。