論文の概要: Revisiting the Integration of Convolution and Attention for Vision Backbone
- arxiv url: http://arxiv.org/abs/2411.14429v1
- Date: Thu, 21 Nov 2024 18:59:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-22 15:20:16.080024
- Title: Revisiting the Integration of Convolution and Attention for Vision Backbone
- Title(参考訳): ビジョンバックボーンにおける畳み込みと注意の融合の再検討
- Authors: Lei Zhu, Xinjiang Wang, Wayne Zhang, Rynson W. H. Lau,
- Abstract要約: 畳み込みとMHSA(Multi-head self-attentions)は一般的に、視覚バックボーンを構築するための代替手段であると考えられている。
そこで本研究では,MSHAとConvsを,異なる粒度レベルで並列的に使用することを提案する。
我々は,提案手法であるtextitGLMix の可能性を実証的に検証した。軽量なConvs に細粒度機能の負荷をオフロードすることで,いくつかのセマンティックスロットで MHSAs を使用するのに十分である。
- 参考スコア(独自算出の注目度): 59.50256661158862
- License:
- Abstract: Convolutions (Convs) and multi-head self-attentions (MHSAs) are typically considered alternatives to each other for building vision backbones. Although some works try to integrate both, they apply the two operators simultaneously at the finest pixel granularity. With Convs responsible for per-pixel feature extraction already, the question is whether we still need to include the heavy MHSAs at such a fine-grained level. In fact, this is the root cause of the scalability issue w.r.t. the input resolution for vision transformers. To address this important problem, we propose in this work to use MSHAs and Convs in parallel \textbf{at different granularity levels} instead. Specifically, in each layer, we use two different ways to represent an image: a fine-grained regular grid and a coarse-grained set of semantic slots. We apply different operations to these two representations: Convs to the grid for local features, and MHSAs to the slots for global features. A pair of fully differentiable soft clustering and dispatching modules is introduced to bridge the grid and set representations, thus enabling local-global fusion. Through extensive experiments on various vision tasks, we empirically verify the potential of the proposed integration scheme, named \textit{GLMix}: by offloading the burden of fine-grained features to light-weight Convs, it is sufficient to use MHSAs in a few (e.g., 64) semantic slots to match the performance of recent state-of-the-art backbones, while being more efficient. Our visualization results also demonstrate that the soft clustering module produces a meaningful semantic grouping effect with only IN1k classification supervision, which may induce better interpretability and inspire new weakly-supervised semantic segmentation approaches. Code will be available at \url{https://github.com/rayleizhu/GLMix}.
- Abstract(参考訳): コンボリューション(Convs)とマルチヘッド・セルフアテンション(MHSA)は一般的に、視覚バックボーンを構築するための代替手段であると考えられている。
どちらも統合しようとする研究もあるが、2つの演算子を最も細かいピクセルの粒度で同時に適用する。
Convsがピクセル単位の機能抽出にすでに責任を負っていることから、疑問は、そのようなきめ細かいレベルで重いMHSAを組み込む必要があるかどうかである。
実際、これは視覚変換器の入力分解能に関するスケーラビリティの問題の根本原因である。
この重要な問題に対処するために、我々は代わりにMSHAとConvsをパラレルな \textbf{at different granularity levels} で使用することを提案する。
具体的には、各レイヤにおいて、画像を表現するために、きめ細かい正規格子と粗いセマンティックスロットのセットの2つの異なる方法を使用する。
これら2つの表現に異なる操作を適用する: 局所的な特徴のグリッドへの凸、グローバルな特徴のスロットへのMHSA。
グリッドとセット表現をブリッジするために、完全に微分可能なソフトクラスタリングとディスパッチモジュールが導入された。
様々な視覚タスクに関する広範な実験を通じて,提案手法の可能性を実証的に検証した。「textit{GLMix}」は,軽量なConvsに細粒度特徴の重みをオフロードすることで,最近の最先端のバックボーンの性能に合うように,MHSAsをいくつかの(例, 64)セマンティックスロットで使用するのに十分である。
可視化の結果, ソフトクラスタリングモジュールは, IN1k分類の監督のみで意味のあるセマンティックグルーピング効果を生み出すことが明らかとなった。
コードは \url{https://github.com/rayleizhu/GLMix} で入手できる。
関連論文リスト
- MROVSeg: Breaking the Resolution Curse of Vision-Language Models in Open-Vocabulary Semantic Segmentation [33.67313662538398]
オープン語彙セマンティックセマンティックセグメンテーションのためのマルチレゾリューション・トレーニング・フレームワークを提案する。
MROVSegはスライディングウィンドウを使用して高解像度の入力を均一なパッチにスライスし、それぞれがよく訓練されたイメージエンコーダの入力サイズと一致する。
オープン語彙セマンティックセグメンテーションベンチマークにおけるMROVSegの優位性を実証する。
論文 参考訳(メタデータ) (2024-08-27T04:45:53Z) - Multi-interactive Feature Learning and a Full-time Multi-modality
Benchmark for Image Fusion and Segmentation [66.15246197473897]
多モード画像融合とセグメンテーションは、自律走行とロボット操作において重要な役割を果たす。
画像融合とtextbfSegmentation のための textbfMulti-textbfinteractive textbfFeature Learning アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-08-04T01:03:58Z) - Image as Set of Points [60.30495338399321]
コンテキストクラスタ(CoC)は、イメージを非組織的なポイントの集合と見なし、単純化されたクラスタリングアルゴリズムによって特徴を抽出する。
われわれのCoCは畳み込みと無注意で、空間的相互作用のためのクラスタリングアルゴリズムにのみ依存している。
論文 参考訳(メタデータ) (2023-03-02T18:56:39Z) - MAFormer: A Transformer Network with Multi-scale Attention Fusion for
Visual Recognition [45.68567088645708]
マルチスケールアテンションフュージョンを変換器(MAFormer)に導入する。
MAFormerは、視覚認識のためのデュアルストリームフレームワークにおいて、局所的な集約とグローバルな特徴抽出について検討する。
私たちのMAFormerは、一般的な視覚タスクで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2022-08-31T06:29:27Z) - Learning Granularity-Unified Representations for Text-to-Image Person
Re-identification [29.04254233799353]
ReID(text-to-image person re-identification)は、関心のある人物の歩行者イメージをテキスト記述で検索することを目的としている。
現存する作品は、通常、2つのモード間の特徴の粒度の違いを無視する。
本稿では,LGURと表記される両モードの粒度統一表現を学習するためのトランスフォーマーに基づくエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-16T01:26:10Z) - All Grains, One Scheme (AGOS): Learning Multi-grain Instance
Representation for Aerial Scene Classification [31.412401135677744]
本稿では,これらの課題に対処するための新しい枠組みである1つのスキーム(AGOS)を提案する。
マルチグラインド認識モジュール(MGP)、マルチブランチマルチインスタンス表現モジュール(MBMIR)、自己整合セマンティックフュージョン(SSF)モジュールで構成される。
当社のAGOSは柔軟で,既存のCNNにプラグイン・アンド・プレイで容易に対応できる。
論文 参考訳(メタデータ) (2022-05-06T17:10:44Z) - Vision Transformers with Hierarchical Attention [61.16912607330001]
本稿では、視覚変換器におけるMHSA(Multi-Head Self-Attention)に関連する計算・空間の複雑さに対処する。
階層型MHSA(Hierarchical MHSA, H-MHSA)を提案する。
我々は階層型アテンションベースのトランスフォーマーネットワーク,すなわちHAT-Netのファミリを構築する。
論文 参考訳(メタデータ) (2021-06-06T17:01:13Z) - Conformer: Local Features Coupling Global Representations for Visual
Recognition [72.9550481476101]
本稿では,畳み込み操作と自己アテンション機構を利用した表現学習のためのハイブリッドネットワーク構造,conformerを提案する。
実験では、コンフォーマーが同等のパラメータ複雑性の下で視覚変換器(DeiT-B)を2.3%上回ることが示されている。
論文 参考訳(メタデータ) (2021-05-09T10:00:03Z) - CARAFE++: Unified Content-Aware ReAssembly of FEatures [132.49582482421246]
この目標を達成するために、ユニバーサルで軽量で高効率なオペレータであるContent-Aware ReAssembly of FEatures(CARAFE++)を提案します。
CARAFE++は、インスタンス固有のコンテンツ認識処理を可能にするアダプティブカーネルをオンザフライで生成する。
計算のオーバーヘッドが無視できるすべてのタスクにおいて、一貫性と実質的な利益を示しています。
論文 参考訳(メタデータ) (2020-12-07T07:34:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。