論文の概要: Vision Backbone Enhancement via Multi-Stage Cross-Scale Attention
- arxiv url: http://arxiv.org/abs/2308.05872v1
- Date: Thu, 10 Aug 2023 22:57:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-14 15:36:20.011031
- Title: Vision Backbone Enhancement via Multi-Stage Cross-Scale Attention
- Title(参考訳): 多段クロススケール注意による視覚バックボーン強化
- Authors: Liang Shang, Yanli Liu, Zhengyang Lou, Shuxue Quan, Nagesh Adluru,
Bochen Guan, William A. Sethares
- Abstract要約: Multi-Stage Cross-Scale Attention (meth)モジュールは、異なるステージからフィーチャーマップを取り、マルチステージのインタラクションを可能にする。
Methprovidesは、わずかに追加のFLOPとランタイムで大幅なパフォーマンス向上を実現している。
- 参考スコア(独自算出の注目度): 5.864291398280124
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Convolutional neural networks (CNNs) and vision transformers (ViTs) have
achieved remarkable success in various vision tasks. However, many
architectures do not consider interactions between feature maps from different
stages and scales, which may limit their performance. In this work, we propose
a simple add-on attention module to overcome these limitations via multi-stage
and cross-scale interactions. Specifically, the proposed Multi-Stage
Cross-Scale Attention (\meth) module takes feature maps from different stages
to enable multi-stage interactions and achieves cross-scale interactions by
computing self-attention at different scales based on the multi-stage feature
maps. Our experiments on several downstream tasks show that \meth~provides a
significant performance boost with modest additional FLOPs and runtime.
- Abstract(参考訳): 畳み込みニューラルネットワーク(cnns)と視覚トランスフォーマー(vits)は、様々な視覚タスクで顕著な成功を収めている。
しかし、多くのアーキテクチャは異なるステージとスケールのフィーチャマップ間の相互作用を考慮せず、パフォーマンスを制限している。
本研究では,マルチステージおよびクロススケールインタラクションによってこれらの制限を克服する,シンプルなアドオンアテンションモジュールを提案する。
具体的には,マルチステージ・クロススケール・アテンション(Big-Stage Cross-Scale Attention,\meth)モジュールは,多段階インタラクションを実現するために,異なる段階からの特徴マップを取り込み,多段階特徴マップに基づいて,異なるスケールでの自己アテンションを計算することで,クロススケールインタラクションを実現する。
いくつかのダウンストリームタスクに関する実験では,<meth~>がFLOPとランタイムを加味して大幅なパフォーマンス向上を実現している。
関連論文リスト
- Semi-supervised Semantic Segmentation for Remote Sensing Images via Multi-scale Uncertainty Consistency and Cross-Teacher-Student Attention [59.19580789952102]
本稿では,RS画像セマンティックセグメンテーションタスクのための,新しい半教師付きマルチスケール不確かさとクロスTeacher-Student Attention(MUCA)モデルを提案する。
MUCAは、マルチスケールの不確実性整合正則化を導入することにより、ネットワークの異なる層における特徴写像間の整合性を制限する。
MUCAは学生ネットワークの誘導にクロス教師・学生の注意機構を使用し、学生ネットワークにより差別的な特徴表現を構築するよう誘導する。
論文 参考訳(メタデータ) (2025-01-18T11:57:20Z) - Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。
この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。
テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文 参考訳(メタデータ) (2024-12-26T05:41:31Z) - Multi-Level Embedding and Alignment Network with Consistency and Invariance Learning for Cross-View Geo-Localization [2.733505168507872]
CVGL(Cross-View Geo-Localization)は、最もよく似たGPSタグ付き衛星画像を取得することで、ドローン画像のローカライゼーションを決定する。
既存の手法は、モデルの性能を改善する際に、計算と記憶の要求が増大する問題をしばしば見落としている。
マルチレベル・エンベディング・アライメント・ネットワーク(MEAN)と呼ばれる軽量なアライメント・ネットワークを提案する。
論文 参考訳(メタデータ) (2024-12-19T13:10:38Z) - HSVLT: Hierarchical Scale-Aware Vision-Language Transformer for Multi-Label Image Classification [15.129037250680582]
厳密な視覚-言語相互作用は、分類性能を改善する上で重要な役割を担っている。
近年のTransformerベースの手法は,マルチラベル画像分類において大きな成功を収めている。
本稿では,2つの魅力ある設計を持つ階層型視標変換器 (HSVLT) を提案する。
論文 参考訳(メタデータ) (2024-07-23T07:31:42Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - Demystify Transformers & Convolutions in Modern Image Deep Networks [80.16624587948368]
本稿では,一般のコンボリューションとアテンション演算子の真の利益を,詳細な研究により同定することを目的とする。
注意や畳み込みのようなこれらの特徴変換モジュールの主な違いは、それらの空間的特徴集約アプローチにある。
様々なSTMが統合されたフレームワークに統合され、包括的な比較分析を行う。
論文 参考訳(メタデータ) (2022-11-10T18:59:43Z) - Sequential Cross Attention Based Multi-task Learning [22.430705836627148]
本稿では,タスクのマルチスケール機能にアテンション機構を適用することで,情報伝達を効果的に行う新しいアーキテクチャを提案する。
提案手法は,NYUD-v2およびPASCAL-Contextデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-09-06T14:17:33Z) - Learning Visual Representation from Modality-Shared Contrastive
Language-Image Pre-training [88.80694147730883]
本稿では,多種多様なモダリティ共有コントラスト言語-画像事前学習(MS-CLIP)フレームワークについて検討する。
学習条件下では、視覚と言語信号のためのほとんど統一されたエンコーダが、より多くのパラメータを分離する他のすべてのバリエーションより優れていることが観察された。
我々のアプローチは、24の下流視覚タスクのコレクションに基づいて、線形探索においてバニラCLIPを1.6ポイント上回ります。
論文 参考訳(メタデータ) (2022-07-26T05:19:16Z) - Progressive Multi-stage Interactive Training in Mobile Network for
Fine-grained Recognition [8.727216421226814]
再帰型モザイク発電機(RMG-PMSI)を用いたプログレッシブ多段階インタラクティブトレーニング手法を提案する。
まず、異なる位相の異なる画像を生成する再帰モザイク発生器(RMG)を提案する。
次に、異なるステージの特徴は、異なるステージの対応する特徴を強化し補完するマルチステージインタラクション(MSI)モジュールを通過する。
RMG-PMSIは高い堅牢性と伝達性で性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2021-12-08T10:50:03Z) - Encoder Fusion Network with Co-Attention Embedding for Referring Image
Segmentation [87.01669173673288]
本稿では,視覚的エンコーダをマルチモーダルな特徴学習ネットワークに変換するエンコーダ融合ネットワーク(EFN)を提案する。
EFNには、マルチモーダル機能の並列更新を実現するコアテンションメカニズムが組み込まれている。
4つのベンチマークデータセットによる実験結果から,提案手法がポストプロセッシングを伴わずに最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-05-05T02:27:25Z) - Cross-Level Cross-Scale Cross-Attention Network for Point Cloud
Representation [8.76786786874107]
最近、自然言語処理(NLP)と画像処理領域の顕著な進歩を達成した自己保持メカニズム。
ポイントクラウド表現学習のためのクロスレベルクロススケールクロスアテンションネットワーク(CLCSCANet)と呼ばれるエンドツーエンドアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-04-27T09:01:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。