Fugu-MT 論文翻訳(概要): Vision Backbone Enhancement via Multi-Stage Cross-Scale Attention

論文の概要: Vision Backbone Enhancement via Multi-Stage Cross-Scale Attention

arxiv url: http://arxiv.org/abs/2308.05872v1
Date: Thu, 10 Aug 2023 22:57:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-14 15:36:20.011031
Title: Vision Backbone Enhancement via Multi-Stage Cross-Scale Attention
Title（参考訳）: 多段クロススケール注意による視覚バックボーン強化
Authors: Liang Shang, Yanli Liu, Zhengyang Lou, Shuxue Quan, Nagesh Adluru, Bochen Guan, William A. Sethares
Abstract要約: Multi-Stage Cross-Scale Attention (meth)モジュールは、異なるステージからフィーチャーマップを取り、マルチステージのインタラクションを可能にする。 Methprovidesは、わずかに追加のFLOPとランタイムで大幅なパフォーマンス向上を実現している。
参考スコア（独自算出の注目度）: 5.864291398280124
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Convolutional neural networks (CNNs) and vision transformers (ViTs) have achieved remarkable success in various vision tasks. However, many architectures do not consider interactions between feature maps from different stages and scales, which may limit their performance. In this work, we propose a simple add-on attention module to overcome these limitations via multi-stage and cross-scale interactions. Specifically, the proposed Multi-Stage Cross-Scale Attention (\meth) module takes feature maps from different stages to enable multi-stage interactions and achieves cross-scale interactions by computing self-attention at different scales based on the multi-stage feature maps. Our experiments on several downstream tasks show that \meth~provides a significant performance boost with modest additional FLOPs and runtime.
Abstract（参考訳）: 畳み込みニューラルネットワーク(cnns)と視覚トランスフォーマー(vits)は、様々な視覚タスクで顕著な成功を収めている。しかし、多くのアーキテクチャは異なるステージとスケールのフィーチャマップ間の相互作用を考慮せず、パフォーマンスを制限している。本研究では,マルチステージおよびクロススケールインタラクションによってこれらの制限を克服する,シンプルなアドオンアテンションモジュールを提案する。具体的には,マルチステージ・クロススケール・アテンション(Big-Stage Cross-Scale Attention,\meth)モジュールは,多段階インタラクションを実現するために,異なる段階からの特徴マップを取り込み,多段階特徴マップに基づいて,異なるスケールでの自己アテンションを計算することで,クロススケールインタラクションを実現する。いくつかのダウンストリームタスクに関する実験では,<meth~>がFLOPとランタイムを加味して大幅なパフォーマンス向上を実現している。

関連論文リスト

XR-VLM: Cross-Relationship Modeling with Multi-part Prompts and Visual Features for Fine-Grained Recognition [20.989787824067143]
XR-VLMは、相互関係をモデル化することによって微妙な違いを発見する新しいメカニズムである。マルチパースペクティブな記述をキャプチャするマルチパート・プロンプト学習モジュールを開発した。提案手法は,現在の最先端手法と比較して,大幅な改善を実現している。
論文参考訳（メタデータ） (2025-03-10T08:58:05Z)
Semi-supervised Semantic Segmentation for Remote Sensing Images via Multi-scale Uncertainty Consistency and Cross-Teacher-Student Attention [59.19580789952102]
本稿では,RS画像セマンティックセグメンテーションタスクのための,新しい半教師付きマルチスケール不確かさとクロスTeacher-Student Attention(MUCA)モデルを提案する。 MUCAは、マルチスケールの不確実性整合正則化を導入することにより、ネットワークの異なる層における特徴写像間の整合性を制限する。 MUCAは学生ネットワークの誘導にクロス教師・学生の注意機構を使用し、学生ネットワークにより差別的な特徴表現を構築するよう誘導する。
論文参考訳（メタデータ） (2025-01-18T11:57:20Z)
Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文参考訳（メタデータ） (2024-12-26T05:41:31Z)
Multi-Level Embedding and Alignment Network with Consistency and Invariance Learning for Cross-View Geo-Localization [2.733505168507872]
CVGL(Cross-View Geo-Localization)は、最もよく似たGPSタグ付き衛星画像を取得することで、ドローン画像のローカライゼーションを決定する。既存の手法は、モデルの性能を改善する際に、計算と記憶の要求が増大する問題をしばしば見落としている。マルチレベル・エンベディング・アライメント・ネットワーク(MEAN)と呼ばれる軽量なアライメント・ネットワークを提案する。
論文参考訳（メタデータ） (2024-12-19T13:10:38Z)
HSVLT: Hierarchical Scale-Aware Vision-Language Transformer for Multi-Label Image Classification [15.129037250680582]
厳密な視覚-言語相互作用は、分類性能を改善する上で重要な役割を担っている。近年のTransformerベースの手法は,マルチラベル画像分類において大きな成功を収めている。本稿では,2つの魅力ある設計を持つ階層型視標変換器 (HSVLT) を提案する。
論文参考訳（メタデータ） (2024-07-23T07:31:42Z)
Multi-Spectral Image Stitching via Spatial Graph Reasoning [52.27796682972484]
空間グラフ推論に基づくマルチスペクトル画像縫合法を提案する。同一のビュー位置から複数スケールの補完機能をノードに埋め込む。空間的・チャネル的次元に沿った長距離コヒーレンスを導入することにより、画素関係の相補性とチャネル相互依存性は、整列したマルチビュー特徴の再構築に寄与する。
論文参考訳（メタデータ） (2023-07-31T15:04:52Z)
An Efficient General-Purpose Modular Vision Model via Multi-Task Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文参考訳（メタデータ） (2023-06-29T17:59:57Z)
Demystify Transformers & Convolutions in Modern Image Deep Networks [82.32018252867277]
本稿では,一般のコンボリューションとアテンション演算子の真の利益を,詳細な研究により同定することを目的とする。注意や畳み込みのようなこれらの特徴変換モジュールの主な違いは、それらの空間的特徴集約アプローチにある。各種課題の実験と帰納的バイアスの解析により,ネットワークレベルとブロックレベルの高度な設計により,性能が著しく向上した。
論文参考訳（メタデータ） (2022-11-10T18:59:43Z)
Sequential Cross Attention Based Multi-task Learning [22.430705836627148]
本稿では,タスクのマルチスケール機能にアテンション機構を適用することで,情報伝達を効果的に行う新しいアーキテクチャを提案する。提案手法は,NYUD-v2およびPASCAL-Contextデータセット上での最先端性能を実現する。
論文参考訳（メタデータ） (2022-09-06T14:17:33Z)
Learning Visual Representation from Modality-Shared Contrastive Language-Image Pre-training [88.80694147730883]
本稿では,多種多様なモダリティ共有コントラスト言語-画像事前学習(MS-CLIP)フレームワークについて検討する。学習条件下では、視覚と言語信号のためのほとんど統一されたエンコーダが、より多くのパラメータを分離する他のすべてのバリエーションより優れていることが観察された。我々のアプローチは、24の下流視覚タスクのコレクションに基づいて、線形探索においてバニラCLIPを1.6ポイント上回ります。
論文参考訳（メタデータ） (2022-07-26T05:19:16Z)
MPViT: Multi-Path Vision Transformer for Dense Prediction [43.89623453679854]
Vision Transformers (ViTs) は、単一スケールパッチによるマルチスケール表現のためのシンプルなマルチステージ構造を構築する。 OuriTsのスケールは5Mから73Mまでで、最先端のVision Transformerよりも優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (2021-12-21T06:34:50Z)
Progressive Multi-stage Interactive Training in Mobile Network for Fine-grained Recognition [8.727216421226814]
再帰型モザイク発電機(RMG-PMSI)を用いたプログレッシブ多段階インタラクティブトレーニング手法を提案する。まず、異なる位相の異なる画像を生成する再帰モザイク発生器(RMG)を提案する。次に、異なるステージの特徴は、異なるステージの対応する特徴を強化し補完するマルチステージインタラクション(MSI)モジュールを通過する。 RMG-PMSIは高い堅牢性と伝達性で性能を大幅に向上させることができる。
論文参考訳（メタデータ） (2021-12-08T10:50:03Z)
Multi-task Over-the-Air Federated Learning: A Non-Orthogonal Transmission Approach [52.85647632037537]
複数の学習タスクがエッジサーバ(ES)の協調の下でデータ収集および学習モデルのためのエッジデバイスを共有するマルチタスク・オーバーテア・フェデレーション・ラーニング(MOAFL)フレームワークを提案する。収束解析と数値計算の両方の結果から,MOAFLフレームワークは学習性能を著しく低下させることなく,複数のタスクのアップリンク帯域幅の消費を大幅に削減できることが示された。
論文参考訳（メタデータ） (2021-06-27T13:09:32Z)
Encoder Fusion Network with Co-Attention Embedding for Referring Image Segmentation [87.01669173673288]
本稿では,視覚的エンコーダをマルチモーダルな特徴学習ネットワークに変換するエンコーダ融合ネットワーク(EFN)を提案する。 EFNには、マルチモーダル機能の並列更新を実現するコアテンションメカニズムが組み込まれている。 4つのベンチマークデータセットによる実験結果から,提案手法がポストプロセッシングを伴わずに最先端の性能を実現することを示す。
論文参考訳（メタデータ） (2021-05-05T02:27:25Z)
Cross-Level Cross-Scale Cross-Attention Network for Point Cloud Representation [8.76786786874107]
最近、自然言語処理(NLP)と画像処理領域の顕著な進歩を達成した自己保持メカニズム。ポイントクラウド表現学習のためのクロスレベルクロススケールクロスアテンションネットワーク(CLCSCANet)と呼ばれるエンドツーエンドアーキテクチャを提案する。
論文参考訳（メタデータ） (2021-04-27T09:01:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。