論文の概要: STEAM: Squeeze and Transform Enhanced Attention Module
- arxiv url: http://arxiv.org/abs/2412.09023v1
- Date: Thu, 12 Dec 2024 07:38:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 13:32:40.441187
- Title: STEAM: Squeeze and Transform Enhanced Attention Module
- Title(参考訳): STEAM: SqueezeとTransformの拡張アテンションモジュール
- Authors: Rishabh Sabharwal, Ram Samarth B B, Parikshit Singh Rathore, Punit Rathore,
- Abstract要約: 本稿では,マルチヘッドグラフ変換器の概念を利用して,チャネルと空間の注意の両方をモデル化するグラフベースの手法を提案する。
STEAMは標準のResNet-50モデルよりも2%精度が向上し、GFLOPはわずかに増加した。
STEAMは、GFLOPの3倍の削減を達成しつつ、リードモジュールECAとGCTの精度で性能を向上する。
- 参考スコア(独自算出の注目度): 1.3370933421481221
- License:
- Abstract: Channel and spatial attention mechanisms introduced by earlier works enhance the representation abilities of deep convolutional neural networks (CNNs) but often lead to increased parameter and computation costs. While recent approaches focus solely on efficient feature context modeling for channel attention, we aim to model both channel and spatial attention comprehensively with minimal parameters and reduced computation. Leveraging the principles of relational modeling in graphs, we introduce a constant-parameter module, STEAM: Squeeze and Transform Enhanced Attention Module, which integrates channel and spatial attention to enhance the representation power of CNNs. To our knowledge, we are the first to propose a graph-based approach for modeling both channel and spatial attention, utilizing concepts from multi-head graph transformers. Additionally, we introduce Output Guided Pooling (OGP), which efficiently captures spatial context to further enhance spatial attention. We extensively evaluate STEAM for large-scale image classification, object detection and instance segmentation on standard benchmark datasets. STEAM achieves a 2% increase in accuracy over the standard ResNet-50 model with only a meager increase in GFLOPs. Furthermore, STEAM outperforms leading modules ECA and GCT in terms of accuracy while achieving a three-fold reduction in GFLOPs.
- Abstract(参考訳): 初期の研究で導入されたチャネルと空間の注意機構は、深層畳み込みニューラルネットワーク(CNN)の表現能力を高めるが、しばしばパラメータや計算コストの増大につながる。
チャネルアテンションのための効率的な特徴コンテキストモデリングにのみ焦点をあてる最近のアプローチでは、チャネルと空間アテンションの両方を最小のパラメータと少ない計算で包括的にモデル化することを目指している。
グラフにおけるリレーショナルモデリングの原理を活用し,CNNの表現力を高めるためにチャネルと空間的注意を統合したSTEAM: Squeeze and Transform Enhanced Attention Moduleを導入する。
我々はまず,マルチヘッドグラフ変換器の概念を生かして,チャネルと空間の注意の両方をモデル化するグラフベースの手法を提案する。
さらに,空間的注意を一層高めるために,空間的コンテキストを効率的に捕捉するアウトプットガイドポーリング(OGP)を導入する。
我々は,STEAMを大規模画像分類,オブジェクト検出,および標準ベンチマークデータセットのインスタンスセグメンテーションのために広範囲に評価する。
STEAMは標準のResNet-50モデルよりも2%精度が向上し、GFLOPはわずかに増加した。
さらに、STEAMは、GFLOPの3倍の低減を実現しつつ、リードモジュールECA、GCTの精度で性能を向上する。
関連論文リスト
- CFFormer: Cross CNN-Transformer Channel Attention and Spatial Feature Fusion for Improved Segmentation of Low Quality Medical Images [29.68616115427831]
CNN-Transformerモデルは、ローカル情報と長距離依存の両方を効率的にモデル化するCNNとTransformerの利点を組み合わせるように設計されている。
本稿では,Cross Feature Channel Attention (CFCA)モジュールとX-Spatial Feature Fusion (XFF)モジュールを紹介する。
CFCAモジュールは2つのエンコーダからチャネル特徴間の相互作用をフィルタリングし、促進する一方、XFFモジュールは空間的特徴の有意な意味情報の違いを効果的に軽減する。
論文 参考訳(メタデータ) (2025-01-07T08:59:20Z) - Dynamic Kernel-Based Adaptive Spatial Aggregation for Learned Image
Compression [63.56922682378755]
本稿では,空間アグリゲーション機能の拡張に焦点をあて,動的カーネルベースの変換符号化を提案する。
提案したアダプティブアグリゲーションはカーネルオフセットを生成し、コンテント条件付き範囲の有効な情報をキャプチャして変換を支援する。
実験により,本手法は,最先端の学習手法と比較して,3つのベンチマークにおいて高い速度歪み性能が得られることを示した。
論文 参考訳(メタデータ) (2023-08-17T01:34:51Z) - Systematic Architectural Design of Scale Transformed Attention Condenser
DNNs via Multi-Scale Class Representational Response Similarity Analysis [93.0013343535411]
マルチスケールクラス表現応答類似性分析(ClassRepSim)と呼ばれる新しいタイプの分析法を提案する。
ResNetスタイルのアーキテクチャにSTACモジュールを追加すると、最大1.6%の精度が向上することを示す。
ClassRepSim分析の結果は、STACモジュールの効果的なパラメータ化を選択するために利用することができ、競争性能が向上する。
論文 参考訳(メタデータ) (2023-06-16T18:29:26Z) - STMT: A Spatial-Temporal Mesh Transformer for MoCap-Based Action Recognition [50.064502884594376]
本研究では、モーションキャプチャー(MoCap)シーケンスを用いた人間の行動認識の問題点について検討する。
メッシュシーケンスを直接モデル化する新しい時空間メッシュ変換器(STMT)を提案する。
提案手法は,スケルトンベースモデルやポイントクラウドベースモデルと比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-31T16:19:27Z) - Dynamic Kernels and Channel Attention with Multi-Layer Embedding
Aggregation for Speaker Verification [28.833851817220616]
本稿では,畳み込みニューラルネットワークにおける注意に基づく動的カーネルを用いたモデル分解能の向上手法を提案する。
提案した動的畳み込みモデルはVoxCeleb1テストセットで1.62%のEERと0.18のミニDCFを達成し、ECAPA-TDNNと比較して17%改善した。
論文 参考訳(メタデータ) (2022-11-03T17:13:28Z) - Learning to Augment via Implicit Differentiation for Domain
Generalization [107.9666735637355]
ドメイン一般化(DG)は、複数のソースドメインを活用してドメイン一般化可能なモデルを学ぶことで、この問題を克服することを目的としている。
本稿では,AugLearnと呼ばれる新しい拡張型DG手法を提案する。
AugLearnは、PACS、Office-Home、Digits-DGの3つの標準DGベンチマークで効果を示す。
論文 参考訳(メタデータ) (2022-10-25T18:51:51Z) - Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z) - TDAN: Top-Down Attention Networks for Enhanced Feature Selectivity in
CNNs [18.24779045808196]
本稿では,トップダウンチャネルと空間変調を行うために,視覚検索ライトを反復的に生成する軽量なトップダウンアテンションモジュールを提案する。
我々のモデルは、推論中の入力解像度の変化に対してより堅牢であり、個々のオブジェクトや特徴を明示的な監督なしに各計算ステップでローカライズすることで、注意を"シフト"することを学ぶ。
論文 参考訳(メタデータ) (2021-11-26T12:35:17Z) - An Attention Module for Convolutional Neural Networks [5.333582981327498]
本稿では,AW-畳み込みを開発することで,畳み込みニューラルネットワークのためのアテンションモジュールを提案する。
画像分類とオブジェクト検出タスクのための複数のデータセットの実験により,提案した注目モジュールの有効性が示された。
論文 参考訳(メタデータ) (2021-08-18T15:36:18Z) - Channelized Axial Attention for Semantic Segmentation [70.14921019774793]
チャネルアキシャルアテンション(CAA)を提案し、チャネルアテンションと軸アテンションをシームレスに統合し、計算複雑性を低減します。
私たちのCAAは、DANetのような他の注意モデルに比べて計算リソースをはるかに少なくするだけでなく、すべての検証済みデータセット上で最先端のResNet-101ベースのセグメンテーションモデルよりも優れています。
論文 参考訳(メタデータ) (2021-01-19T03:08:03Z) - Hybrid Multiple Attention Network for Semantic Segmentation in Aerial
Images [24.35779077001839]
グローバルな相関関係を適応的に捉えるために,Hybrid Multiple Attention Network (HMANet) という新しいアテンションベースのフレームワークを提案する。
本稿では,機能的冗長性を低減し,自己注意機構の効率を向上させるため,単純で効果的な領域シャッフルアテンション(RSA)モジュールを提案する。
論文 参考訳(メタデータ) (2020-01-09T07:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。