論文の概要: Rotate to Attend: Convolutional Triplet Attention Module
- arxiv url: http://arxiv.org/abs/2010.03045v2
- Date: Thu, 5 Nov 2020 19:08:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 07:31:13.045180
- Title: Rotate to Attend: Convolutional Triplet Attention Module
- Title(参考訳): 回転して参加する:畳み込み三重項注意モジュール
- Authors: Diganta Misra, Trikay Nalamada, Ajay Uppili Arasanipalai, Qibin Hou
- Abstract要約: 3分岐構造を用いた新しい注意重み計算法である三重項注意法を提案する。
本手法は単純かつ効率的であり,アドオンモジュールとして従来のバックボーンネットワークに簡単に接続できる。
ImageNet-1k上の画像分類や,MSCOCOおよびPASCAL VOCデータセット上でのオブジェクト検出など,様々な課題に対する本手法の有効性を実証する。
- 参考スコア(独自算出の注目度): 21.228370317693244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Benefiting from the capability of building inter-dependencies among channels
or spatial locations, attention mechanisms have been extensively studied and
broadly used in a variety of computer vision tasks recently. In this paper, we
investigate light-weight but effective attention mechanisms and present triplet
attention, a novel method for computing attention weights by capturing
cross-dimension interaction using a three-branch structure. For an input
tensor, triplet attention builds inter-dimensional dependencies by the rotation
operation followed by residual transformations and encodes inter-channel and
spatial information with negligible computational overhead. Our method is
simple as well as efficient and can be easily plugged into classic backbone
networks as an add-on module. We demonstrate the effectiveness of our method on
various challenging tasks including image classification on ImageNet-1k and
object detection on MSCOCO and PASCAL VOC datasets. Furthermore, we provide
extensive in-sight into the performance of triplet attention by visually
inspecting the GradCAM and GradCAM++ results. The empirical evaluation of our
method supports our intuition on the importance of capturing dependencies
across dimensions when computing attention weights. Code for this paper can be
publicly accessed at https://github.com/LandskapeAI/triplet-attention
- Abstract(参考訳): チャネル間や空間的位置の相互依存性を構築する能力から,近年,様々なコンピュータビジョンタスクにおいて,注意機構が広く研究され,広く利用されている。
本稿では,3分岐構造を用いたクロス次元相互作用を捉えることで,軽量だが効果的な注意機構と3重化注意法について検討する。
入力テンソルの場合、トリプルトアテンションは回転操作と後続変換によって次元間の依存関係を構築し、チャネル間および空間情報を無視可能な計算オーバーヘッドで符号化する。
本手法は単純かつ効率的であり,アドオンモジュールとして従来のバックボーンネットワークに簡単に接続できる。
ImageNet-1k上の画像分類や,MSCOCOおよびPASCAL VOCデータセット上でのオブジェクト検出など,様々な課題に対する本手法の有効性を示す。
さらに,GradCAMとGradCAM++の結果を視覚的に検査することで,トリプルトアテンションの性能を詳細に把握する。
本手法の実証的評価は,注意重みの計算において,次元間の依存性を捉えることの重要性を直観的に支援する。
本論文のコードはhttps://github.com/LandskapeAI/triplet-attentionで公開されている。
関連論文リスト
- Cross-Cluster Shifting for Efficient and Effective 3D Object Detection
in Autonomous Driving [69.20604395205248]
本稿では,自律運転における3次元物体検出のための3次元点検出モデルであるShift-SSDを提案する。
我々は、ポイントベース検出器の表現能力を解き放つために、興味深いクロスクラスタシフト操作を導入する。
我々は、KITTI、ランタイム、nuScenesデータセットに関する広範な実験を行い、Shift-SSDの最先端性能を実証した。
論文 参考訳(メタデータ) (2024-03-10T10:36:32Z) - ELA: Efficient Local Attention for Deep Convolutional Neural Networks [15.976475674061287]
本稿では、簡単な構造で大幅な性能向上を実現するための効率的な局所注意法(ELA)を提案する。
これらの課題を克服するため、我々は1次元畳み込みとグループ正規化機能強化技術の導入を提案する。
ELAはResNet、MobileNet、DeepLabといったディープCNNネットワークにシームレスに統合できる。
論文 参考訳(メタデータ) (2024-03-02T08:06:18Z) - Efficient Multi-Scale Attention Module with Cross-Spatial Learning [4.046170185945849]
効率的なマルチスケールアテンション(EMA)モジュールを提案する。
チャネルごとの情報保持と計算オーバーヘッドの低減に重点を置いている。
我々は画像分類と物体検出タスクについて広範囲にわたるアブレーション研究と実験を行った。
論文 参考訳(メタデータ) (2023-05-23T00:35:47Z) - CAT: Learning to Collaborate Channel and Spatial Attention from
Multi-Information Fusion [23.72040577828098]
本稿では,空間とチャネルのアテンション間の協調を活性化する「CAT」と呼ばれるプラグイン・アンド・プレイアテンション・モジュールを提案する。
具体的には、特徴を訓練可能な係数(コラ因子)として表現し、異なる注意モジュールの寄与を適応的に組み合わせる。
我々のCATは、オブジェクト検出、インスタンスセグメンテーション、画像分類において、既存の最先端の注意機構よりも優れています。
論文 参考訳(メタデータ) (2022-12-13T02:34:10Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - 3DMODT: Attention-Guided Affinities for Joint Detection & Tracking in 3D
Point Clouds [95.54285993019843]
本稿では,3次元点雲における複数物体の同時検出と追跡手法を提案する。
本モデルでは,複数のフレームを用いた時間情報を利用してオブジェクトを検出し,一つのネットワーク上で追跡する。
論文 参考訳(メタデータ) (2022-11-01T20:59:38Z) - Coordinate Attention for Efficient Mobile Network Design [96.40415345942186]
チャネルの注目に位置情報を埋め込むことにより,モバイルネットワークに対する新たな注意メカニズムを提案する。
2次元グローバルプーリングにより特徴テンソルを単一特徴ベクトルに変換するチャネルアテンションとは異なり、座標アテンションはチャネルアテンションを2つの1次元特徴符号化プロセスに分解する。
座標の注意はImageNetの分類に有用であり、オブジェクト検出やセマンティックセグメンテーションといった下流タスクではよりうまく振る舞う。
論文 参考訳(メタデータ) (2021-03-04T09:18:02Z) - Improving Point Cloud Semantic Segmentation by Learning 3D Object
Detection [102.62963605429508]
ポイントクラウドセマンティックセグメンテーションは、自動運転において重要な役割を果たす。
現在の3Dセマンティックセグメンテーションネットワークは、よく表現されたクラスに対して優れた性能を発揮する畳み込みアーキテクチャに焦点を当てている。
Aware 3D Semantic Detection (DASS) フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-22T14:17:40Z) - Attention Cube Network for Image Restoration [39.49175636499541]
より強力な特徴表現と特徴相関学習のための画像復元のための注意キューブネットワーク(A-CubeNet)を提案する。
本研究では,空間次元,チャネルワイド次元,階層次元の3次元から新たな注意機構を設計する。
定量的比較と視覚解析の両面において,最先端画像復元法よりも本手法の方が優れていることを示す実験を行った。
論文 参考訳(メタデータ) (2020-09-13T03:42:14Z) - A Trainable Optimal Transport Embedding for Feature Aggregation and its
Relationship to Attention [96.77554122595578]
固定サイズのパラメータ化表現を導入し、与えられた入力セットから、そのセットとトレーニング可能な参照の間の最適な輸送計画に従って要素を埋め込み、集約する。
我々のアプローチは大規模なデータセットにスケールし、参照のエンドツーエンドのトレーニングを可能にすると同時に、計算コストの少ない単純な教師なし学習メカニズムも提供する。
論文 参考訳(メタデータ) (2020-06-22T08:35:58Z) - Hybrid Multiple Attention Network for Semantic Segmentation in Aerial
Images [24.35779077001839]
グローバルな相関関係を適応的に捉えるために,Hybrid Multiple Attention Network (HMANet) という新しいアテンションベースのフレームワークを提案する。
本稿では,機能的冗長性を低減し,自己注意機構の効率を向上させるため,単純で効果的な領域シャッフルアテンション(RSA)モジュールを提案する。
論文 参考訳(メタデータ) (2020-01-09T07:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。