論文の概要: ELA: Efficient Local Attention for Deep Convolutional Neural Networks
- arxiv url: http://arxiv.org/abs/2403.01123v1
- Date: Sat, 2 Mar 2024 08:06:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 15:07:08.589717
- Title: ELA: Efficient Local Attention for Deep Convolutional Neural Networks
- Title(参考訳): ELA:Deep Convolutional Neural Networksの効率的なローカルアテンション
- Authors: Wei Xu and Yi Wan
- Abstract要約: 本稿では、簡単な構造で大幅な性能向上を実現するための効率的な局所注意法(ELA)を提案する。
これらの課題を克服するため、我々は1次元畳み込みとグループ正規化機能強化技術の導入を提案する。
ELAはResNet、MobileNet、DeepLabといったディープCNNネットワークにシームレスに統合できる。
- 参考スコア(独自算出の注目度): 15.976475674061287
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The attention mechanism has gained significant recognition in the field of
computer vision due to its ability to effectively enhance the performance of
deep neural networks. However, existing methods often struggle to effectively
utilize spatial information or, if they do, they come at the cost of reducing
channel dimensions or increasing the complexity of neural networks. In order to
address these limitations, this paper introduces an Efficient Local Attention
(ELA) method that achieves substantial performance improvements with a simple
structure. By analyzing the limitations of the Coordinate Attention method, we
identify the lack of generalization ability in Batch Normalization, the adverse
effects of dimension reduction on channel attention, and the complexity of
attention generation process. To overcome these challenges, we propose the
incorporation of 1D convolution and Group Normalization feature enhancement
techniques. This approach enables accurate localization of regions of interest
by efficiently encoding two 1D positional feature maps without the need for
dimension reduction, while allowing for a lightweight implementation. We
carefully design three hyperparameters in ELA, resulting in four different
versions: ELA-T, ELA-B, ELA-S, and ELA-L, to cater to the specific requirements
of different visual tasks such as image classification, object detection and
sementic segmentation. ELA can be seamlessly integrated into deep CNN networks
such as ResNet, MobileNet, and DeepLab. Extensive evaluations on the ImageNet,
MSCOCO, and Pascal VOC datasets demonstrate the superiority of the proposed ELA
module over current state-of-the-art methods in all three aforementioned visual
tasks.
- Abstract(参考訳): このアテンションメカニズムは、ディープニューラルネットワークの性能を効果的に向上する能力によって、コンピュータビジョンの分野で大きな認知を得た。
しかし、既存の手法は、しばしば空間情報の有効利用に苦しむか、その場合、チャネル次元を減らしたり、ニューラルネットワークの複雑さを増大させるコストがかかる。
これらの制約に対処するために,簡単な構造で大幅な性能向上を実現する効率的な局所注意法(ELA)を提案する。
コーディネート・アテンション法の限界を解析することにより,バッチ正規化における一般化能力の欠如,チャネルアテンションに対する次元減少の悪影響,およびアテンション生成過程の複雑さを明らかにする。
これらの課題を克服するため、我々は1次元畳み込みとグループ正規化機能強化技術の導入を提案する。
提案手法は,次元を縮小することなく2つの1次元位置特徴写像を効率的に符号化し,軽量な実装を実現することにより,関心領域の正確なローカライズを可能にする。
ELA-T, ELA-B, ELA-S, ELA-Lの3種類のハイパーパラメータを慎重に設計し, 画像分類, 物体検出, 寸法分割などの異なる視覚的タスクの要求を満たす。
ELAはResNet、MobileNet、DeepLabといったディープCNNネットワークにシームレスに統合できる。
ImageNet、MSCOCO、Pascal VOCデータセットの大規模な評価は、前述の3つの視覚タスクすべてにおいて、現在の最先端手法よりも提案されたERAモジュールの方が優れていることを示している。
関連論文リスト
- Point Cloud Understanding via Attention-Driven Contrastive Learning [64.65145700121442]
トランスフォーマーベースのモデルは、自己認識機構を活用することにより、先進的なポイントクラウド理解を持つ。
PointACLは、これらの制限に対処するために設計された、注意駆動のコントラスト学習フレームワークである。
本手法では, 注意駆動型動的マスキング手法を用いて, モデルが非集中領域に集中するように誘導する。
論文 参考訳(メタデータ) (2024-11-22T05:41:00Z) - PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。
PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。
PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文 参考訳(メタデータ) (2024-08-26T19:43:01Z) - Perspective+ Unet: Enhancing Segmentation with Bi-Path Fusion and Efficient Non-Local Attention for Superior Receptive Fields [19.71033340093199]
本稿では,医療画像のセグメンテーションの限界を克服する新しいアーキテクチャであるspective+Unetを提案する。
このフレームワークは ENLTB という名前の効率的な非局所トランスフォーマーブロックを組み込んでおり、これはカーネル関数近似を利用して、効率的な長距離依存性キャプチャを行う。
ACDCとデータセットに関する実験結果から,提案したパースペクティブ+Unetの有効性が示された。
論文 参考訳(メタデータ) (2024-06-20T07:17:39Z) - TC-Net: Triple Context Network for Automated Stroke Lesion Segmentation [0.5482532589225552]
本稿では,空間的コンテキスト情報を中心として,新たなネットワークである Triple Context Network (TC-Net) を提案する。
我々のネットワークはオープンデータセットATLASで評価され、最高スコアは0.594、ハウスドルフ距離は27.005mm、平均対称性表面距離は7.137mmである。
論文 参考訳(メタデータ) (2022-02-28T11:12:16Z) - Visual Attention Network [90.0753726786985]
本稿では,自己アテンションにおける自己適応性および長距離相関を実現するために,新しいカーネルアテンション(LKA)モジュールを提案する。
また、LKAに基づく新しいニューラルネットワーク、すなわちVisual Attention Network (VAN)を導入する。
VANは、最先端のビジョントランスフォーマーと畳み込みニューラルネットワークを、広範な実験において大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-02-20T06:35:18Z) - PC-RGNN: Point Cloud Completion and Graph Neural Network for 3D Object
Detection [57.49788100647103]
LiDARベースの3Dオブジェクト検出は、自動運転にとって重要なタスクです。
現在のアプローチでは、遠方および閉ざされた物体の偏りと部分的な点雲に苦しむ。
本稿では,この課題を2つの解決法で解決する新しい二段階アプローチ,pc-rgnnを提案する。
論文 参考訳(メタデータ) (2020-12-18T18:06:43Z) - Multi-Attention-Network for Semantic Segmentation of Fine Resolution
Remote Sensing Images [10.835342317692884]
リモートセンシング画像におけるセマンティックセグメンテーションの精度は、ディープ畳み込みニューラルネットワークによって著しく向上した。
本稿では,これらの問題に対処するマルチアテンション・ネットワーク(MANet)を提案する。
線形複雑性を伴うカーネル注意の新たなアテンション機構が提案され,注目される計算負荷の低減が図られた。
論文 参考訳(メタデータ) (2020-09-03T09:08:02Z) - Ventral-Dorsal Neural Networks: Object Detection via Selective Attention [51.79577908317031]
我々はVDNet(Ventral-Dorsal Networks)と呼ばれる新しいフレームワークを提案する。
人間の視覚システムの構造にインスパイアされた我々は「Ventral Network」と「Dorsal Network」の統合を提案する。
実験の結果,提案手法は最先端の物体検出手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-05-15T23:57:36Z) - Depthwise Non-local Module for Fast Salient Object Detection Using a
Single Thread [136.2224792151324]
本稿では,高速な物体検出のための新しいディープラーニングアルゴリズムを提案する。
提案アルゴリズムは,1つのCPUスレッドと同時に,競合精度と高い推論効率を実現する。
論文 参考訳(メタデータ) (2020-01-22T15:23:48Z) - Hybrid Multiple Attention Network for Semantic Segmentation in Aerial
Images [24.35779077001839]
グローバルな相関関係を適応的に捉えるために,Hybrid Multiple Attention Network (HMANet) という新しいアテンションベースのフレームワークを提案する。
本稿では,機能的冗長性を低減し,自己注意機構の効率を向上させるため,単純で効果的な領域シャッフルアテンション(RSA)モジュールを提案する。
論文 参考訳(メタデータ) (2020-01-09T07:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。