論文の概要: Visual Attention Network
- arxiv url: http://arxiv.org/abs/2202.09741v1
- Date: Sun, 20 Feb 2022 06:35:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-23 09:06:48.764060
- Title: Visual Attention Network
- Title(参考訳): 視覚注意ネットワーク
- Authors: Meng-Hao Guo, Cheng-Ze Lu, Zheng-Ning Liu, Ming-Ming Cheng and Shi-Min
Hu
- Abstract要約: 本稿では,自己アテンションにおける自己適応性および長距離相関を実現するために,新しいカーネルアテンション(LKA)モジュールを提案する。
また、LKAに基づく新しいニューラルネットワーク、すなわちVisual Attention Network (VAN)を導入する。
VANは、最先端のビジョントランスフォーマーと畳み込みニューラルネットワークを、広範な実験において大きなマージンで上回ります。
- 参考スコア(独自算出の注目度): 90.0753726786985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While originally designed for natural language processing (NLP) tasks, the
self-attention mechanism has recently taken various computer vision areas by
storm. However, the 2D nature of images brings three challenges for applying
self-attention in computer vision. (1) Treating images as 1D sequences neglects
their 2D structures. (2) The quadratic complexity is too expensive for
high-resolution images. (3) It only captures spatial adaptability but ignores
channel adaptability. In this paper, we propose a novel large kernel attention
(LKA) module to enable self-adaptive and long-range correlations in
self-attention while avoiding the above issues. We further introduce a novel
neural network based on LKA, namely Visual Attention Network (VAN). While
extremely simple and efficient, VAN outperforms the state-of-the-art vision
transformers and convolutional neural networks with a large margin in extensive
experiments, including image classification, object detection, semantic
segmentation, instance segmentation, etc. Code is available at
https://github.com/Visual-Attention-Network.
- Abstract(参考訳): 元々は自然言語処理(nlp)タスク用に設計されたが、最近は様々なコンピュータビジョン領域をストームで捉えている。
しかし、画像の2次元的な性質は、コンピュータビジョンに自己注意を適用するための3つの課題をもたらす。
1) 画像を1次元配列として扱うことは2次元構造を無視する。
2) 二次複雑性は高解像度画像には高すぎる。
3)空間適応性だけでなく,チャネル適応性も無視する。
本稿では,この問題を回避しつつ,自己アテンションにおける自己適応性と長距離の相関性を実現するためのLKAモジュールを提案する。
さらに,lkaに基づく新しいニューラルネットワークである視覚注意ネットワーク(van)についても紹介する。
極めてシンプルで効率的なVANは、画像分類、オブジェクト検出、セマンティックセグメンテーション、インスタンスセグメンテーションなどを含む広範な実験において、最先端のビジョントランスフォーマーや畳み込みニューラルネットワークよりも優れたパフォーマンスを発揮する。
コードはhttps://github.com/Visual-Attention-Network.comで入手できる。
関連論文リスト
- Learning 1D Causal Visual Representation with De-focus Attention Networks [108.72931590504406]
本稿では,1次元因果モデルを用いた画像表現の実現可能性について検討する。
本稿では,学習可能な帯域通過フィルタを用いて様々な注意パターンを生成するDe-focus Attention Networksを提案する。
論文 参考訳(メタデータ) (2024-06-06T17:59:56Z) - ELA: Efficient Local Attention for Deep Convolutional Neural Networks [15.976475674061287]
本稿では、簡単な構造で大幅な性能向上を実現するための効率的な局所注意法(ELA)を提案する。
これらの課題を克服するため、我々は1次元畳み込みとグループ正規化機能強化技術の導入を提案する。
ELAはResNet、MobileNet、DeepLabといったディープCNNネットワークにシームレスに統合できる。
論文 参考訳(メタデータ) (2024-03-02T08:06:18Z) - TEC-Net: Vision Transformer Embrace Convolutional Neural Networks for
Medical Image Segmentation [20.976167468217387]
医用画像セグメンテーション(TEC-Net)のための畳み込みニューラルネットワークを取り入れた視覚変換器を提案する。
ネットワークには2つの利点がある。第1に、動的変形可能な畳み込み(DDConv)はCNNブランチで設計されており、固定サイズの畳み込みカーネルを用いた適応的特徴抽出の難しさを克服するだけでなく、異なる入力が同じ畳み込みカーネルパラメータを共有する欠陥を解決する。
実験の結果,提案するTEC-Netは,CNNやTransformerネットワークを含むSOTA法よりも医用画像のセグメンテーションが優れていることがわかった。
論文 参考訳(メタデータ) (2023-06-07T01:14:16Z) - Neural Feature Fusion Fields: 3D Distillation of Self-Supervised 2D
Image Representations [92.88108411154255]
本稿では,3次元シーンとして再構成可能な複数画像の解析に後者を適用する際に,高密度な2次元画像特徴抽出器を改善する手法を提案する。
本手法は,手動ラベルを使わずに,シーン固有のニューラルネットワークの文脈における意味理解を可能にするだけでなく,自己監督型2Dベースラインよりも一貫して改善されていることを示す。
論文 参考訳(メタデータ) (2022-09-07T23:24:09Z) - Two-Stream Graph Convolutional Network for Intra-oral Scanner Image
Segmentation [133.02190910009384]
本稿では,2ストリームグラフ畳み込みネットワーク(TSGCN)を提案する。
TSGCNは3次元歯(表面)セグメンテーションにおいて最先端の方法よりも優れています。
論文 参考訳(メタデータ) (2022-04-19T10:41:09Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - PC-RGNN: Point Cloud Completion and Graph Neural Network for 3D Object
Detection [57.49788100647103]
LiDARベースの3Dオブジェクト検出は、自動運転にとって重要なタスクです。
現在のアプローチでは、遠方および閉ざされた物体の偏りと部分的な点雲に苦しむ。
本稿では,この課題を2つの解決法で解決する新しい二段階アプローチ,pc-rgnnを提案する。
論文 参考訳(メタデータ) (2020-12-18T18:06:43Z) - Deep Learning of Unified Region, Edge, and Contour Models for Automated
Image Segmentation [2.0305676256390934]
畳み込みニューラルネットワーク(CNN)は,自動セグメンテーションパイプラインの設計において注目を集めている。
CNNベースのモデルは、生の画像データから抽象的な特徴を学ぶには十分だが、それらのパフォーマンスは、適切なトレーニングデータセットの可用性とサイズに依存している。
本稿では,これらの問題に対処する新しい手法を考案し,完全自動セマンティックセマンティックセグメンテーションのための堅牢な表現学習フレームワークを構築した。
論文 参考訳(メタデータ) (2020-06-23T02:54:55Z) - Self-supervised Feature Learning by Cross-modality and Cross-view
Correspondences [32.01548991331616]
本稿では,2次元画像特徴と3次元ポイントクラウド特徴の両方を学習するための,自己指導型学習手法を提案する。
注釈付きラベルを使わずに、クロスモダリティとクロスビュー対応を利用する。
学習した2次元特徴と3次元特徴の有効性を5つの異なるタスクで伝達することによって評価する。
論文 参考訳(メタデータ) (2020-04-13T02:57:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。