論文の概要: Global Self-Attention Networks for Image Recognition
- arxiv url: http://arxiv.org/abs/2010.03019v2
- Date: Wed, 14 Oct 2020 05:46:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 06:04:14.572090
- Title: Global Self-Attention Networks for Image Recognition
- Title(参考訳): 画像認識のためのグローバルセルフアテンションネットワーク
- Authors: Zhuoran Shen, Irwan Bello, Raviteja Vemulapalli, Xuhui Jia, Ching-Hui
Chen
- Abstract要約: この研究は、GSAモジュールと呼ばれる新しいグローバルな自己アテンションモジュールを導入し、ディープネットワークのバックボーンコンポーネントとして機能するのに十分な効率である。
提案したGSAモジュールに基づいて,画素間相互作用をモデル化するために,GSAモジュールの代わりにGSAモジュールを使用するスタンドアロンのグローバルアテンションベースディープネットワークを導入する。
- 参考スコア(独自算出の注目度): 15.57942306567032
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, a series of works in computer vision have shown promising results
on various image and video understanding tasks using self-attention. However,
due to the quadratic computational and memory complexities of self-attention,
these works either apply attention only to low-resolution feature maps in later
stages of a deep network or restrict the receptive field of attention in each
layer to a small local region. To overcome these limitations, this work
introduces a new global self-attention module, referred to as the GSA module,
which is efficient enough to serve as the backbone component of a deep network.
This module consists of two parallel layers: a content attention layer that
attends to pixels based only on their content and a positional attention layer
that attends to pixels based on their spatial locations. The output of this
module is the sum of the outputs of the two layers. Based on the proposed GSA
module, we introduce new standalone global attention-based deep networks that
use GSA modules instead of convolutions to model pixel interactions. Due to the
global extent of the proposed GSA module, a GSA network has the ability to
model long-range pixel interactions throughout the network. Our experimental
results show that GSA networks outperform the corresponding convolution-based
networks significantly on the CIFAR-100 and ImageNet datasets while using less
parameters and computations. The proposed GSA networks also outperform various
existing attention-based networks on the ImageNet dataset.
- Abstract(参考訳): 近年,コンピュータビジョンにおける一連の研究が,自己注意を用いた様々な画像・映像理解タスクにおける有望な成果を示している。
しかしながら、自己注意の2次計算とメモリの複雑さのため、これらの研究はディープネットワークの後半の低解像度特徴写像にのみ注意を向けるか、各層における注意の場を小さな局所領域に制限する。
これらの制限を克服するため、この研究はGSAモジュールと呼ばれる新しいグローバルな自己保持モジュールを導入し、ディープネットワークのバックボーンコンポーネントとして機能するのに十分な効率である。
このモジュールは2つの平行なレイヤで構成されており、コンテンツに基づいてピクセルに付随するコンテンツアテンション層と、空間的位置に基づいてピクセルに付随する位置アテンション層である。
このモジュールの出力は、2つのレイヤの出力の総和である。
提案するgsaモジュールに基づいて,ピクセルインタラクションのモデル化に畳み込みではなく,gsaモジュールを使用するグローバルアテンションベース深層ネットワークを新たに導入する。
提案したGSAモジュールのグローバル範囲のため、GSAネットワークはネットワーク全体の長距離ピクセル間相互作用をモデル化することができる。
実験の結果,GSA ネットワークは CIFAR-100 と ImageNet のデータセットにおいて,より少ないパラメータと計算量を用いて,対応する畳み込みネットワークよりも優れていた。
提案したGSAネットワークは、ImageNetデータセット上で、既存の注目ベースのネットワークよりも優れている。
関連論文リスト
- DDU-Net: A Domain Decomposition-based CNN for High-Resolution Image Segmentation on Multiple GPUs [46.873264197900916]
ドメイン分解に基づくU-Netアーキテクチャを導入し、入力イメージを重複しないパッチに分割する。
空間コンテキストの理解を高めるために、パッチ間情報交換を容易にするための通信ネットワークが追加される。
その結果、この手法は、パッチ間通信のない同一ネットワークと比較して、IoU(Universal over Union)スコアよりも2~3,%高い交点を達成できることが判明した。
論文 参考訳(メタデータ) (2024-07-31T01:07:21Z) - SA2-Net: Scale-aware Attention Network for Microscopic Image
Segmentation [36.286876343282565]
顕微鏡画像のセグメンテーションは、特定の顕微鏡画像中の各ピクセルにセマンティックラベルを割り当てることが目的である。
マルチスケール特徴学習を利用して,顕微鏡画像内の多様な構造を扱う,注意誘導型SA2-Netを提案する。
論文 参考訳(メタデータ) (2023-09-28T17:58:05Z) - De-coupling and De-positioning Dense Self-supervised Learning [65.56679416475943]
Dense Self-Supervised Learning (SSL)メソッドは、複数のオブジェクトでイメージを処理する際に、画像レベルの特徴表現を使用する際の制限に対処する。
本研究は, 層深度やゼロパディングに伴う受容野の増大によって生じる, 結合と位置バイアスに悩まされていることを示す。
我々はCOCOにおける本手法の利点と、オブジェクト分類、セマンティックセグメンテーション、オブジェクト検出のための新しい挑戦的ベンチマークであるOpenImage-MINIについて示す。
論文 参考訳(メタデータ) (2023-03-29T18:07:25Z) - LoG-CAN: local-global Class-aware Network for semantic segmentation of
remote sensing images [4.124381172041927]
リモートセンシング画像にグローバルクラス認識(GCA)モジュールとローカルクラス認識(LCA)モジュールを備えたマルチスケールセマンティックセマンティックセマンティクスネットワークであるLoG-CANを提案する。
特に、LCAモジュールは、背景干渉を回避するためにクラスワイドコンテキストモデリングのグローバル表現をキャプチャし、LCAモジュールは、クラス内のばらつきを減らすために、クラスをグローバルクラス表現と間接的に関連付ける、中間認識要素としてローカルクラス表現を生成する。
論文 参考訳(メタデータ) (2023-03-14T09:44:29Z) - CRCNet: Few-shot Segmentation with Cross-Reference and Region-Global
Conditional Networks [59.85183776573642]
少ないショットセグメンテーションは、少数のトレーニングイメージを持つ新しいクラスに一般化できるセグメンテーションモデルを学ぶことを目的としている。
複数ショットセグメンテーションのためのクロスリファレンス・ローカル・グローバル・ネットワーク(CRCNet)を提案する。
我々のネットワークは、相互参照機構により、2つの画像に共起する物体をよりよく見つけることができる。
論文 参考訳(メタデータ) (2022-08-23T06:46:18Z) - Multi-level Second-order Few-shot Learning [111.0648869396828]
教師付きまたは教師なしの少数ショット画像分類と少数ショット動作認識のためのマルチレベル2次数列学習ネットワーク(MlSo)を提案する。
我々は、パワーノーマライズされた二階学習者ストリームと、複数のレベルの視覚的抽象化を表現する機能を組み合わせた、いわゆる2階学習者ストリームを活用している。
我々は,Omniglot, mini-ImageNet, tiered-ImageNet, Open MIC, CUB Birds, Stanford Dogs, Cars, HMDB51, UCF101, mini-MITなどのアクション認識データセットなどの標準データセットに対して,優れた結果を示す。
論文 参考訳(メタデータ) (2022-01-15T19:49:00Z) - Specificity-preserving RGB-D Saliency Detection [103.3722116992476]
本稿では,RGB-Dサリエンシ検出のための特異性保存ネットワーク(SP-Net)を提案する。
2つのモダリティ特化ネットワークと共有学習ネットワークを採用し、個別および共有唾液マップを生成する。
6つのベンチマークデータセットの実験では、SP-Netは他の最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2021-08-18T14:14:22Z) - DMSANet: Dual Multi Scale Attention Network [0.0]
我々は,最高の性能を達成するだけでなく,既存のモデルに比べてパラメータも少ない新しいアテンションモジュールを提案する。
私たちの注目モジュールは、軽量な性質のため、他の畳み込みニューラルネットワークと容易に統合できます。
論文 参考訳(メタデータ) (2021-06-13T10:31:31Z) - A Novel Adaptive Deep Network for Building Footprint Segmentation [0.0]
衛星画像から地図へ変換することで得られる不正確な境界の問題を解くために,Pix2Pixを用いた新しいネットワーク手法を提案する。
本フレームワークは,第1発生器が局所化特徴を抽出し,第2発生器から抽出した境界特徴とマージし,すべての詳細構造エッジを分割する2つの生成器を含む。
提案したネットワークの結果の質を高めるために異なる戦略が実装され、提案ネットワークはセグメント化精度において最先端ネットワークよりも高い性能を示し、全ての評価指標に対する大きなマージンを達成している。
論文 参考訳(メタデータ) (2021-02-27T18:13:48Z) - Boundary-Aware Segmentation Network for Mobile and Web Applications [60.815545591314915]
境界認識ネットワーク(basnet)は、精度の高い画像分割のための予測再定義アーキテクチャとハイブリッド損失と統合されている。
basnetは単一のgpu上で70fps以上動作し、多くの潜在的なアプリケーションが利用できる。
BASNetをベースに、BASNetが「COPY」と「PASTING」現実世界のオブジェクトのための拡張現実であるAR COPY & PASTEと、オブジェクト背景の自動削除のためのWebベースのツールであるOBJECT CUTの2つの(近い)商用アプリケーションをさらに開発しました。
論文 参考訳(メタデータ) (2021-01-12T19:20:26Z) - X-ModalNet: A Semi-Supervised Deep Cross-Modal Network for
Classification of Remote Sensing Data [69.37597254841052]
我々はX-ModalNetと呼ばれる新しいクロスモーダルディープラーニングフレームワークを提案する。
X-ModalNetは、ネットワークの上部にある高レベルな特徴によって構築されたアップダスタブルグラフ上にラベルを伝搬するため、うまく一般化する。
我々は2つのマルチモーダルリモートセンシングデータセット(HSI-MSIとHSI-SAR)上でX-ModalNetを評価し、いくつかの最先端手法と比較して大幅に改善した。
論文 参考訳(メタデータ) (2020-06-24T15:29:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。