論文の概要: Axial-DeepLab: Stand-Alone Axial-Attention for Panoptic Segmentation
- arxiv url: http://arxiv.org/abs/2003.07853v2
- Date: Thu, 6 Aug 2020 18:09:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 20:45:01.486361
- Title: Axial-DeepLab: Stand-Alone Axial-Attention for Panoptic Segmentation
- Title(参考訳): Axial-DeepLab:Panoptic SegmentationのためのスタンドアロンAxial-Attention
- Authors: Huiyu Wang, Yukun Zhu, Bradley Green, Hartwig Adam, Alan Yuille,
Liang-Chieh Chen
- Abstract要約: セルフアテンションは、非局所的な相互作用を持つCNNを増強するために採用されている。
最近の研究は、完全な注意ネットワークを得るために自己注意層を積み重ねることが可能であることを証明している。
本稿では,2次元自己注意を2つの1次元自己注意に分解することを提案する。
これにより複雑さを低減し、大規模あるいはグローバルな領域内で注意を向けることが可能になる。
- 参考スコア(独自算出の注目度): 35.61291788072914
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Convolution exploits locality for efficiency at a cost of missing long range
context. Self-attention has been adopted to augment CNNs with non-local
interactions. Recent works prove it possible to stack self-attention layers to
obtain a fully attentional network by restricting the attention to a local
region. In this paper, we attempt to remove this constraint by factorizing 2D
self-attention into two 1D self-attentions. This reduces computation complexity
and allows performing attention within a larger or even global region. In
companion, we also propose a position-sensitive self-attention design.
Combining both yields our position-sensitive axial-attention layer, a novel
building block that one could stack to form axial-attention models for image
classification and dense prediction. We demonstrate the effectiveness of our
model on four large-scale datasets. In particular, our model outperforms all
existing stand-alone self-attention models on ImageNet. Our Axial-DeepLab
improves 2.8% PQ over bottom-up state-of-the-art on COCO test-dev. This
previous state-of-the-art is attained by our small variant that is 3.8x
parameter-efficient and 27x computation-efficient. Axial-DeepLab also achieves
state-of-the-art results on Mapillary Vistas and Cityscapes.
- Abstract(参考訳): 畳み込みは、長距離コンテキストの欠如による効率の局所性を利用する。
非局所的な相互作用を持つCNNを増強するために自己注意が採用された。
近年の研究では, 局所領域への注意を限定することで, セルフアテンション層を積み重ねることで, 完全に注意深いネットワークを得ることが可能となった。
本稿では,2次元自己愛を2次元自己愛に分解することにより,この制約を取り除こうとする。
これにより計算の複雑さが軽減され、より大きな領域やグローバル領域でも注意を向けられるようになる。
また,位置感応型自己注意設計を提案する。
どちらも位置感受性の軸アテンション層を合成し、画像分類と密集予測のための軸アテンションモデルを構築するために積み重ねることができる。
4つの大規模データセットにおけるモデルの有効性を示す。
特に、私たちのモデルは、ImageNet上の既存のスタンドアローンの自己アテンションモデルよりも優れています。
私たちのAxial-DeepLabは、COCOテストデブのボトムアップ状態よりも2.8%のPQを改善しています。
この以前の状態は、パラメーター効率が3.8倍、計算効率が27倍の小さな変種によって達成されている。
Axial-DeepLabはMapillary VistasとCityscapesの最先端の結果も達成している。
関連論文リスト
- Deeper into Self-Supervised Monocular Indoor Depth Estimation [7.30562653023176]
単分子配列から室内深度を自己教師付きで学習することは、研究者にとって非常に難しい。
本研究では,IndoorDepthという手法を2つのイノベーションから構成する。
NYUv2ベンチマークの実験では、私たちのIndoorDepthは従来の最先端の手法よりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2023-12-03T04:55:32Z) - Optimization Efficient Open-World Visual Region Recognition [55.76437190434433]
RegionSpotは、ローカライゼーション基盤モデルから位置認識ローカライゼーション知識と、ViLモデルからのセマンティック情報を統合する。
オープンワールドオブジェクト認識の実験では、私たちのRereaSpotは、以前の代替よりも大きなパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-11-02T16:31:49Z) - Correlation-Aware Deep Tracking [83.51092789908677]
本稿では,自己/横断的意図に着想を得た,新たなターゲット依存型特徴ネットワークを提案する。
我々のネットワークは機能ネットワークの複数の層にクロスイメージの特徴相関を深く埋め込んでいる。
我々のモデルは、豊富な未ペア画像に対して柔軟に事前訓練が可能であり、既存の手法よりも顕著に高速な収束をもたらす。
論文 参考訳(メタデータ) (2022-03-03T11:53:54Z) - Visual Attention Network [90.0753726786985]
本稿では,自己アテンションにおける自己適応性および長距離相関を実現するために,新しいカーネルアテンション(LKA)モジュールを提案する。
また、LKAに基づく新しいニューラルネットワーク、すなわちVisual Attention Network (VAN)を導入する。
VANは、最先端のビジョントランスフォーマーと畳み込みニューラルネットワークを、広範な実験において大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-02-20T06:35:18Z) - Efficient Person Search: An Anchor-Free Approach [86.45858994806471]
パーソンサーチは、クエリーの人物を、リアルで切り刻まれていない画像から、同時にローカライズし、識別することを目的としている。
この目標を達成するために、最先端モデルは通常、Faster R-CNNのような2段階検出器にre-idブランチを追加する。
本研究では,この課題に対処するためのアンカーフリーな手法を提案する。
論文 参考訳(メタデータ) (2021-09-01T07:01:33Z) - Channelized Axial Attention for Semantic Segmentation [70.14921019774793]
チャネルアキシャルアテンション(CAA)を提案し、チャネルアテンションと軸アテンションをシームレスに統合し、計算複雑性を低減します。
私たちのCAAは、DANetのような他の注意モデルに比べて計算リソースをはるかに少なくするだけでなく、すべての検証済みデータセット上で最先端のResNet-101ベースのセグメンテーションモデルよりも優れています。
論文 参考訳(メタデータ) (2021-01-19T03:08:03Z) - SA-Det3D: Self-Attention Based Context-Aware 3D Object Detection [9.924083358178239]
本稿では,3次元物体検出におけるコンテキストモデリングのための2種類の自己注意法を提案する。
まず,現状のbev,voxel,ポイントベース検出器にペアワイズ自着機構を組み込む。
次に,ランダムにサンプリングされた位置の変形を学習することにより,最も代表的な特徴のサブセットをサンプリングするセルフアテンション変種を提案する。
論文 参考訳(メタデータ) (2021-01-07T18:30:32Z) - Multi-scale Attention U-Net (MsAUNet): A Modified U-Net Architecture for
Scene Segmentation [1.713291434132985]
画像からコンテキスト情報を用いたシーンセグメンテーションのためのマルチスケールアテンションネットワークを提案する。
このネットワークは、局所的な特徴をグローバルな特徴にマップし、精度を向上し、識別画像領域を強調する。
我々はPascalVOC2012とADE20kという2つの標準データセットでモデルを評価した。
論文 参考訳(メタデータ) (2020-09-15T08:03:41Z) - ULSAM: Ultra-Lightweight Subspace Attention Module for Compact
Convolutional Neural Networks [4.143032261649983]
Ultra-Lightweight Subspace Attention Mechanism(ULSAM)は、エンドツーエンドのトレーニングが可能で、コンパクト畳み込みニューラルネットワーク(CNN)のプラグアンドプレイモジュールとしてデプロイできる。
FLOPとパラメータカウントの両方において$approx$13%と$approx$25%の削減を実現し、ImageNet-1Kおよびきめ細かい画像分類データセット上で、0.27%以上の精度と1%以上の精度で、MobileNet-V2のFLOPとパラメータカウントを削減した。
論文 参考訳(メタデータ) (2020-06-26T17:05:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。