論文の概要: AttaNet: Attention-Augmented Network for Fast and Accurate Scene Parsing
- arxiv url: http://arxiv.org/abs/2103.05930v1
- Date: Wed, 10 Mar 2021 08:38:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-11 14:54:13.460717
- Title: AttaNet: Attention-Augmented Network for Fast and Accurate Scene Parsing
- Title(参考訳): AttaNet: 高速かつ正確なシーン解析のための注意強化ネットワーク
- Authors: Qi Song and Kangfu Mei and Rui Huang
- Abstract要約: AttaNet(Attention-Augmented Network)と呼ばれる新しいモデルを提案し、グローバルコンテキストとマルチレベルセマンティクスの両方をキャプチャする。
AttaNet は Strip Attention Module (SAM) と Attention Fusion Module (AFM) の2つの主要なモジュールで構成されている。
- 参考スコア(独自算出の注目度): 12.409365458889082
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Two factors have proven to be very important to the performance of semantic
segmentation models: global context and multi-level semantics. However,
generating features that capture both factors always leads to high
computational complexity, which is problematic in real-time scenarios. In this
paper, we propose a new model, called Attention-Augmented Network (AttaNet), to
capture both global context and multilevel semantics while keeping the
efficiency high. AttaNet consists of two primary modules: Strip Attention
Module (SAM) and Attention Fusion Module (AFM). Viewing that in challenging
images with low segmentation accuracy, there are a significantly larger amount
of vertical strip areas than horizontal ones, SAM utilizes a striping operation
to reduce the complexity of encoding global context in the vertical direction
drastically while keeping most of contextual information, compared to the
non-local approaches. Moreover, AFM follows a cross-level aggregation strategy
to limit the computation, and adopts an attention strategy to weight the
importance of different levels of features at each pixel when fusing them,
obtaining an efficient multi-level representation. We have conducted extensive
experiments on two semantic segmentation benchmarks, and our network achieves
different levels of speed/accuracy trade-offs on Cityscapes, e.g., 71 FPS/79.9%
mIoU, 130 FPS/78.5% mIoU, and 180 FPS/70.1% mIoU, and leading performance on
ADE20K as well.
- Abstract(参考訳): セマンティックセグメンテーションモデルのパフォーマンスには、グローバルコンテキストとマルチレベルセマンティクスという2つの要素が非常に重要です。
しかし、両方の要素をキャプチャする特徴を生成することは、常に高い計算複雑性をもたらすため、リアルタイムシナリオでは問題となる。
本稿では,AttaNet(Attention-Augmented Network)と呼ばれる新しいモデルを提案し,効率を高く保ちながら,グローバルコンテキストとマルチレベルセマンティクスの両方をキャプチャする。
AttaNetは、Strip Attention Module (SAM) と Attention Fusion Module (AFM) の2つの主要なモジュールで構成されている。
分割精度の低い挑戦画像では、水平領域よりも垂直領域の方がはるかに多く、SAMはストリップ操作を用いて、非局所的なアプローチに比べて、文脈情報のほとんどを保持しながら、垂直方向にグローバルコンテキストを符号化する複雑さを劇的に低減する。
さらに、AFMは計算を制限するためのクロスレベルアグリゲーション戦略に従い、各画素の異なるレベルの機能の重要性を重み付けるための注意戦略を採用し、効率的なマルチレベル表現を得ます。
2つのセマンティクスセグメンテーションベンチマークについて広範な実験を行い,71fps/79.9%miou,130fps/78.5%miou,180fps/70.1%miouなど,都市景観における速度/精度トレードオフの異なるレベルを達成し,ade20kにおけるパフォーマンスも向上した。
関連論文リスト
- MacFormer: Semantic Segmentation with Fine Object Boundaries [38.430631361558426]
新しいセマンティックセグメンテーションアーキテクチャであるMacFormer'を導入する。
まず、学習可能なエージェントトークンを使用することで、Mutual Agent Cross-Attention(MACA)メカニズムは、エンコーダ層とデコーダ層をまたいだ機能の双方向統合を効果的に実現する。
第二に、デコーダ内の周波数拡張モジュール(FEM)は高周波および低周波成分を活用して周波数領域の特徴を高める。
MacFormerはさまざまなネットワークアーキテクチャと互換性があり、ADE20KベンチマークとCityscapesの精度と効率の両方で既存のメソッドより優れていることが示されている。
論文 参考訳(メタデータ) (2024-08-11T05:36:10Z) - TOPIQ: A Top-down Approach from Semantics to Distortions for Image
Quality Assessment [53.72721476803585]
画像品質評価(IQA)は、ディープニューラルネットワークによる顕著な進歩を目の当たりにしたコンピュータビジョンの基本課題である。
本稿では,高レベルの意味論を用いてIQAネットワークを誘導し,意味的に重要な局所歪み領域に注目するトップダウンアプローチを提案する。
提案手法の重要な要素は,低レベル特徴に対するアテンションマップを算出した,クロススケールアテンション機構である。
論文 参考訳(メタデータ) (2023-08-06T09:08:37Z) - Multi-interactive Feature Learning and a Full-time Multi-modality
Benchmark for Image Fusion and Segmentation [66.15246197473897]
多モード画像融合とセグメンテーションは、自律走行とロボット操作において重要な役割を果たす。
画像融合とtextbfSegmentation のための textbfMulti-textbfinteractive textbfFeature Learning アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-08-04T01:03:58Z) - ASAP: Accurate semantic segmentation for real time performance [3.5327983932835165]
異なるノルムを持つ特徴融合法(FFDN)を提案する。
FFDNは、自己注意の前に多層スケールと垂直プールモジュールの豊富なグローバルコンテキストを利用する。
73.1のunion(mIoU)と191のFrame Per Second(FPS)の平均相互作用は、Cityscapesテストデータセットの最先端と同等の結果である。
論文 参考訳(メタデータ) (2022-10-04T02:35:53Z) - Transformer-based Context Condensation for Boosting Feature Pyramids in
Object Detection [77.50110439560152]
現在の物体検出器は、通常マルチレベル特徴融合(MFF)のための特徴ピラミッド(FP)モジュールを持つ。
我々は,既存のFPがより優れたMFF結果を提供するのに役立つ,新しい,効率的なコンテキストモデリング機構を提案する。
特に,包括的文脈を2種類の表現に分解・凝縮して高効率化を図っている。
論文 参考訳(メタデータ) (2022-07-14T01:45:03Z) - S$^2$-FPN: Scale-ware Strip Attention Guided Feature Pyramid Network for Real-time Semantic Segmentation [6.744210626403423]
本稿では,リアルタイム道路シーンセマンティックセグメンテーションにおける精度/速度のトレードオフを実現するための新しいモデルを提案する。
具体的には、スケール対応ストリップ注意誘導特徴ピラミッドネットワーク(S$2-FPN)という軽量モデルを提案する。
我々のネットワークは,アテンションピラミッドフュージョン(APF)モジュール,スケール対応ストリップアテンションモジュール(SSAM)モジュール,グローバルフィーチャーアップサンプル(GFU)モジュールの3つの主要モジュールで構成されている。
論文 参考訳(メタデータ) (2022-06-15T05:02:49Z) - AF$_2$: Adaptive Focus Framework for Aerial Imagery Segmentation [86.44683367028914]
航空画像のセグメンテーションにはいくつかの独特な課題があり、中でも最も重要なものは前景と背景のアンバランスにある。
本稿では,階層的なセグメンテーション手法を採用し,マルチスケール表現を適応的に活用するAdaptive Focus Framework (AF$)を提案する。
AF$は、広く使われている3つの航空ベンチマークの精度を大幅に改善した。
論文 参考訳(メタデータ) (2022-02-18T10:14:45Z) - Real-time Semantic Segmentation with Fast Attention [94.88466483540692]
本稿では,高解像度画像と映像をリアルタイムにセマンティックセグメンテーションするための新しいアーキテクチャを提案する。
提案したアーキテクチャは我々の空間的注意の速さに依存しており、これは一般的な自己注意機構の単純かつ効率的な修正である。
複数のデータセットに対する結果から,既存の手法に比べて精度と速度が向上し,優れた性能を示した。
論文 参考訳(メタデータ) (2020-07-07T22:37:16Z) - BiSeNet V2: Bilateral Network with Guided Aggregation for Real-time
Semantic Segmentation [118.46210049742993]
バイラテラル空間ネットワーク(BiSeNet V2)と呼ばれる,速度と精度のトレードオフが良好である効率的なアーキテクチャを提案する。
2,048x1の入力に対して、我々はCityscapesテストセットで72.6%の平均IoUを1つのNVIDIA GeForce 1080 Tiカードで156 FPSで達成した。
論文 参考訳(メタデータ) (2020-04-05T10:26:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。