論文の概要: Real-time Semantic Segmentation with Fast Attention
- arxiv url: http://arxiv.org/abs/2007.03815v2
- Date: Thu, 9 Jul 2020 22:44:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 20:45:40.554712
- Title: Real-time Semantic Segmentation with Fast Attention
- Title(参考訳): 高速注意を伴うリアルタイム意味セグメンテーション
- Authors: Ping Hu, Federico Perazzi, Fabian Caba Heilbron, Oliver Wang, Zhe Lin,
Kate Saenko, Stan Sclaroff
- Abstract要約: 本稿では,高解像度画像と映像をリアルタイムにセマンティックセグメンテーションするための新しいアーキテクチャを提案する。
提案したアーキテクチャは我々の空間的注意の速さに依存しており、これは一般的な自己注意機構の単純かつ効率的な修正である。
複数のデータセットに対する結果から,既存の手法に比べて精度と速度が向上し,優れた性能を示した。
- 参考スコア(独自算出の注目度): 94.88466483540692
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In deep CNN based models for semantic segmentation, high accuracy relies on
rich spatial context (large receptive fields) and fine spatial details (high
resolution), both of which incur high computational costs. In this paper, we
propose a novel architecture that addresses both challenges and achieves
state-of-the-art performance for semantic segmentation of high-resolution
images and videos in real-time. The proposed architecture relies on our fast
spatial attention, which is a simple yet efficient modification of the popular
self-attention mechanism and captures the same rich spatial context at a small
fraction of the computational cost, by changing the order of operations.
Moreover, to efficiently process high-resolution input, we apply an additional
spatial reduction to intermediate feature stages of the network with minimal
loss in accuracy thanks to the use of the fast attention module to fuse
features. We validate our method with a series of experiments, and show that
results on multiple datasets demonstrate superior performance with better
accuracy and speed compared to existing approaches for real-time semantic
segmentation. On Cityscapes, our network achieves 74.4$\%$ mIoU at 72 FPS and
75.5$\%$ mIoU at 58 FPS on a single Titan X GPU, which is~$\sim$50$\%$ faster
than the state-of-the-art while retaining the same accuracy.
- Abstract(参考訳): セマンティックセグメンテーションのためのディープCNNベースのモデルでは、高い精度はリッチな空間コンテキスト(大きな受容場)と細かな空間詳細(高解像度)に依存し、どちらも高い計算コストを発生させる。
本稿では,高分解能画像と映像をリアルタイムにセグメンテーションするための,最先端のパフォーマンスを実現する新しいアーキテクチャを提案する。
提案したアーキテクチャは,従来の自己認識機構の簡易かつ効率的な変更であり,演算の順序を変化させることで,計算コストのごく一部で同じリッチな空間コンテキストをキャプチャする。
さらに,高分解能入力を効率的に処理するために,ファスト・アテンション・モジュールのヒューズ機能の利用により,ネットワークの中間特徴段階に最小限の精度で空間縮小を施す。
提案手法を一連の実験で検証し,複数のデータセットにおける結果が,既存の意味セマンティクスセグメンテーション手法と比較して精度と速度に優れることを示した。
都市景観において、我々のネットワークは72 fpsで74.4$\%$ miou、単一のtitan x gpu上で58 fpsで75.5$\%$ miouを達成する。
関連論文リスト
- RTFormer: Efficient Design for Real-Time Semantic Segmentation with
Transformer [63.25665813125223]
本稿では,リアルタイムセマンティックセグメンテーションのための効率的なデュアルレゾリューション変換器RTFormerを提案する。
CNNベースのモデルよりもパフォーマンスと効率のトレードオフが優れている。
主要なベンチマーク実験では,提案したRTFormerの有効性を示す。
論文 参考訳(メタデータ) (2022-10-13T16:03:53Z) - Revisiting Multi-Scale Feature Fusion for Semantic Segmentation [90.32746095413447]
本稿では,高精度なセマンティックセグメンテーションには高い内部分解能もアトラス畳み込みも不要であることを示す。
我々は,内部分解能が高く,高コストなアトラス畳み込みをもたない,ESegと呼ばれる簡易なセグメンテーションモデルを開発した。
我々の単純な手法は、複数のデータセットにまたがる先行技術よりも高速で精度を向上できる。
論文 参考訳(メタデータ) (2022-03-23T19:14:11Z) - Real-time Semantic Segmentation with Context Aggregation Network [14.560708848716754]
本稿では,2分岐畳み込みニューラルネットワークを提案する。
本研究では,2つのセマンティックセグメンテーションデータセット,すなわちCityscapesデータセットとUAVidデータセットについて評価を行った。
論文 参考訳(メタデータ) (2020-11-02T14:16:23Z) - Real-time Semantic Segmentation via Spatial-detail Guided Context
Propagation [49.70144583431999]
本研究では,リアルタイムセマンティックセグメンテーションを実現するための空間詳細ガイド付きコンテキスト伝搬ネットワーク(SGCPNet)を提案する。
浅い層の空間的詳細を利用して低解像度のグローバルコンテキストの伝播を誘導し、失われた空間情報を効果的に再構成することができる。
69.5%のmIoUセグメンテーション精度を実現し、GeForce GTX 1080 Tiの768x1536イメージ上で178.5 FPSに達する。
論文 参考訳(メタデータ) (2020-05-22T07:07:26Z) - BiSeNet V2: Bilateral Network with Guided Aggregation for Real-time
Semantic Segmentation [118.46210049742993]
バイラテラル空間ネットワーク(BiSeNet V2)と呼ばれる,速度と精度のトレードオフが良好である効率的なアーキテクチャを提案する。
2,048x1の入力に対して、我々はCityscapesテストセットで72.6%の平均IoUを1つのNVIDIA GeForce 1080 Tiカードで156 FPSで達成した。
論文 参考訳(メタデータ) (2020-04-05T10:26:38Z) - Real-Time High-Performance Semantic Image Segmentation of Urban Street
Scenes [98.65457534223539]
都市景観のロバストなセマンティックセマンティックセグメンテーションのためのリアルタイムDCNNに基づく高速DCNN手法を提案する。
提案手法は, 51.0 fps と 39.3 fps の推論速度で, 平均 73.6% と平均 68.0% (mIoU) の精度を実現する。
論文 参考訳(メタデータ) (2020-03-11T08:45:53Z) - FarSee-Net: Real-Time Semantic Segmentation by Efficient Multi-scale
Context Aggregation and Feature Space Super-resolution [14.226301825772174]
Cascaded Factorized Atrous Space Pyramid Pooling (CF-ASPP) と呼ばれる新しい効率的なモジュールについて紹介する。
これは畳み込みニューラルネットワーク(CNN)のための軽量なカスケード構造であり、コンテキスト情報を効率的に活用する。
我々は1枚のNivida Titan X (Maxwell) GPUカードでCityscapesテストセットの84fpsで68.4% mIoUを達成した。
論文 参考訳(メタデータ) (2020-03-09T03:53:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。