論文の概要: Cross-CBAM: A Lightweight network for Scene Segmentation
- arxiv url: http://arxiv.org/abs/2306.02306v1
- Date: Sun, 4 Jun 2023 09:03:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 18:35:09.321496
- Title: Cross-CBAM: A Lightweight network for Scene Segmentation
- Title(参考訳): Cross-CBAM: シーンセグメンテーションのための軽量ネットワーク
- Authors: Zhengbin Zhang, Zhenhao Xu, Xingsheng Gu, Juan Xiong
- Abstract要約: リアルタイムセマンティックセグメンテーションのための新しい軽量ネットワークであるCross-CBAMネットワークを提案する。
CityscapesデータセットとCamvidデータセットの実験では、73.4% mIoU、240.9FPS、77.2% mIoU、NVIDIA GTX 1080Tiで88.6FPSを達成した。
- 参考スコア(独自算出の注目度): 2.064612766965483
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene parsing is a great challenge for real-time semantic segmentation.
Although traditional semantic segmentation networks have made remarkable
leap-forwards in semantic accuracy, the performance of inference speed is
unsatisfactory. Meanwhile, this progress is achieved with fairly large networks
and powerful computational resources. However, it is difficult to run extremely
large models on edge computing devices with limited computing power, which
poses a huge challenge to the real-time semantic segmentation tasks. In this
paper, we present the Cross-CBAM network, a novel lightweight network for
real-time semantic segmentation. Specifically, a Squeeze-and-Excitation Atrous
Spatial Pyramid Pooling Module(SE-ASPP) is proposed to get variable
field-of-view and multiscale information. And we propose a Cross Convolutional
Block Attention Module(CCBAM), in which a cross-multiply operation is employed
in the CCBAM module to make high-level semantic information guide low-level
detail information. Different from previous work, these works use attention to
focus on the desired information in the backbone. CCBAM uses cross-attention
for feature fusion in the FPN structure. Extensive experiments on the
Cityscapes dataset and Camvid dataset demonstrate the effectiveness of the
proposed Cross-CBAM model by achieving a promising trade-off between
segmentation accuracy and inference speed. On the Cityscapes test set, we
achieve 73.4% mIoU with a speed of 240.9FPS and 77.2% mIoU with a speed of
88.6FPS on NVIDIA GTX 1080Ti.
- Abstract(参考訳): シーン解析は、リアルタイムセマンティクスセグメンテーションにとって大きな課題である。
従来のセマンティクスセグメンテーションネットワークは、セマンティクスの精度を飛躍的に向上させたが、推論速度の性能は満足できない。
一方、この進歩はかなり大きなネットワークと強力な計算資源で達成されている。
しかし、計算能力に制限のあるエッジコンピューティングデバイス上で非常に大きなモデルを実行することは困難であり、リアルタイムセマンティクスのセグメンテーションタスクにとって大きな課題となる。
本稿では,リアルタイムセマンティックセグメンテーションのための新しい軽量ネットワークであるCross-CBAMネットワークを提案する。
具体的には,可変フィールドオブビューおよびマルチスケール情報を得るために,空間ピラミッドプーリングモジュール(se-aspp)を提案する。
また,CCBAMモジュールにクロス多重操作を適用し,低レベルの詳細情報を高レベルなセマンティック情報に導出するクロス畳み込みブロック注意モジュール(CCBAM)を提案する。
以前の作業とは異なり、これらの作業は、バックボーンの望ましい情報に集中するために注意を払っています。
CCBAMはFPN構造における機能融合にクロスアテンションを用いる。
CityscapesデータセットとCamvidデータセットの大規模な実験は、セグメント化精度と推論速度の間の有望なトレードオフを達成し、提案したクロスCBAMモデルの有効性を示す。
Cityscapesのテストセットでは、73.4% mIoU、240.9FPS、77.2% mIoU、NVIDIA GTX 1080Tiで88.6FPSを達成した。
関連論文リスト
- Deep Multi-Branch Aggregation Network for Real-Time Semantic
Segmentation in Street Scenes [32.54045305607654]
多くの最先端のリアルタイムセマンティックセグメンテーション手法は、空間的詳細や文脈情報を犠牲にして高速な推論を行う傾向にある。
街路シーンにおけるリアルタイムセマンティックセグメンテーションを実現するために,エンコーダ・デコーダ構造に基づく新しいディープ・マルチブランチ・アグリゲーション・ネットワーク(DMA-Net)を提案する。
提案したDMA-Netは,1個のNVIDIA GTX 1080Ti GPUのみを用いて,それぞれ46.7 FPSと119.8 FPSの予測速度で,平均77.0%,平均73.6%のUnion(mIoU)が得られる。
論文 参考訳(メタデータ) (2022-03-08T12:07:32Z) - Stage-Aware Feature Alignment Network for Real-Time Semantic
Segmentation of Street Scenes [59.81228011432776]
街路シーンのリアルタイムなセマンティックセグメンテーションのためのSFANet(Stage-Aware Feature Alignment Network)を提案する。
デコーダにおける各ステージのユニークな役割を考慮に入れ、新しいステージ認識機能拡張ブロック(FEB)は、エンコーダからの特徴マップの空間的詳細と文脈的情報を強化するように設計されている。
実験の結果,提案したSFANetは,ストリートシーンのリアルタイムセマンティックセグメンテーションにおける精度と速度のバランスが良好であることがわかった。
論文 参考訳(メタデータ) (2022-03-08T11:46:41Z) - Prototypical Cross-Attention Networks for Multiple Object Tracking and
Segmentation [95.74244714914052]
複数のオブジェクトのトラッキングとセグメンテーションには、与えられたクラスのセットに属するオブジェクトを検出し、追跡し、セグメンテーションする必要がある。
オンライン上でリッチ・テンポラル情報を活用するプロトタイプ・クロス・アテンション・ネットワーク(PCAN)を提案する。
PCANは、Youtube-VISとBDD100Kデータセットで、現在のビデオインスタンス追跡とセグメンテーションコンテストの勝者を上回っている。
論文 参考訳(メタデータ) (2021-06-22T17:57:24Z) - Feature Reuse and Fusion for Real-time Semantic segmentation [0.0]
高分解能を維持しながら速度を上げる方法は議論され解決された問題である。
従来の設計経験に基づいて軽量ネットワークを設計し、最先端のリアルタイムセマンティックセマンティックセグメンテーションのレベルに到達したいと考えています。
論文 参考訳(メタデータ) (2021-05-27T06:47:02Z) - Rethinking BiSeNet For Real-time Semantic Segmentation [6.622485130017622]
BiSeNetはリアルタイムセグメンテーションのための人気のある2ストリームネットワークであることが証明されている。
本稿では,stdc( short-term dense concatenate network)と呼ばれる新しい構造を提案する。
論文 参考訳(メタデータ) (2021-04-27T13:49:47Z) - Real-time Semantic Segmentation with Fast Attention [94.88466483540692]
本稿では,高解像度画像と映像をリアルタイムにセマンティックセグメンテーションするための新しいアーキテクチャを提案する。
提案したアーキテクチャは我々の空間的注意の速さに依存しており、これは一般的な自己注意機構の単純かつ効率的な修正である。
複数のデータセットに対する結果から,既存の手法に比べて精度と速度が向上し,優れた性能を示した。
論文 参考訳(メタデータ) (2020-07-07T22:37:16Z) - Semantic Segmentation With Multi Scale Spatial Attention For Self
Driving Cars [2.7317088388886384]
本稿では,様々なスケールのマルチスケール特徴融合を用いた新しいニューラルネットワークを提案し,その精度と効率的なセマンティックイメージセグメンテーションを提案する。
我々は、ResNetベースの特徴抽出器、ダウンサンプリング部における拡張畳み込み層、アップサンプリング部におけるアトラス畳み込み層を使用し、コンキャット操作を用いてそれらをマージした。
より文脈的な情報をエンコードし、ネットワークの受容領域を強化するため、新しいアテンションモジュールが提案されている。
論文 参考訳(メタデータ) (2020-06-30T20:19:09Z) - BiSeNet V2: Bilateral Network with Guided Aggregation for Real-time
Semantic Segmentation [118.46210049742993]
バイラテラル空間ネットワーク(BiSeNet V2)と呼ばれる,速度と精度のトレードオフが良好である効率的なアーキテクチャを提案する。
2,048x1の入力に対して、我々はCityscapesテストセットで72.6%の平均IoUを1つのNVIDIA GeForce 1080 Tiカードで156 FPSで達成した。
論文 参考訳(メタデータ) (2020-04-05T10:26:38Z) - Real-Time High-Performance Semantic Image Segmentation of Urban Street
Scenes [98.65457534223539]
都市景観のロバストなセマンティックセマンティックセグメンテーションのためのリアルタイムDCNNに基づく高速DCNN手法を提案する。
提案手法は, 51.0 fps と 39.3 fps の推論速度で, 平均 73.6% と平均 68.0% (mIoU) の精度を実現する。
論文 参考訳(メタデータ) (2020-03-11T08:45:53Z) - Efficient Video Semantic Segmentation with Labels Propagation and
Refinement [138.55845680523908]
本稿では,ハイブリッドGPU/CPUを用いた高精細ビデオのリアルタイムセマンティックセマンティックセマンティック化の問題に取り組む。
i) CPU上では、非常に高速な光フロー法であり、ビデオの時間的側面を利用して、あるフレームから次のフレームへ意味情報を伝達するために使用される。
高解像度フレーム(2048 x 1024)を持つ一般的なCityscapesデータセットでは、単一のGPUとCPU上で80から1000Hzの動作ポイントが提案されている。
論文 参考訳(メタデータ) (2019-12-26T11:45:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。