論文の概要: Multi-Level Feature Aggregation and Recursive Alignment Network for
Real-Time Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2402.02286v1
- Date: Sat, 3 Feb 2024 22:51:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 20:50:09.250345
- Title: Multi-Level Feature Aggregation and Recursive Alignment Network for
Real-Time Semantic Segmentation
- Title(参考訳): リアルタイムセマンティックセグメンテーションのためのマルチレベル特徴集合と再帰アライメントネットワーク
- Authors: Yanhua Zhang, Ke Zhang, Jingyu Wang, Yulin Wu, Wuwei Wang
- Abstract要約: 我々は,MFARANet(Multi-level Feature Aggregation and Recursive Alignment Network)を提案する。
MFARANetは、リアルタイム推論速度で高いセグメンテーション精度を達成することを目的としている。
特に、CityscapesとCamVidデータセットの最先端のリアルタイム手法よりも、スピードと精度のバランスが良くなっています。
- 参考スコア(独自算出の注目度): 19.815484270223937
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-time semantic segmentation is a crucial research for real-world
applications. However, many methods lay particular emphasis on reducing the
computational complexity and model size, while largely sacrificing the
accuracy. In some scenarios, such as autonomous navigation and driver
assistance system, accuracy and speed are equally important. To tackle this
problem, we propose a novel Multi-level Feature Aggregation and Recursive
Alignment Network (MFARANet), aiming to achieve high segmentation accuracy at
real-time inference speed. We employ ResNet-18 as the backbone to ensure
efficiency, and propose three core components to compensate for the reduced
model capacity due to the shallow backbone. Specifically, we first design
Multi-level Feature Aggregation Module (MFAM) to aggregate the hierarchical
features in the encoder to each scale to benefit subsequent spatial alignment
and multi-scale inference. Then, we build Recursive Alignment Module (RAM) by
combining the flow-based alignment module with recursive upsampling
architecture for accurate and efficient spatial alignment between multi-scale
score maps. Finally, the Adaptive Scores Fusion Module (ASFM) is proposed to
adaptively fuse multi-scale scores so that the final prediction can favor
objects of multiple scales. Comprehensive experiments on three benchmark
datasets including Cityscapes, CamVid and PASCAL-Context show the effectiveness
and efficiency of our method. In particular, we achieve a better balance
between speed and accuracy than state-of-the-art real-time methods on
Cityscapes and CamVid datasets. Code is available at:
https://github.com/Yanhua-Zhang/MFARANet.
- Abstract(参考訳): リアルタイムセマンティクスセグメンテーションは、現実世界のアプリケーションにとって重要な研究である。
しかし、多くの手法は計算の複雑さとモデルサイズを減らすことに特に重点を置いている。
自律ナビゲーションや運転支援システムのようないくつかのシナリオでは、精度と速度が等しく重要である。
そこで本研究では,マルチレベル特徴集約・再帰的アライメントネットワーク(mfaranet)を提案する。
我々はResNet-18をバックボーンとして使用して効率を確保するとともに、浅いバックボーンによるモデル容量の削減を補う3つのコアコンポーネントを提案する。
具体的には、まずMFAM(Multi-level Feature Aggregation Module)を設計し、エンコーダの階層的特徴を各スケールに集約し、その後の空間的アライメントとマルチスケール推論に役立てる。
次に,フローベースアライメントモジュールと再帰アライメントアーキテクチャを組み合わせることで,マルチスケールスコアマップ間の空間アライメントを高精度かつ効率的に行うことで,RAMを構築する。
最後に,適応スコア・フュージョン・モジュール (ASFM) が複数スケールのスコアを適応的に融合し,最終的な予測が複数のスケールのオブジェクトを優先するように提案されている。
Cityscapes、CamVid、PASCAL-Contextを含む3つのベンチマークデータセットの総合的な実験により、本手法の有効性と効率が示された。
特に,都市景観とcamvidデータセットにおける最先端のリアルタイム手法よりも,速度と精度のバランスが良好である。
コードはhttps://github.com/yanhua-zhang/mfaranet。
関連論文リスト
- Bilateral Network with Residual U-blocks and Dual-Guided Attention for
Real-time Semantic Segmentation [18.393208069320362]
注意計算によって導かれる2分岐アーキテクチャのための新しい融合機構を設計する。
正確には、DGA(Dual-Guided Attention)モジュールを使用して、いくつかのマルチスケール変換を置き換えることを提案した。
Cityscapes と CamVid のデータセットを用いた実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-10-31T09:20:59Z) - SVNet: Where SO(3) Equivariance Meets Binarization on Point Cloud
Representation [65.4396959244269]
本論文は,3次元学習アーキテクチャを構築するための一般的なフレームワークを設計することによる課題に対処する。
提案手法はPointNetやDGCNNといった一般的なバックボーンに適用できる。
ModelNet40、ShapeNet、および実世界のデータセットであるScanObjectNNの実験では、この手法が効率、回転、精度の間の大きなトレードオフを達成することを示した。
論文 参考訳(メタデータ) (2022-09-13T12:12:19Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - AA-RMVSNet: Adaptive Aggregation Recurrent Multi-view Stereo Network [8.127449025802436]
本稿では,AA-RMVSNetというアダプティブアグリゲーションを備えた長短期記憶(LSTM)に基づく,新しいマルチビューステレオネットワークを提案する。
まず、コンテキスト認識の畳み込みとマルチスケールアグリゲーションを用いて、画像の特徴を適応的に抽出するビュー内アグリゲーションモジュールを提案する。
本稿では,すべてのビューにおいて,より整合性のあるペアを保存可能な,適応的なピクセルワイドビューアグリゲーションのためのビュー間コストボリュームアグリゲーションモジュールを提案する。
論文 参考訳(メタデータ) (2021-08-09T06:10:48Z) - Dynamic Convolution for 3D Point Cloud Instance Segmentation [146.7971476424351]
動的畳み込みに基づく3次元点雲からのインスタンスセグメンテーション手法を提案する。
我々は、同じ意味圏と閉投票を持つ等質点を幾何学的遠近点に対して収集する。
提案手法は提案不要であり、代わりに各インスタンスの空間的および意味的特性に適応する畳み込みプロセスを利用する。
論文 参考訳(メタデータ) (2021-07-18T09:05:16Z) - A Holistically-Guided Decoder for Deep Representation Learning with
Applications to Semantic Segmentation and Object Detection [74.88284082187462]
一般的な戦略の1つは、バックボーンネットワークに拡張畳み込みを採用し、高解像度のフィーチャーマップを抽出することです。
本稿では,高分解能なセマンティクスリッチな特徴マップを得るために紹介される,新たなホリスティック誘導デコーダを提案する。
論文 参考訳(メタデータ) (2020-12-18T10:51:49Z) - Real-Time High-Performance Semantic Image Segmentation of Urban Street
Scenes [98.65457534223539]
都市景観のロバストなセマンティックセマンティックセグメンテーションのためのリアルタイムDCNNに基づく高速DCNN手法を提案する。
提案手法は, 51.0 fps と 39.3 fps の推論速度で, 平均 73.6% と平均 68.0% (mIoU) の精度を実現する。
論文 参考訳(メタデータ) (2020-03-11T08:45:53Z) - FarSee-Net: Real-Time Semantic Segmentation by Efficient Multi-scale
Context Aggregation and Feature Space Super-resolution [14.226301825772174]
Cascaded Factorized Atrous Space Pyramid Pooling (CF-ASPP) と呼ばれる新しい効率的なモジュールについて紹介する。
これは畳み込みニューラルネットワーク(CNN)のための軽量なカスケード構造であり、コンテキスト情報を効率的に活用する。
我々は1枚のNivida Titan X (Maxwell) GPUカードでCityscapesテストセットの84fpsで68.4% mIoUを達成した。
論文 参考訳(メタデータ) (2020-03-09T03:53:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。