論文の概要: Multi-Level Feature Aggregation and Recursive Alignment Network for
Real-Time Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2402.02286v1
- Date: Sat, 3 Feb 2024 22:51:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 20:50:09.250345
- Title: Multi-Level Feature Aggregation and Recursive Alignment Network for
Real-Time Semantic Segmentation
- Title(参考訳): リアルタイムセマンティックセグメンテーションのためのマルチレベル特徴集合と再帰アライメントネットワーク
- Authors: Yanhua Zhang, Ke Zhang, Jingyu Wang, Yulin Wu, Wuwei Wang
- Abstract要約: 我々は,MFARANet(Multi-level Feature Aggregation and Recursive Alignment Network)を提案する。
MFARANetは、リアルタイム推論速度で高いセグメンテーション精度を達成することを目的としている。
特に、CityscapesとCamVidデータセットの最先端のリアルタイム手法よりも、スピードと精度のバランスが良くなっています。
- 参考スコア(独自算出の注目度): 19.815484270223937
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-time semantic segmentation is a crucial research for real-world
applications. However, many methods lay particular emphasis on reducing the
computational complexity and model size, while largely sacrificing the
accuracy. In some scenarios, such as autonomous navigation and driver
assistance system, accuracy and speed are equally important. To tackle this
problem, we propose a novel Multi-level Feature Aggregation and Recursive
Alignment Network (MFARANet), aiming to achieve high segmentation accuracy at
real-time inference speed. We employ ResNet-18 as the backbone to ensure
efficiency, and propose three core components to compensate for the reduced
model capacity due to the shallow backbone. Specifically, we first design
Multi-level Feature Aggregation Module (MFAM) to aggregate the hierarchical
features in the encoder to each scale to benefit subsequent spatial alignment
and multi-scale inference. Then, we build Recursive Alignment Module (RAM) by
combining the flow-based alignment module with recursive upsampling
architecture for accurate and efficient spatial alignment between multi-scale
score maps. Finally, the Adaptive Scores Fusion Module (ASFM) is proposed to
adaptively fuse multi-scale scores so that the final prediction can favor
objects of multiple scales. Comprehensive experiments on three benchmark
datasets including Cityscapes, CamVid and PASCAL-Context show the effectiveness
and efficiency of our method. In particular, we achieve a better balance
between speed and accuracy than state-of-the-art real-time methods on
Cityscapes and CamVid datasets. Code is available at:
https://github.com/Yanhua-Zhang/MFARANet.
- Abstract(参考訳): リアルタイムセマンティクスセグメンテーションは、現実世界のアプリケーションにとって重要な研究である。
しかし、多くの手法は計算の複雑さとモデルサイズを減らすことに特に重点を置いている。
自律ナビゲーションや運転支援システムのようないくつかのシナリオでは、精度と速度が等しく重要である。
そこで本研究では,マルチレベル特徴集約・再帰的アライメントネットワーク(mfaranet)を提案する。
我々はResNet-18をバックボーンとして使用して効率を確保するとともに、浅いバックボーンによるモデル容量の削減を補う3つのコアコンポーネントを提案する。
具体的には、まずMFAM(Multi-level Feature Aggregation Module)を設計し、エンコーダの階層的特徴を各スケールに集約し、その後の空間的アライメントとマルチスケール推論に役立てる。
次に,フローベースアライメントモジュールと再帰アライメントアーキテクチャを組み合わせることで,マルチスケールスコアマップ間の空間アライメントを高精度かつ効率的に行うことで,RAMを構築する。
最後に,適応スコア・フュージョン・モジュール (ASFM) が複数スケールのスコアを適応的に融合し,最終的な予測が複数のスケールのオブジェクトを優先するように提案されている。
Cityscapes、CamVid、PASCAL-Contextを含む3つのベンチマークデータセットの総合的な実験により、本手法の有効性と効率が示された。
特に,都市景観とcamvidデータセットにおける最先端のリアルタイム手法よりも,速度と精度のバランスが良好である。
コードはhttps://github.com/yanhua-zhang/mfaranet。
関連論文リスト
- A Refreshed Similarity-based Upsampler for Direct High-Ratio Feature Upsampling [54.05517338122698]
本稿では,セマンティック・アウェアとディテール・アウェアの両方の観点から,明示的に制御可能なクエリキー機能アライメントを提案する。
また,モーザイクアーティファクトを緩和するのには単純だが有効であるHR特徴量に対して,きめ細かな近傍選択戦略を開発した。
提案するReSFUフレームワークは,異なるセグメンテーションアプリケーション上での良好な性能を一貫して達成する。
論文 参考訳(メタデータ) (2024-07-02T14:12:21Z) - Bilateral Network with Residual U-blocks and Dual-Guided Attention for
Real-time Semantic Segmentation [18.393208069320362]
注意計算によって導かれる2分岐アーキテクチャのための新しい融合機構を設計する。
正確には、DGA(Dual-Guided Attention)モジュールを使用して、いくつかのマルチスケール変換を置き換えることを提案した。
Cityscapes と CamVid のデータセットを用いた実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-10-31T09:20:59Z) - RGM: A Robust Generalizable Matching Model [49.60975442871967]
RGM(Robust Generalist Matching)と呼ばれる疎密マッチングのための深部モデルを提案する。
合成トレーニングサンプルと実世界のシナリオのギャップを狭めるために、我々は、疎対応基盤真理を持つ新しい大規模データセットを構築した。
さまざまな密集したスパースなデータセットを混ぜ合わせることができ、トレーニングの多様性を大幅に改善しています。
論文 参考訳(メタデータ) (2023-10-18T07:30:08Z) - Staged Depthwise Correlation and Feature Fusion for Siamese Object
Tracking [0.6827423171182154]
視覚的トラッキングのための特徴抽出をさらに最適化するために,DCFFNet という新たな段階的深度相関と特徴融合ネットワークを提案する。
シアムネットワークアーキテクチャに基づいてディープトラッカーを構築しており、複数の大規模データセットでゼロからトレーニングされたオフラインです。
OTB100,VOT2018,LaSOTなど,一般的なベンチマークにトラッカーを実装した。
論文 参考訳(メタデータ) (2023-10-15T06:04:42Z) - Adaptive Spot-Guided Transformer for Consistent Local Feature Matching [64.30749838423922]
局所的特徴マッチングのための適応スポットガイド変換器(ASTR)を提案する。
ASTRは、統一された粗いアーキテクチャにおける局所的な一貫性とスケールのバリエーションをモデル化する。
論文 参考訳(メタデータ) (2023-03-29T12:28:01Z) - Learning Implicit Feature Alignment Function for Semantic Segmentation [51.36809814890326]
Implicit Feature Alignment Function (IFA)は、暗黙の神経表現の急速に拡大するトピックにインスパイアされている。
IFAは機能マップを異なるレベルで暗黙的に整列し、任意の解像度でセグメンテーションマップを生成することができることを示す。
提案手法は,様々なアーキテクチャの改善と組み合わせて,一般的なベンチマークにおける最先端の精度のトレードオフを実現する。
論文 参考訳(メタデータ) (2022-06-17T09:40:14Z) - Real-Time Scene Text Detection with Differentiable Binarization and
Adaptive Scale Fusion [62.269219152425556]
セグメンテーションに基づくシーンテキスト検出手法はシーンテキスト検出分野において大きな注目を集めている。
本稿では,二項化処理をセグメンテーションネットワークに統合する分散二項化(DB)モジュールを提案する。
アダプティブ・スケール・フュージョン (ASF) モジュールは, 異なるスケールの特徴を適応的に融合させることにより, スケールのロバスト性を向上させる。
論文 参考訳(メタデータ) (2022-02-21T15:30:14Z) - DFC: Deep Feature Consistency for Robust Point Cloud Registration [0.4724825031148411]
複雑なアライメントシーンのための学習に基づくアライメントネットワークを提案する。
我々は,3DMatchデータセットとKITTIオドメトリデータセットに対するアプローチを検証する。
論文 参考訳(メタデータ) (2021-11-15T08:27:21Z) - Joint Self-Attention and Scale-Aggregation for Self-Calibrated Deraining
Network [13.628218953897946]
本稿では,JDNetとよばれる有効アルゴリズムを提案する。
自己校正畳み込みを用いたスケール・アグリゲーション・セルフアグリゲーション・モジュールを巧みに設計することにより,提案モデルはより優れたデコレーション結果が得られる。
論文 参考訳(メタデータ) (2020-08-06T17:04:34Z) - Augmented Parallel-Pyramid Net for Attention Guided Pose-Estimation [90.28365183660438]
本稿では、注意部分モジュールと微分可能な自動データ拡張を備えた拡張並列ピラミドネットを提案する。
我々は、データ拡張のシーケンスをトレーニング可能なCNNコンポーネントとして定式化する新しいポーズ検索空間を定義する。
特に,本手法は,挑戦的なCOCOキーポイントベンチマークとMPIIデータセットの最先端結果において,トップ1の精度を実現する。
論文 参考訳(メタデータ) (2020-03-17T03:52:17Z) - FarSee-Net: Real-Time Semantic Segmentation by Efficient Multi-scale
Context Aggregation and Feature Space Super-resolution [14.226301825772174]
Cascaded Factorized Atrous Space Pyramid Pooling (CF-ASPP) と呼ばれる新しい効率的なモジュールについて紹介する。
これは畳み込みニューラルネットワーク(CNN)のための軽量なカスケード構造であり、コンテキスト情報を効率的に活用する。
我々は1枚のNivida Titan X (Maxwell) GPUカードでCityscapesテストセットの84fpsで68.4% mIoUを達成した。
論文 参考訳(メタデータ) (2020-03-09T03:53:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。