Fugu-MT 論文翻訳(概要): Multi-Level Feature Aggregation and Recursive Alignment Network for Real-Time Semantic Segmentation

論文の概要: Multi-Level Feature Aggregation and Recursive Alignment Network for Real-Time Semantic Segmentation

arxiv url: http://arxiv.org/abs/2402.02286v1
Date: Sat, 3 Feb 2024 22:51:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-06 20:50:09.250345
Title: Multi-Level Feature Aggregation and Recursive Alignment Network for Real-Time Semantic Segmentation
Title（参考訳）: リアルタイムセマンティックセグメンテーションのためのマルチレベル特徴集合と再帰アライメントネットワーク
Authors: Yanhua Zhang, Ke Zhang, Jingyu Wang, Yulin Wu, Wuwei Wang
Abstract要約: 我々は,MFARANet(Multi-level Feature Aggregation and Recursive Alignment Network)を提案する。 MFARANetは、リアルタイム推論速度で高いセグメンテーション精度を達成することを目的としている。特に、CityscapesとCamVidデータセットの最先端のリアルタイム手法よりも、スピードと精度のバランスが良くなっています。
参考スコア（独自算出の注目度）: 19.815484270223937
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Real-time semantic segmentation is a crucial research for real-world applications. However, many methods lay particular emphasis on reducing the computational complexity and model size, while largely sacrificing the accuracy. In some scenarios, such as autonomous navigation and driver assistance system, accuracy and speed are equally important. To tackle this problem, we propose a novel Multi-level Feature Aggregation and Recursive Alignment Network (MFARANet), aiming to achieve high segmentation accuracy at real-time inference speed. We employ ResNet-18 as the backbone to ensure efficiency, and propose three core components to compensate for the reduced model capacity due to the shallow backbone. Specifically, we first design Multi-level Feature Aggregation Module (MFAM) to aggregate the hierarchical features in the encoder to each scale to benefit subsequent spatial alignment and multi-scale inference. Then, we build Recursive Alignment Module (RAM) by combining the flow-based alignment module with recursive upsampling architecture for accurate and efficient spatial alignment between multi-scale score maps. Finally, the Adaptive Scores Fusion Module (ASFM) is proposed to adaptively fuse multi-scale scores so that the final prediction can favor objects of multiple scales. Comprehensive experiments on three benchmark datasets including Cityscapes, CamVid and PASCAL-Context show the effectiveness and efficiency of our method. In particular, we achieve a better balance between speed and accuracy than state-of-the-art real-time methods on Cityscapes and CamVid datasets. Code is available at: https://github.com/Yanhua-Zhang/MFARANet.
Abstract（参考訳）: リアルタイムセマンティクスセグメンテーションは、現実世界のアプリケーションにとって重要な研究である。しかし、多くの手法は計算の複雑さとモデルサイズを減らすことに特に重点を置いている。自律ナビゲーションや運転支援システムのようないくつかのシナリオでは、精度と速度が等しく重要である。そこで本研究では,マルチレベル特徴集約・再帰的アライメントネットワーク(mfaranet)を提案する。我々はResNet-18をバックボーンとして使用して効率を確保するとともに、浅いバックボーンによるモデル容量の削減を補う3つのコアコンポーネントを提案する。具体的には、まずMFAM(Multi-level Feature Aggregation Module)を設計し、エンコーダの階層的特徴を各スケールに集約し、その後の空間的アライメントとマルチスケール推論に役立てる。次に,フローベースアライメントモジュールと再帰アライメントアーキテクチャを組み合わせることで,マルチスケールスコアマップ間の空間アライメントを高精度かつ効率的に行うことで,RAMを構築する。最後に,適応スコア・フュージョン・モジュール (ASFM) が複数スケールのスコアを適応的に融合し,最終的な予測が複数のスケールのオブジェクトを優先するように提案されている。 Cityscapes、CamVid、PASCAL-Contextを含む3つのベンチマークデータセットの総合的な実験により、本手法の有効性と効率が示された。特に,都市景観とcamvidデータセットにおける最先端のリアルタイム手法よりも,速度と精度のバランスが良好である。コードはhttps://github.com/yanhua-zhang/mfaranet。

関連論文リスト

A Refreshed Similarity-based Upsampler for Direct High-Ratio Feature Upsampling [54.05517338122698]
本稿では,セマンティック・アウェアとディテール・アウェアの両方の観点から,明示的に制御可能なクエリキー機能アライメントを提案する。また,モーザイクアーティファクトを緩和するのには単純だが有効であるHR特徴量に対して,きめ細かな近傍選択戦略を開発した。提案するReSFUフレームワークは,異なるセグメンテーションアプリケーション上での良好な性能を一貫して達成する。
論文参考訳（メタデータ） (2024-07-02T14:12:21Z)
Bilateral Network with Residual U-blocks and Dual-Guided Attention for Real-time Semantic Segmentation [18.393208069320362]
注意計算によって導かれる2分岐アーキテクチャのための新しい融合機構を設計する。正確には、DGA(Dual-Guided Attention)モジュールを使用して、いくつかのマルチスケール変換を置き換えることを提案した。 Cityscapes と CamVid のデータセットを用いた実験により,本手法の有効性が示された。
論文参考訳（メタデータ） (2023-10-31T09:20:59Z)
RGM: A Robust Generalizable Matching Model [49.60975442871967]
RGM(Robust Generalist Matching)と呼ばれる疎密マッチングのための深部モデルを提案する。合成トレーニングサンプルと実世界のシナリオのギャップを狭めるために、我々は、疎対応基盤真理を持つ新しい大規模データセットを構築した。さまざまな密集したスパースなデータセットを混ぜ合わせることができ、トレーニングの多様性を大幅に改善しています。
論文参考訳（メタデータ） (2023-10-18T07:30:08Z)
Staged Depthwise Correlation and Feature Fusion for Siamese Object Tracking [0.6827423171182154]
視覚的トラッキングのための特徴抽出をさらに最適化するために,DCFFNet という新たな段階的深度相関と特徴融合ネットワークを提案する。シアムネットワークアーキテクチャに基づいてディープトラッカーを構築しており、複数の大規模データセットでゼロからトレーニングされたオフラインです。 OTB100,VOT2018,LaSOTなど,一般的なベンチマークにトラッカーを実装した。
論文参考訳（メタデータ） (2023-10-15T06:04:42Z)
Adaptive Spot-Guided Transformer for Consistent Local Feature Matching [64.30749838423922]
局所的特徴マッチングのための適応スポットガイド変換器(ASTR)を提案する。 ASTRは、統一された粗いアーキテクチャにおける局所的な一貫性とスケールのバリエーションをモデル化する。
論文参考訳（メタデータ） (2023-03-29T12:28:01Z)
Learning Implicit Feature Alignment Function for Semantic Segmentation [51.36809814890326]
Implicit Feature Alignment Function (IFA)は、暗黙の神経表現の急速に拡大するトピックにインスパイアされている。 IFAは機能マップを異なるレベルで暗黙的に整列し、任意の解像度でセグメンテーションマップを生成することができることを示す。提案手法は,様々なアーキテクチャの改善と組み合わせて,一般的なベンチマークにおける最先端の精度のトレードオフを実現する。
論文参考訳（メタデータ） (2022-06-17T09:40:14Z)
Real-Time Scene Text Detection with Differentiable Binarization and Adaptive Scale Fusion [62.269219152425556]
セグメンテーションに基づくシーンテキスト検出手法はシーンテキスト検出分野において大きな注目を集めている。本稿では,二項化処理をセグメンテーションネットワークに統合する分散二項化(DB)モジュールを提案する。アダプティブ・スケール・フュージョン (ASF) モジュールは, 異なるスケールの特徴を適応的に融合させることにより, スケールのロバスト性を向上させる。
論文参考訳（メタデータ） (2022-02-21T15:30:14Z)
DFC: Deep Feature Consistency for Robust Point Cloud Registration [0.4724825031148411]
複雑なアライメントシーンのための学習に基づくアライメントネットワークを提案する。我々は,3DMatchデータセットとKITTIオドメトリデータセットに対するアプローチを検証する。
論文参考訳（メタデータ） (2021-11-15T08:27:21Z)
Joint Self-Attention and Scale-Aggregation for Self-Calibrated Deraining Network [13.628218953897946]
本稿では,JDNetとよばれる有効アルゴリズムを提案する。自己校正畳み込みを用いたスケール・アグリゲーション・セルフアグリゲーション・モジュールを巧みに設計することにより,提案モデルはより優れたデコレーション結果が得られる。
論文参考訳（メタデータ） (2020-08-06T17:04:34Z)
Augmented Parallel-Pyramid Net for Attention Guided Pose-Estimation [90.28365183660438]
本稿では、注意部分モジュールと微分可能な自動データ拡張を備えた拡張並列ピラミドネットを提案する。我々は、データ拡張のシーケンスをトレーニング可能なCNNコンポーネントとして定式化する新しいポーズ検索空間を定義する。特に,本手法は,挑戦的なCOCOキーポイントベンチマークとMPIIデータセットの最先端結果において,トップ1の精度を実現する。
論文参考訳（メタデータ） (2020-03-17T03:52:17Z)
FarSee-Net: Real-Time Semantic Segmentation by Efficient Multi-scale Context Aggregation and Feature Space Super-resolution [14.226301825772174]
Cascaded Factorized Atrous Space Pyramid Pooling (CF-ASPP) と呼ばれる新しい効率的なモジュールについて紹介する。これは畳み込みニューラルネットワーク(CNN)のための軽量なカスケード構造であり、コンテキスト情報を効率的に活用する。我々は1枚のNivida Titan X (Maxwell) GPUカードでCityscapesテストセットの84fpsで68.4% mIoUを達成した。
論文参考訳（メタデータ） (2020-03-09T03:53:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。