論文の概要: Spatial-information Guided Adaptive Context-aware Network for Efficient
RGB-D Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2308.06024v1
- Date: Fri, 11 Aug 2023 09:02:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-14 14:35:14.203763
- Title: Spatial-information Guided Adaptive Context-aware Network for Efficient
RGB-D Semantic Segmentation
- Title(参考訳): 空間情報誘導型適応文脈認識ネットワークによる効率的なrgb-d意味セグメンテーション
- Authors: Yang Zhang, Chenyun Xiong, Junjie Liu, Xuhui Ye, Guodong Sun
- Abstract要約: 計算パラメータを削減し,アルゴリズムの堅牢性を保証する,効率的な軽量エンコーダデコーダネットワークを提案する。
また,NYUv2,SUN RGB-D,Cityscapesのデータセットを用いた実験結果から,本手法は最先端手法よりもセグメンテーション精度,推定時間,パラメータのトレードオフが良好であることが示された。
- 参考スコア(独自算出の注目度): 9.198120596225968
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Efficient RGB-D semantic segmentation has received considerable attention in
mobile robots, which plays a vital role in analyzing and recognizing
environmental information. According to previous studies, depth information can
provide corresponding geometric relationships for objects and scenes, but
actual depth data usually exist as noise. To avoid unfavorable effects on
segmentation accuracy and computation, it is necessary to design an efficient
framework to leverage cross-modal correlations and complementary cues. In this
paper, we propose an efficient lightweight encoder-decoder network that reduces
the computational parameters and guarantees the robustness of the algorithm.
Working with channel and spatial fusion attention modules, our network
effectively captures multi-level RGB-D features. A globally guided local
affinity context module is proposed to obtain sufficient high-level context
information. The decoder utilizes a lightweight residual unit that combines
short- and long-distance information with a few redundant computations.
Experimental results on NYUv2, SUN RGB-D, and Cityscapes datasets show that our
method achieves a better trade-off among segmentation accuracy, inference time,
and parameters than the state-of-the-art methods. The source code will be at
https://github.com/MVME-HBUT/SGACNet
- Abstract(参考訳): 効率的なRGB-Dセマンティックセグメンテーションは,環境情報の分析・認識において重要な役割を担っている移動ロボットにおいて注目されている。
これまでの研究では、深度情報はオブジェクトとシーンの対応する幾何学的関係を提供するが、実際の深度データはノイズとして存在する。
セグメンテーションの精度と計算に好ましくない影響を避けるためには,相互相関と補完的手がかりを利用する効率的なフレームワークを設計する必要がある。
本稿では,計算パラメータを低減し,アルゴリズムのロバスト性を保証する効率的な軽量エンコーダ・デコーダネットワークを提案する。
チャネルおよび空間融合アテンションモジュールを用いて,マルチレベルRGB-D特徴を効果的に捉える。
グローバルガイド付き局所親和性コンテキストモジュールが提案され、十分な高レベルコンテキスト情報が得られる。
デコーダは、短距離と長距離の情報といくつかの冗長な計算を組み合わせた軽量な残留ユニットを使用する。
また,NYUv2,SUN RGB-D,Cityscapesのデータセットを用いた実験結果から,本手法は最先端手法よりもセグメンテーション精度,推定時間,パラメータのトレードオフが良好であることが示された。
ソースコードはhttps://github.com/MVME-HBUT/SGACNetにある。
関連論文リスト
- CSFNet: A Cosine Similarity Fusion Network for Real-Time RGB-X Semantic Segmentation of Driving Scenes [0.0]
マルチモーダルなセマンティックセグメンテーション手法は、高い計算複雑性と低い推論速度に悩まされる。
本稿では,リアルタイムRGB-XセマンティックセマンティックセグメンテーションモデルとしてCosine similarity Fusion Network (CSFNet)を提案する。
CSFNetは最先端の手法と競合する精度を持ち、速度に関しては最先端の手法である。
論文 参考訳(メタデータ) (2024-07-01T14:34:32Z) - Optimizing rgb-d semantic segmentation through multi-modal interaction
and pooling attention [5.518612382697244]
マルチモーダルインタラクションとプールアテンションネットワーク(MIPANet)は,RGBと奥行きモダリティの相互相乗効果を利用するように設計されている。
エンコーダの様々な段階でプール注意モジュール(PAM)を導入する。
このモジュールは、ネットワークによって抽出された機能を増幅し、モジュールの出力をデコーダに統合する。
論文 参考訳(メタデータ) (2023-11-19T12:25:59Z) - LENet: Lightweight And Efficient LiDAR Semantic Segmentation Using
Multi-Scale Convolution Attention [0.0]
本稿では,LDARに基づくセマンティックセマンティックセマンティクスのためのエンコーダデコーダ構造を持つLENetと呼ばれるプロジェクションベースのセマンティクスセマンティクスセマンティクスネットワークを提案する。
エンコーダは、特徴を捉えるために、様々な受信フィールドサイズを持つ新しいマルチスケール・コンボリューション・アテンション(MSCA)モジュールで構成されている。
提案手法は, 最先端のセマンティックセグメンテーション法と比較して, 軽量で, 効率的で, 堅牢であることを示す。
論文 参考訳(メタデータ) (2023-01-11T02:51:38Z) - CENet: Toward Concise and Efficient LiDAR Semantic Segmentation for
Autonomous Driving [4.6193503399184275]
我々はtextbfCENet という画像に基づくセマンティックセマンティックセマンティックネットワークを提案する。
当社のパイプラインは,最先端モデルと比較して,mIoUと推論性能がはるかに向上している。
論文 参考訳(メタデータ) (2022-07-26T07:22:19Z) - MobileSal: Extremely Efficient RGB-D Salient Object Detection [62.04876251927581]
本稿では,効率的なRGB-Dサルエント物体検出(SOD)に焦点を当てた新しいネットワーク,メソッド名を提案する。
RGB-D SODのためのモバイルネットワークの特徴表現能力を強化するために,暗黙的深度復元(IDR)手法を提案する。
IDRとCPRを組み込むことで、7つの挑戦的なRGB-D SODデータセット上のsArtメソッドに対してメソッド名が好ましい。
論文 参考訳(メタデータ) (2020-12-24T04:36:42Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z) - Real-time Semantic Segmentation via Spatial-detail Guided Context
Propagation [49.70144583431999]
本研究では,リアルタイムセマンティックセグメンテーションを実現するための空間詳細ガイド付きコンテキスト伝搬ネットワーク(SGCPNet)を提案する。
浅い層の空間的詳細を利用して低解像度のグローバルコンテキストの伝播を誘導し、失われた空間情報を効果的に再構成することができる。
69.5%のmIoUセグメンテーション精度を実現し、GeForce GTX 1080 Tiの768x1536イメージ上で178.5 FPSに達する。
論文 参考訳(メタデータ) (2020-05-22T07:07:26Z) - Spatial Information Guided Convolution for Real-Time RGBD Semantic
Segmentation [79.78416804260668]
本稿では,効率的なRGB機能と3次元空間情報統合を実現するための空間情報ガイドコンボリューション(S-Conv)を提案する。
S-Convは、3次元空間情報によって導かれる畳み込みカーネルのサンプリングオフセットを推測する能力を有する。
我々はさらにS-Convを空間情報ガイド畳み込みネットワーク(SGNet)と呼ばれるセグメンテーションネットワークに組み込みます。
論文 参考訳(メタデータ) (2020-04-09T13:38:05Z) - Real-Time High-Performance Semantic Image Segmentation of Urban Street
Scenes [98.65457534223539]
都市景観のロバストなセマンティックセマンティックセグメンテーションのためのリアルタイムDCNNに基づく高速DCNN手法を提案する。
提案手法は, 51.0 fps と 39.3 fps の推論速度で, 平均 73.6% と平均 68.0% (mIoU) の精度を実現する。
論文 参考訳(メタデータ) (2020-03-11T08:45:53Z) - Depthwise Non-local Module for Fast Salient Object Detection Using a
Single Thread [136.2224792151324]
本稿では,高速な物体検出のための新しいディープラーニングアルゴリズムを提案する。
提案アルゴリズムは,1つのCPUスレッドと同時に,競合精度と高い推論効率を実現する。
論文 参考訳(メタデータ) (2020-01-22T15:23:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。