論文の概要: Global-Local Propagation Network for RGB-D Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2101.10801v1
- Date: Tue, 26 Jan 2021 14:26:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-13 19:52:05.137956
- Title: Global-Local Propagation Network for RGB-D Semantic Segmentation
- Title(参考訳): rgb-dセマンティクスセグメンテーションのためのグローバル局所伝播ネットワーク
- Authors: Sihan Chen, Xinxin Zhu, Wei Liu, Xingjian He, Jing Liu
- Abstract要約: この問題を解決するため,グローバルローカル伝搬ネットワーク(GLPNet)を提案する。
GLPNetは、2つの挑戦的な屋内シーンセグメンテーションデータセットで最新のパフォーマンスを実現します。
- 参考スコア(独自算出の注目度): 12.710923449138434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Depth information matters in RGB-D semantic segmentation task for providing
additional geometric information to color images. Most existing methods exploit
a multi-stage fusion strategy to propagate depth feature to the RGB branch.
However, at the very deep stage, the propagation in a simple element-wise
addition manner can not fully utilize the depth information. We propose
Global-Local propagation network (GLPNet) to solve this problem. Specifically,
a local context fusion module(L-CFM) is introduced to dynamically align both
modalities before element-wise fusion, and a global context fusion
module(G-CFM) is introduced to propagate the depth information to the RGB
branch by jointly modeling the multi-modal global context features. Extensive
experiments demonstrate the effectiveness and complementarity of the proposed
fusion modules. Embedding two fusion modules into a two-stream encoder-decoder
structure, our GLPNet achieves new state-of-the-art performance on two
challenging indoor scene segmentation datasets, i.e., NYU-Depth v2 and SUN-RGBD
dataset.
- Abstract(参考訳): カラー画像に追加の幾何学情報を提供するRGB-Dセマンティックセマンティックセグメンテーションタスクにおける深度情報の重要性。
既存の手法の多くは多段核融合戦略を利用してrgbブランチに深度特性を伝播する。
しかし、非常に深い段階では、単純な要素的な付加方法での伝播は深度情報を十分に利用できない。
この問題を解決するため,グローバルローカル伝搬ネットワーク(GLPNet)を提案する。
具体的には、要素融合前の両方のモダリティを動的に整列させるローカルコンテキスト融合モジュール(L-CFM)が導入され、マルチモーダルなグローバルコンテキスト機能を共同でモデリングすることにより、RGBブランチに深さ情報を伝達するグローバルコンテキスト融合モジュール(G-CFM)が導入された。
広範な実験は、提案された核融合モジュールの有効性と相補性を示す。
2つの融合モジュールを2つのストリームエンコーダデコーダ構造に組み込むことで、GLPNetは2つの困難な屋内シーンセグメンテーションデータセット、すなわちNYU-Depth v2とSUN-RGBDデータセットで最新のパフォーマンスを実現します。
関連論文リスト
- Optimizing rgb-d semantic segmentation through multi-modal interaction
and pooling attention [5.518612382697244]
マルチモーダルインタラクションとプールアテンションネットワーク(MIPANet)は,RGBと奥行きモダリティの相互相乗効果を利用するように設計されている。
エンコーダの様々な段階でプール注意モジュール(PAM)を導入する。
このモジュールは、ネットワークによって抽出された機能を増幅し、モジュールの出力をデコーダに統合する。
論文 参考訳(メタデータ) (2023-11-19T12:25:59Z) - DCANet: Differential Convolution Attention Network for RGB-D Semantic
Segmentation [2.2032272277334375]
深度データに対する幾何情報と局所範囲相関を考慮した画素差分畳み込みアテンション(DCA)モジュールを提案する。
DCAを拡張して、長距離コンテキスト依存を伝播する差分畳み込み注意(EDCA)をアンサンブルする。
DCAとEDCAで構築された2分岐ネットワークである差分畳み込みネットワーク(DCANet)は、2モーダルデータのローカルおよびグローバルな情報を融合するために提案されている。
論文 参考訳(メタデータ) (2022-10-13T05:17:34Z) - Learning an Efficient Multimodal Depth Completion Model [11.740546882538142]
RGB画像ガイドによるスパース深度補完は近年広く注目されているが、まだいくつかの問題に直面している。
提案手法は軽量なアーキテクチャで最先端の手法より優れている。
また、MIPI2022 RGB+TOFディープ・コンプリート・チャレンジでも優勝している。
論文 参考訳(メタデータ) (2022-08-23T07:03:14Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - DooDLeNet: Double DeepLab Enhanced Feature Fusion for Thermal-color
Semantic Segmentation [1.6758573326215689]
本研究では,DouDLeNetを提案する。DouDLeNetはDouDLeNetアーキテクチャである。
特徴融合のための2つの戦略、信頼重み付けと相関重み付けを組み合わせる。
MFデータセット上で,最先端の平均IoU値について報告する。
論文 参考訳(メタデータ) (2022-04-21T17:06:57Z) - Cross-modality Discrepant Interaction Network for RGB-D Salient Object
Detection [78.47767202232298]
本稿では,RGB-D SODのためのクロスモダリティ離散相互作用ネットワーク(CDINet)を提案する。
2つのコンポーネントは、効果的な相互モダリティ相互作用を実装するように設計されている。
我々のネットワークは、定量的にも質的にも15ドルの最先端の手法より優れています。
論文 参考訳(メタデータ) (2021-08-04T11:24:42Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z) - Data-Level Recombination and Lightweight Fusion Scheme for RGB-D Salient
Object Detection [73.31632581915201]
深部特徴抽出に先立って,RGBとD(深部)を融合する新たなデータレベル組換え手法を提案する。
新たに設計された3重ストリームネットワークをこれらの新しい定式化データ上に適用し,RGBとDのチャネルワイドな相補的融合状態を実現する。
論文 参考訳(メタデータ) (2020-08-07T10:13:05Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z) - Cross-Modal Weighting Network for RGB-D Salient Object Detection [76.0965123893641]
我々は,RGB-D SODの深度チャネルとRGB-D SODの包括的相互作用を促進するために,新しいクロスモーダルウェイトリング(CMW)戦略を提案する。
具体的には、CMW-L、CMW-M、CMW-Hという3つのRGB-depth相互作用モジュールが、それぞれ低レベル、中級、高レベルのクロスモーダル情報融合を扱うように開発されている。
CMWNetは、7つの人気のあるベンチマークで15の最先端のRGB-D SODメソッドを上回っている。
論文 参考訳(メタデータ) (2020-07-09T16:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。