論文の概要: Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2007.09183v1
- Date: Fri, 17 Jul 2020 18:35:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 14:24:24.187253
- Title: Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation
- Title(参考訳): rgb-dセマンティクスセグメンテーションのための分離・集約ゲートを用いた双方向クロスモダリティ特徴伝搬
- Authors: Xiaokang Chen, Kwan-Yee Lin, Jingbo Wang, Wayne Wu, Chen Qian,
Hongsheng Li, Gang Zeng
- Abstract要約: 深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
- 参考スコア(独自算出の注目度): 59.94819184452694
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Depth information has proven to be a useful cue in the semantic segmentation
of RGB-D images for providing a geometric counterpart to the RGB
representation. Most existing works simply assume that depth measurements are
accurate and well-aligned with the RGB pixels and models the problem as a
cross-modal feature fusion to obtain better feature representations to achieve
more accurate segmentation. This, however, may not lead to satisfactory results
as actual depth data are generally noisy, which might worsen the accuracy as
the networks go deeper.
In this paper, we propose a unified and efficient Cross-modality Guided
Encoder to not only effectively recalibrate RGB feature responses, but also to
distill accurate depth information via multiple stages and aggregate the two
recalibrated representations alternatively. The key of the proposed
architecture is a novel Separation-and-Aggregation Gating operation that
jointly filters and recalibrates both representations before cross-modality
aggregation. Meanwhile, a Bi-direction Multi-step Propagation strategy is
introduced, on the one hand, to help to propagate and fuse information between
the two modalities, and on the other hand, to preserve their specificity along
the long-term propagation process. Besides, our proposed encoder can be easily
injected into the previous encoder-decoder structures to boost their
performance on RGB-D semantic segmentation. Our model outperforms
state-of-the-arts consistently on both in-door and out-door challenging
datasets. Code of this work is available at https://charlescxk.github.io/
- Abstract(参考訳): 深度情報はRGB-D画像のセマンティックセグメンテーションに有用であることが証明されている。
既存の作品の多くは、深さ測定が正確でrgbピクセルとよく一致していると仮定し、問題をクロスモーダル特徴融合としてモデル化し、より正確なセグメンテーションを達成するための優れた特徴表現を得る。
しかし、実際の深度データは一般にノイズが多く、ネットワークが深くなるにつれて精度が悪化するので、この結果が満足のいく結果に繋がることはないかもしれない。
本稿では,RGB特徴量応答を効果的に再検討すると同時に,複数の段階を通して正確な深度情報を抽出し,代わりに2つの再分類表現を集約する,統一的で効率的なクロスモダリティガイド型エンコーダを提案する。
提案されたアーキテクチャの鍵は、クロスモダリティアグリゲーションの前に両方の表現をフィルターし再調整する新しい分離・集約ゲーティング操作である。
一方,双方向多段伝播戦略を導入することで,2つのモダリティ間の情報を伝播・融合させ,その一方で,長期伝播過程における特異性を維持することができる。
また,提案するエンコーダは,従来のエンコーダ・デコーダ構造に容易に注入でき,rgb-dセマンティクスセグメンテーションの性能を高めることができる。
我々のモデルは、屋内と屋外の両方の挑戦的なデータセットで、常に最先端のデータをパフォーマンスします。
この作業のコードはhttps://charlescxk.github.io/で入手できる。
関連論文リスト
- HODINet: High-Order Discrepant Interaction Network for RGB-D Salient
Object Detection [4.007827908611563]
RGB-D Salient Object Detection (SOD) は、RGBと深度情報を共同でモデル化することで、顕著な領域を検出することを目的としている。
ほとんどのRGB-D SOD法は、同じ種類のバックボーンと融合モジュールを適用して、マルチモーダリティとマルチステージの特徴を同一に学習する。
本稿では,RGB-D SODのための高次離散相互作用ネットワーク(HODINet)を提案する。
論文 参考訳(メタデータ) (2023-07-03T11:56:21Z) - DCANet: Differential Convolution Attention Network for RGB-D Semantic
Segmentation [2.2032272277334375]
深度データに対する幾何情報と局所範囲相関を考慮した画素差分畳み込みアテンション(DCA)モジュールを提案する。
DCAを拡張して、長距離コンテキスト依存を伝播する差分畳み込み注意(EDCA)をアンサンブルする。
DCAとEDCAで構築された2分岐ネットワークである差分畳み込みネットワーク(DCANet)は、2モーダルデータのローカルおよびグローバルな情報を融合するために提案されている。
論文 参考訳(メタデータ) (2022-10-13T05:17:34Z) - CIR-Net: Cross-modality Interaction and Refinement for RGB-D Salient
Object Detection [144.66411561224507]
本稿では,CIR-Netと呼ばれる畳み込みニューラルネットワーク(CNN)モデルを提案する。
我々のネットワークは、定性的かつ定量的に最先端の塩分濃度検出器より優れています。
論文 参考訳(メタデータ) (2022-10-06T11:59:19Z) - TANet: Transformer-based Asymmetric Network for RGB-D Salient Object
Detection [13.126051625000605]
RGB-D SOD法は主に対称な2ストリームCNNネットワークに依存し、RGBと深さチャネルの特徴を別々に抽出する。
本稿では,トランスフォーマーを用いた非対称ネットワーク(TANet)を提案する。
提案手法は、6つの公開データセット上での14の最先端RGB-D手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-07-04T03:06:59Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Cross-modality Discrepant Interaction Network for RGB-D Salient Object
Detection [78.47767202232298]
本稿では,RGB-D SODのためのクロスモダリティ離散相互作用ネットワーク(CDINet)を提案する。
2つのコンポーネントは、効果的な相互モダリティ相互作用を実装するように設計されている。
我々のネットワークは、定量的にも質的にも15ドルの最先端の手法より優れています。
論文 参考訳(メタデータ) (2021-08-04T11:24:42Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z) - Data-Level Recombination and Lightweight Fusion Scheme for RGB-D Salient
Object Detection [73.31632581915201]
深部特徴抽出に先立って,RGBとD(深部)を融合する新たなデータレベル組換え手法を提案する。
新たに設計された3重ストリームネットワークをこれらの新しい定式化データ上に適用し,RGBとDのチャネルワイドな相補的融合状態を実現する。
論文 参考訳(メタデータ) (2020-08-07T10:13:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。