論文の概要: Attention-based Dual Supervised Decoder for RGBD Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2201.01427v1
- Date: Wed, 5 Jan 2022 03:12:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-06 14:38:25.516453
- Title: Attention-based Dual Supervised Decoder for RGBD Semantic Segmentation
- Title(参考訳): RGBDセマンティックセグメンテーションのためのアテンションベースデュアルスーパービジョンデコーダ
- Authors: Yang Zhang, Yang Yang, Chenyun Xiong, Guodong Sun, Yanwen Guo
- Abstract要約: RGBDセマンティックセグメンテーションのための新しいアテンションベースデュアル教師付きデコーダを提案する。
エンコーダでは、マルチレベルペア補完情報を抽出し、融合するための、シンプルで効果的な注意に基づくマルチモーダル融合モジュールを設計する。
本手法は最先端の手法に対して優れた性能を発揮する。
- 参考スコア(独自算出の注目度): 16.721758280029302
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Encoder-decoder models have been widely used in RGBD semantic segmentation,
and most of them are designed via a two-stream network. In general, jointly
reasoning the color and geometric information from RGBD is beneficial for
semantic segmentation. However, most existing approaches fail to
comprehensively utilize multimodal information in both the encoder and decoder.
In this paper, we propose a novel attention-based dual supervised decoder for
RGBD semantic segmentation. In the encoder, we design a simple yet effective
attention-based multimodal fusion module to extract and fuse deeply multi-level
paired complementary information. To learn more robust deep representations and
rich multi-modal information, we introduce a dual-branch decoder to effectively
leverage the correlations and complementary cues of different tasks. Extensive
experiments on NYUDv2 and SUN-RGBD datasets demonstrate that our method
achieves superior performance against the state-of-the-art methods.
- Abstract(参考訳): エンコーダ-デコーダモデルはrgbdセマンティクスセグメンテーションで広く使われており、そのほとんどは2ストリームネットワークで設計されている。
一般に、rgbdから色と幾何学的情報を共同推論することは意味セグメンテーションに有用である。
しかし、既存のほとんどのアプローチは、エンコーダとデコーダの両方で総合的にマルチモーダル情報を利用できない。
本稿では,rgbd意味セグメンテーションのための注意に基づく2重教師付きデコーダを提案する。
エンコーダでは,マルチレベル対の補完情報を深く抽出・融合するための,単純かつ効果的な注意に基づくマルチモーダル融合モジュールを設計した。
より堅牢な深層表現とリッチなマルチモーダル情報を得るために、異なるタスクの相関と補完的手がかりを効果的に活用するデュアルブランチデコーダを導入する。
NYUDv2とSUN-RGBDデータセットの大規模な実験により,本手法が最先端の手法に対して優れた性能を発揮することが示された。
関連論文リスト
- SEDS: Semantically Enhanced Dual-Stream Encoder for Sign Language Retrieval [82.51117533271517]
以前はRGBビデオをエンコードするだけで高レベルのセマンティックな特徴が得られていた。
既存のRGBベースの手話検索作業は、エンドツーエンドのトレーニングに埋め込まれた濃密な視覚データによる膨大なメモリコストに悩まされる。
本稿では,Semantically Enhanced Dual-Streamという手話表現フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-23T11:31:11Z) - Optimizing rgb-d semantic segmentation through multi-modal interaction
and pooling attention [5.518612382697244]
マルチモーダルインタラクションとプールアテンションネットワーク(MIPANet)は,RGBと奥行きモダリティの相互相乗効果を利用するように設計されている。
エンコーダの様々な段階でプール注意モジュール(PAM)を導入する。
このモジュールは、ネットワークによって抽出された機能を増幅し、モジュールの出力をデコーダに統合する。
論文 参考訳(メタデータ) (2023-11-19T12:25:59Z) - Triple-View Knowledge Distillation for Semi-Supervised Semantic
Segmentation [54.23510028456082]
半教師付きセマンティックセグメンテーションのためのトリプルビュー知識蒸留フレームワークTriKDを提案する。
このフレームワークは、トリプルビューエンコーダとデュアル周波数デコーダを含む。
論文 参考訳(メタデータ) (2023-09-22T01:02:21Z) - HiDAnet: RGB-D Salient Object Detection via Hierarchical Depth Awareness [2.341385717236931]
本稿では,RGB-Dサリエンシ検出のための階層的深度認識ネットワーク(HiDAnet)を提案する。
我々のモチベーションは、幾何学的先行の多粒性特性がニューラルネットワーク階層とよく相関しているという観察から来ています。
当社のHiDAnetは最先端の手法よりも大きなマージンで良好に動作します。
論文 参考訳(メタデータ) (2023-01-18T10:00:59Z) - CIR-Net: Cross-modality Interaction and Refinement for RGB-D Salient
Object Detection [144.66411561224507]
本稿では,CIR-Netと呼ばれる畳み込みニューラルネットワーク(CNN)モデルを提案する。
我々のネットワークは、定性的かつ定量的に最先端の塩分濃度検出器より優れています。
論文 参考訳(メタデータ) (2022-10-06T11:59:19Z) - Robust Double-Encoder Network for RGB-D Panoptic Segmentation [31.807572107839576]
パノプティックセグメンテーションは、ピクセルワイズセマンティックラベルをインスタンスIDと共に計算することでシーンの解釈を提供する。
本稿では、2つのエンコーダを通してRGBと深さを別々に処理する新しいエンコーダデコーダニューラルネットワークを提案する。
提案手法は,他の汎視的セグメンテーション手法と比較して,優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2022-10-06T11:46:37Z) - Specificity-preserving RGB-D Saliency Detection [103.3722116992476]
本稿では,RGB-Dサリエンシ検出のための特異性保存ネットワーク(SP-Net)を提案する。
2つのモダリティ特化ネットワークと共有学習ネットワークを採用し、個別および共有唾液マップを生成する。
6つのベンチマークデータセットの実験では、SP-Netは他の最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2021-08-18T14:14:22Z) - Cross-modality Discrepant Interaction Network for RGB-D Salient Object
Detection [78.47767202232298]
本稿では,RGB-D SODのためのクロスモダリティ離散相互作用ネットワーク(CDINet)を提案する。
2つのコンポーネントは、効果的な相互モダリティ相互作用を実装するように設計されている。
我々のネットワークは、定量的にも質的にも15ドルの最先端の手法より優れています。
論文 参考訳(メタデータ) (2021-08-04T11:24:42Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。