論文の概要: Optimizing rgb-d semantic segmentation through multi-modal interaction
and pooling attention
- arxiv url: http://arxiv.org/abs/2311.11312v1
- Date: Sun, 19 Nov 2023 12:25:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-21 20:54:44.905251
- Title: Optimizing rgb-d semantic segmentation through multi-modal interaction
and pooling attention
- Title(参考訳): マルチモーダル相互作用とプール注意によるrgb-d意味セグメンテーションの最適化
- Authors: Shuai Zhang, Minghong Xie
- Abstract要約: マルチモーダルインタラクションとプールアテンションネットワーク(MIPANet)は,RGBと奥行きモダリティの相互相乗効果を利用するように設計されている。
エンコーダの様々な段階でプール注意モジュール(PAM)を導入する。
このモジュールは、ネットワークによって抽出された機能を増幅し、モジュールの出力をデコーダに統合する。
- 参考スコア(独自算出の注目度): 5.518612382697244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic segmentation of RGB-D images involves understanding the appearance
and spatial relationships of objects within a scene, which requires careful
consideration of various factors. However, in indoor environments, the simple
input of RGB and depth images often results in a relatively limited acquisition
of semantic and spatial information, leading to suboptimal segmentation
outcomes. To address this, we propose the Multi-modal Interaction and Pooling
Attention Network (MIPANet), a novel approach designed to harness the
interactive synergy between RGB and depth modalities, optimizing the
utilization of complementary information. Specifically, we incorporate a
Multi-modal Interaction Fusion Module (MIM) into the deepest layers of the
network. This module is engineered to facilitate the fusion of RGB and depth
information, allowing for mutual enhancement and correction. Additionally, we
introduce a Pooling Attention Module (PAM) at various stages of the encoder.
This module serves to amplify the features extracted by the network and
integrates the module's output into the decoder in a targeted manner,
significantly improving semantic segmentation performance. Our experimental
results demonstrate that MIPANet outperforms existing methods on two indoor
scene datasets, NYUDv2 and SUN-RGBD, underscoring its effectiveness in
enhancing RGB-D semantic segmentation.
- Abstract(参考訳): RGB-D画像のセマンティックセグメンテーションは、シーン内の物体の外観や空間的関係を理解し、様々な要因を慎重に検討する必要がある。
しかし、屋内環境では、RGBと深度画像の単純な入力は、しばしば意味情報と空間情報の比較的限られた取得をもたらし、最適下分割の結果をもたらす。
そこで本研究では,rgbと奥行きモダリティの対話的な相乗効果を活かし,補完的情報の利用を最適化する新しい手法であるmipanetを提案する。
具体的には,Multi-modal Interaction Fusion Module (MIM) をネットワークの最も深い層に組み込む。
このモジュールはRGBと深度情報の融合を容易にするために設計されており、相互強化と修正が可能である。
さらに,エンコーダの様々な段階において,Pooling Attention Module (PAM)を導入する。
このモジュールは、ネットワークによって抽出された機能を増幅し、モジュールの出力をターゲットとしてデコーダに統合し、セマンティックセグメンテーションのパフォーマンスを大幅に改善する。
実験の結果、MIPANetは2つの屋内シーンデータセットであるNYUDv2とSUN-RGBDの既存手法よりも優れており、RGB-Dセマンティックセマンティックセマンティックセマンティクスの強化の有効性が示されている。
関連論文リスト
- Context-Aware Interaction Network for RGB-T Semantic Segmentation [12.91377211747192]
RGB-Tセマンティックセグメンテーションは自律走行シーン理解の鍵となる手法である。
補助的なタスクとグローバルなコンテキストを活用するためのコンテキスト認識インタラクションネットワーク(CAINet)を提案する。
提案したCAINetは、ベンチマークデータセット上で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-01-03T08:49:29Z) - CIR-Net: Cross-modality Interaction and Refinement for RGB-D Salient
Object Detection [144.66411561224507]
本稿では,CIR-Netと呼ばれる畳み込みニューラルネットワーク(CNN)モデルを提案する。
我々のネットワークは、定性的かつ定量的に最先端の塩分濃度検出器より優れています。
論文 参考訳(メタデータ) (2022-10-06T11:59:19Z) - Position-Aware Relation Learning for RGB-Thermal Salient Object
Detection [3.115635707192086]
我々は,Swin Transformerに基づくRGB-T SODのための位置認識型関係学習ネットワーク(PRLNet)を提案する。
PRLNetは、クラス内コンパクト性とクラス間分離を強化するために、ピクセル間の距離と方向の関係を探索する。
さらに、RGB-T SODのマルチスペクトル特徴表現を強化するために、純粋なトランスフォーマーエンコーダデコーダネットワークを構成する。
論文 参考訳(メタデータ) (2022-09-21T07:34:30Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Cross-modality Discrepant Interaction Network for RGB-D Salient Object
Detection [78.47767202232298]
本稿では,RGB-D SODのためのクロスモダリティ離散相互作用ネットワーク(CDINet)を提案する。
2つのコンポーネントは、効果的な相互モダリティ相互作用を実装するように設計されている。
我々のネットワークは、定量的にも質的にも15ドルの最先端の手法より優れています。
論文 参考訳(メタデータ) (2021-08-04T11:24:42Z) - Global-Local Propagation Network for RGB-D Semantic Segmentation [12.710923449138434]
この問題を解決するため,グローバルローカル伝搬ネットワーク(GLPNet)を提案する。
GLPNetは、2つの挑戦的な屋内シーンセグメンテーションデータセットで最新のパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-01-26T14:26:07Z) - Siamese Network for RGB-D Salient Object Detection and Beyond [113.30063105890041]
共有ネットワークバックボーンを通じてRGBと深度入力の両方から学習するための新しいフレームワークが提案されている。
5つの一般的な指標を用いた総合的な実験は、設計されたフレームワークが堅牢なRGB-D塩分濃度検出器をもたらすことを示している。
また、JL-DCFをRGB-Dセマンティックセマンティックセマンティクスフィールドにリンクし、いくつかのセマンティクスセマンティクスモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-08-26T06:01:05Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z) - RGB-D Salient Object Detection with Cross-Modality Modulation and
Selection [126.4462739820643]
本稿では, RGB-D Salient Object Detection (SOD) において, モジュール間相補性を段階的に統合し, 改良する有効な方法を提案する。
提案するネットワークは,1)RGB画像とそれに対応する深度マップからの補完情報を効果的に統合する方法,および2)より精度の高い特徴を適応的に選択する方法の2つの課題を主に解決する。
論文 参考訳(メタデータ) (2020-07-14T14:22:50Z) - Multi-level Cross-modal Interaction Network for RGB-D Salient Object
Detection [3.581367375462018]
我々は,RGB-D を用いたサルエントオブジェクト検出(SOD)のためのMCINet(Multi-level Cross-modal Interaction Network)を提案する。
MCI-Netには2つの重要なコンポーネントがある: 1)RGB画像と深度キューの高レベルな特徴を学習するために使用されるクロスモーダルな特徴学習ネットワーク、2)SOD性能を高めるためにマルチレベルなクロスモーダル機能を統合するマルチレベルな対話型統合ネットワーク。
論文 参考訳(メタデータ) (2020-07-10T02:21:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。