論文の概要: SSNet: Saliency Prior and State Space Model-based Network for Salient Object Detection in RGB-D Images
- arxiv url: http://arxiv.org/abs/2503.02270v1
- Date: Tue, 04 Mar 2025 04:38:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:17:59.388382
- Title: SSNet: Saliency Prior and State Space Model-based Network for Salient Object Detection in RGB-D Images
- Title(参考訳): SSNet:RGB-D画像における有向物体検出のための有向空間モデルと有向空間モデルに基づくネットワーク
- Authors: Gargi Panda, Soumitra Kundu, Saumik Bhattacharya, Aurobinda Routray,
- Abstract要約: RGB-D SODタスクのためのSSM(Salliency-prior and State Space Model)ベースのネットワークであるSSNetを提案する。
既存の畳み込みやトランスフォーマーベースのアプローチとは異なり、SSNetはSSMベースのマルチモードマルチスケールデコーダモジュールを導入している。
また,3つのサリエンシ事前を深い特徴と統合して特徴表現を洗練させるサリエンシ拡張モジュール (SEM) も導入した。
- 参考スコア(独自算出の注目度): 9.671347245207121
- License:
- Abstract: Salient object detection (SOD) in RGB-D images is an essential task in computer vision, enabling applications in scene understanding, robotics, and augmented reality. However, existing methods struggle to capture global dependency across modalities, lack comprehensive saliency priors from both RGB and depth data, and are ineffective in handling low-quality depth maps. To address these challenges, we propose SSNet, a saliency-prior and state space model (SSM)-based network for the RGB-D SOD task. Unlike existing convolution- or transformer-based approaches, SSNet introduces an SSM-based multi-modal multi-scale decoder module to efficiently capture both intra- and inter-modal global dependency with linear complexity. Specifically, we propose a cross-modal selective scan SSM (CM-S6) mechanism, which effectively captures global dependency between different modalities. Furthermore, we introduce a saliency enhancement module (SEM) that integrates three saliency priors with deep features to refine feature representation and improve the localization of salient objects. To further address the issue of low-quality depth maps, we propose an adaptive contrast enhancement technique that dynamically refines depth maps, making them more suitable for the RGB-D SOD task. Extensive quantitative and qualitative experiments on seven benchmark datasets demonstrate that SSNet outperforms state-of-the-art methods.
- Abstract(参考訳): RGB-D画像における局所物体検出(SOD)は、シーン理解、ロボット工学、拡張現実における応用を可能にするコンピュータビジョンにおいて必須の課題である。
しかし、既存の手法は、モダリティ全体にわたるグローバルな依存を捉えるのに苦労し、RGBと深度データの両方からの包括的サリエンシ事前を欠いているため、低品質の深度マップを扱うのに効果がない。
これらの課題に対処するために、RGB-D SODタスクのためのSSMベースのネットワークであるSSNetを提案する。
既存の畳み込みやトランスフォーマーベースのアプローチとは異なり、SSNetはSSMベースのマルチモーダルマルチスケールデコーダモジュールを導入し、線形複雑度でモーダル内およびモーダル間のグローバル依存関係を効率的にキャプチャする。
具体的には、異なるモード間のグローバルな依存関係を効果的にキャプチャするクロスモーダル選択的スキャンSSM(CM-S6)機構を提案する。
さらに,3つのサリエンシ事前を深い特徴と統合したサリエンシ拡張モジュール(SEM)を導入し,特徴表現を洗練し,サリエンシオブジェクトの局所化を改善する。
低品質深度マップの課題にさらに対処するため,RGB-D SODタスクに適合し,動的に深度マップを改良する適応コントラスト拡張手法を提案する。
7つのベンチマークデータセットに対する大規模な定量的および定性的な実験は、SSNetが最先端の手法より優れていることを示している。
関連論文リスト
- Dual Mutual Learning Network with Global-local Awareness for RGB-D Salient Object Detection [10.353412441955436]
本研究では,グローバルな相互学習ネットワークであるGL-DMNetを提案する。
異なるモード間の相互依存性を利用するために,位置相互融合モジュールとチャネル相互融合モジュールを提案する。
提案するGL-DMNetは, 24 RGB-D SOD法よりも優れた性能を示し, 平均3%の改善を実現している。
論文 参考訳(メタデータ) (2025-01-03T05:37:54Z) - CSDNet: Detect Salient Object in Depth-Thermal via A Lightweight Cross Shallow and Deep Perception Network [16.925545576557514]
CSDNetはコヒーレンスを少なくして2つのモダリティを統合するように設計されている。
CSDNet for Salient Object Detection (SOD) タスクをロボット認識に適用する。
我々のアプローチはVDT-2048データセットで検証される。
論文 参考訳(メタデータ) (2024-03-15T08:49:33Z) - Point-aware Interaction and CNN-induced Refinement Network for RGB-D Salient Object Detection [95.84616822805664]
我々は,CNNによるトランスフォーマーアーキテクチャを導入し,ポイント・アウェア・インタラクションとCNNによるリファインメントを備えた新しいRGB-D SODネットワークを提案する。
トランスフォーマーがもたらすブロック効果とディテール破壊問題を自然に軽減するために,コンテンツリファインメントとサプリメントのためのCNNRユニットを設計する。
論文 参考訳(メタデータ) (2023-08-17T11:57:49Z) - Multi-Content Complementation Network for Salient Object Detection in
Optical Remote Sensing Images [108.79667788962425]
光リモートセンシング画像(RSI-SOD)における有能な物体検出は、いまだに課題である。
本稿では, RSI-SOD における複数コンテンツの相補性を検討するために, MCCNet (Multi-Content Complementation Network) を提案する。
MCCMでは、前景機能、エッジ機能、背景機能、グローバル画像レベル機能など、RSI-SODにとって重要な複数の機能について検討する。
論文 参考訳(メタデータ) (2021-12-02T04:46:40Z) - Cross-modality Discrepant Interaction Network for RGB-D Salient Object
Detection [78.47767202232298]
本稿では,RGB-D SODのためのクロスモダリティ離散相互作用ネットワーク(CDINet)を提案する。
2つのコンポーネントは、効果的な相互モダリティ相互作用を実装するように設計されている。
我々のネットワークは、定量的にも質的にも15ドルの最先端の手法より優れています。
論文 参考訳(メタデータ) (2021-08-04T11:24:42Z) - Deep RGB-D Saliency Detection with Depth-Sensitive Attention and
Automatic Multi-Modal Fusion [15.033234579900657]
RGB-Dサラエントオブジェクト検出(SOD)は通常、2つのモダリティ、すなわちRGBと深さの分類または回帰の問題として定式化される。
本稿では,salient objectsの奥行き方向幾何学的前置を用いた深さ感応型rgb特徴モデリング手法を提案する。
7つの標準ベンチマークに関する実験は、最先端技術に対する提案手法の有効性を示している。
論文 参考訳(メタデータ) (2021-03-22T13:28:45Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z) - RGB-D Salient Object Detection with Cross-Modality Modulation and
Selection [126.4462739820643]
本稿では, RGB-D Salient Object Detection (SOD) において, モジュール間相補性を段階的に統合し, 改良する有効な方法を提案する。
提案するネットワークは,1)RGB画像とそれに対応する深度マップからの補完情報を効果的に統合する方法,および2)より精度の高い特徴を適応的に選択する方法の2つの課題を主に解決する。
論文 参考訳(メタデータ) (2020-07-14T14:22:50Z) - Hierarchical Dynamic Filtering Network for RGB-D Salient Object
Detection [91.43066633305662]
RGB-D Salient Object Detection (SOD) の主な目的は、相互融合情報をよりよく統合し活用する方法である。
本稿では,これらの問題を新たな視点から考察する。
我々は、より柔軟で効率的なマルチスケールのクロスモーダルな特徴処理を実装している。
論文 参考訳(メタデータ) (2020-07-13T07:59:55Z) - Multi-level Cross-modal Interaction Network for RGB-D Salient Object
Detection [3.581367375462018]
我々は,RGB-D を用いたサルエントオブジェクト検出(SOD)のためのMCINet(Multi-level Cross-modal Interaction Network)を提案する。
MCI-Netには2つの重要なコンポーネントがある: 1)RGB画像と深度キューの高レベルな特徴を学習するために使用されるクロスモーダルな特徴学習ネットワーク、2)SOD性能を高めるためにマルチレベルなクロスモーダル機能を統合するマルチレベルな対話型統合ネットワーク。
論文 参考訳(メタデータ) (2020-07-10T02:21:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。