論文の概要: Unleashing the Power of Motion and Depth: A Selective Fusion Strategy for RGB-D Video Salient Object Detection
- arxiv url: http://arxiv.org/abs/2507.21857v1
- Date: Tue, 29 Jul 2025 14:30:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:56.467144
- Title: Unleashing the Power of Motion and Depth: A Selective Fusion Strategy for RGB-D Video Salient Object Detection
- Title(参考訳): 動きと深さのパワーを解き放つ:RGB-Dビデオサルエント物体検出のための選択的融合戦略
- Authors: Jiahao He, Daerji Suolang, Keren Fu, Qijun Zhao,
- Abstract要約: RGB-Dビデオに健全なオブジェクト検出を適用することは、RGB-D VSODと呼ばれる新しいタスクである。
RGB-D VSOD のための新しい選択型クロスモーダル融合フレームワーク (SMFNet) を提案する。
我々は、RDVSとDVisalの両方のデータセット上で、19の最先端モデルに対してSMFNetを包括的に評価する。
- 参考スコア(独自算出の注目度): 12.520786332543292
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Applying salient object detection (SOD) to RGB-D videos is an emerging task called RGB-D VSOD and has recently gained increasing interest, due to considerable performance gains of incorporating motion and depth and that RGB-D videos can be easily captured now in daily life. Existing RGB-D VSOD models have different attempts to derive motion cues, in which extracting motion information explicitly from optical flow appears to be a more effective and promising alternative. Despite this, there remains a key issue that how to effectively utilize optical flow and depth to assist the RGB modality in SOD. Previous methods always treat optical flow and depth equally with respect to model designs, without explicitly considering their unequal contributions in individual scenarios, limiting the potential of motion and depth. To address this issue and unleash the power of motion and depth, we propose a novel selective cross-modal fusion framework (SMFNet) for RGB-D VSOD, incorporating a pixel-level selective fusion strategy (PSF) that achieves optimal fusion of optical flow and depth based on their actual contributions. Besides, we propose a multi-dimensional selective attention module (MSAM) to integrate the fused features derived from PSF with the remaining RGB modality at multiple dimensions, effectively enhancing feature representation to generate refined features. We conduct comprehensive evaluation of SMFNet against 19 state-of-the-art models on both RDVS and DVisal datasets, making the evaluation the most comprehensive RGB-D VSOD benchmark up to date, and it also demonstrates the superiority of SMFNet over other models. Meanwhile, evaluation on five video benchmark datasets incorporating synthetic depth validates the efficacy of SMFNet as well. Our code and benchmark results are made publicly available at https://github.com/Jia-hao999/SMFNet.
- Abstract(参考訳): RGB-DビデオにSODを適用させることは、RGB-D VSODと呼ばれる新たなタスクであり、動きと深さを取り入れたパフォーマンス向上や、RGB-Dビデオが日々の生活で簡単に撮影できるため、近年関心が高まりつつある。
既存のRGB-D VSODモデルは、光学フローから運動情報を明示的に抽出する方が、より効果的で有望な代替手段である。
それにもかかわらず、光学フローと深度を効果的に活用してSODのRGBモダリティを補助する方法には重要な問題がある。
従来の手法は常に、個々のシナリオにおける不平等な貢献を明示的に考慮することなく、モデル設計に関して光学的フローと深さを等しく扱い、動きと深さの可能性を制限していた。
そこで本研究では,RGB-D VSOD のための新たな選択型クロスモーダル融合フレームワーク (SMFNet) を提案し,その実際の貢献に基づいて,光フローと深度を最適に融合する画素レベル選択的融合戦略 (PSF) を取り入れた。
さらに,PSFから派生した融合特徴と残りのRGBモダリティを多次元で統合する多次元選択的アテンションモジュール(MSAM)を提案し,特徴表現を効果的に強化し,洗練された特徴を生成する。
我々は、RDVSおよびDVisalデータセットの19の最先端モデルに対してSMFNetの総合的な評価を行い、これまでで最も包括的なRGB-D VSODベンチマークを行い、他のモデルよりもSMFNetの方が優れていることを示す。
一方、合成深度を取り入れた5つのビデオベンチマークデータセットの評価は、SMFNetの有効性も検証する。
コードとベンチマークの結果はhttps://github.com/Jia-hao999/SMFNetで公開されています。
関連論文リスト
- Salient Object Detection in RGB-D Videos [11.805682025734551]
本稿では,データセットとモデルという2つの主要なコントリビューションについて述べる。
現実的な深度を持つ新しいRGB-D VSODデータセットであるRDVSデータセットを構築した。
RGB-D VSODに適した3ストリームネットワークであるDCTNet+を紹介する。
論文 参考訳(メタデータ) (2023-10-24T03:18:07Z) - RBF Weighted Hyper-Involution for RGB-D Object Detection [0.0]
リアルタイムと2つのストリームRGBDオブジェクト検出モデルを提案する。
提案モデルでは, 深度誘導型ハイパーインボリューションを生深度マップの空間的相互作用パターンに基づいて動的に適応する深度誘導型ハイパーインボリューションと, アップサンプリングに基づくトレーニング可能な融合層からなる。
提案モデルは,NYU Depth v2データセットで他のRGB-Dベースオブジェクト検出モデルよりも優れており,SUN RGB-Dで比較した(第2位)結果が得られることを示す。
論文 参考訳(メタデータ) (2023-09-30T11:25:34Z) - Attentive Multimodal Fusion for Optical and Scene Flow [24.08052492109655]
既存の方法は通常、RGB画像のみに依存するか、後段のモダリティを融合させる。
本稿では,センサモード間の早期情報融合を可能にするFusionRAFTという新しいディープニューラルネットワーク手法を提案する。
提案手法は,RGB画像に影響を及ぼすノイズや低照度条件の存在下での堅牢性の向上を示す。
論文 参考訳(メタデータ) (2023-07-28T04:36:07Z) - Joint Learning of Salient Object Detection, Depth Estimation and Contour
Extraction [91.43066633305662]
RGB-D Salient Object Detection (SOD) のための新しいマルチタスク・マルチモーダルフィルタトランス (MMFT) ネットワークを提案する。
具体的には、深度推定、健全な物体検出、輪郭推定の3つの相補的なタスクを統合する。マルチタスク機構は、タスク認識の特徴を補助タスクから学習するためのモデルを促進する。
実験の結果、複数のデータセット上での深度に基づくRGB-D SOD法をはるかに上回るだけでなく、高品質の深度マップと塩分濃度を同時に正確に予測できることがわかった。
論文 参考訳(メタデータ) (2022-03-09T17:20:18Z) - Cross-modality Discrepant Interaction Network for RGB-D Salient Object
Detection [78.47767202232298]
本稿では,RGB-D SODのためのクロスモダリティ離散相互作用ネットワーク(CDINet)を提案する。
2つのコンポーネントは、効果的な相互モダリティ相互作用を実装するように設計されている。
我々のネットワークは、定量的にも質的にも15ドルの最先端の手法より優れています。
論文 参考訳(メタデータ) (2021-08-04T11:24:42Z) - Middle-level Fusion for Lightweight RGB-D Salient Object Detection [81.43951906434175]
本稿では,新しい軽量RGB-D SODモデルについて述べる。
中層核融合構造に IMFF および L モジュールが組み込まれているため,提案モデルは3.9M のパラメータしか持たず,33 FPS で動作する。
いくつかのベンチマークデータセットによる実験結果から,提案手法の有効性と優位性を検証した。
論文 参考訳(メタデータ) (2021-04-23T11:37:15Z) - Deep RGB-D Saliency Detection with Depth-Sensitive Attention and
Automatic Multi-Modal Fusion [15.033234579900657]
RGB-Dサラエントオブジェクト検出(SOD)は通常、2つのモダリティ、すなわちRGBと深さの分類または回帰の問題として定式化される。
本稿では,salient objectsの奥行き方向幾何学的前置を用いた深さ感応型rgb特徴モデリング手法を提案する。
7つの標準ベンチマークに関する実験は、最先端技術に対する提案手法の有効性を示している。
論文 参考訳(メタデータ) (2021-03-22T13:28:45Z) - Learning Selective Mutual Attention and Contrast for RGB-D Saliency
Detection [145.4919781325014]
クロスモーダル情報を効果的に融合する方法は、RGB-Dの有能な物体検出の鍵となる問題である。
多くのモデルは特徴融合戦略を用いるが、低次点対点融合法によって制限されている。
本研究では,異なるモダリティから注目とコンテキストを融合させることにより,新たな相互注意モデルを提案する。
論文 参考訳(メタデータ) (2020-10-12T08:50:10Z) - A Single Stream Network for Robust and Real-time RGB-D Salient Object
Detection [89.88222217065858]
我々は、深度マップを用いて、RGBと深度の間の早期融合と中核融合を誘導する単一ストリームネットワークを設計する。
このモデルは、現在の最も軽量なモデルよりも55.5%軽く、32 FPSのリアルタイム速度で384倍の384ドルの画像を処理している。
論文 参考訳(メタデータ) (2020-07-14T04:40:14Z) - Hierarchical Dynamic Filtering Network for RGB-D Salient Object
Detection [91.43066633305662]
RGB-D Salient Object Detection (SOD) の主な目的は、相互融合情報をよりよく統合し活用する方法である。
本稿では,これらの問題を新たな視点から考察する。
我々は、より柔軟で効率的なマルチスケールのクロスモーダルな特徴処理を実装している。
論文 参考訳(メタデータ) (2020-07-13T07:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。