論文の概要: Salient Object Detection in RGB-D Videos
- arxiv url: http://arxiv.org/abs/2310.15482v2
- Date: Tue, 21 May 2024 05:52:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-22 19:01:09.365607
- Title: Salient Object Detection in RGB-D Videos
- Title(参考訳): RGB-Dビデオにおける局所物体検出
- Authors: Ao Mou, Yukang Lu, Jiahao He, Dingyao Min, Keren Fu, Qijun Zhao,
- Abstract要約: 本稿では,データセットとモデルという2つの主要なコントリビューションについて述べる。
現実的な深度を持つ新しいRGB-D VSODデータセットであるRDVSデータセットを構築した。
RGB-D VSODに適した3ストリームネットワークであるDCTNet+を紹介する。
- 参考スコア(独自算出の注目度): 11.805682025734551
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given the widespread adoption of depth-sensing acquisition devices, RGB-D videos and related data/media have gained considerable traction in various aspects of daily life. Consequently, conducting salient object detection (SOD) in RGB-D videos presents a highly promising and evolving avenue. Despite the potential of this area, SOD in RGB-D videos remains somewhat under-explored, with RGB-D SOD and video SOD (VSOD) traditionally studied in isolation. To explore this emerging field, this paper makes two primary contributions: the dataset and the model. On one front, we construct the RDVS dataset, a new RGB-D VSOD dataset with realistic depth and characterized by its diversity of scenes and rigorous frame-by-frame annotations. We validate the dataset through comprehensive attribute and object-oriented analyses, and provide training and testing splits. Moreover, we introduce DCTNet+, a three-stream network tailored for RGB-D VSOD, with an emphasis on RGB modality and treats depth and optical flow as auxiliary modalities. In pursuit of effective feature enhancement, refinement, and fusion for precise final prediction, we propose two modules: the multi-modal attention module (MAM) and the refinement fusion module (RFM). To enhance interaction and fusion within RFM, we design a universal interaction module (UIM) and then integrate holistic multi-modal attentive paths (HMAPs) for refining multi-modal low-level features before reaching RFMs. Comprehensive experiments, conducted on pseudo RGB-D video datasets alongside our RDVS, highlight the superiority of DCTNet+ over 17 VSOD models and 14 RGB-D SOD models. Ablation experiments were performed on both pseudo and realistic RGB-D video datasets to demonstrate the advantages of individual modules as well as the necessity of introducing realistic depth. Our code together with RDVS dataset will be available at https://github.com/kerenfu/RDVS/.
- Abstract(参考訳): 奥行き検知装置の普及に伴い、RGB-Dビデオと関連するデータ/メディアは、日常生活の様々な面で大きな注目を集めている。
その結果、RGB-Dビデオにおけるサルエント物体検出(SOD)の実行は、非常に有望で進化する道を示す。
この領域の可能性にもかかわらず、RGB-DビデオにおけるSODは、RGB-D SODとビデオSOD(VSOD)は、伝統的に独立して研究されている。
この新たな分野を探求するために,本論文では,データセットとモデルという2つの主要なコントリビューションについて述べる。
一方、RDVSデータセットは、現実的な深度を持つ新しいRGB-D VSODデータセットであり、シーンの多様性とフレーム単位の厳密なアノテーションが特徴である。
包括的属性とオブジェクト指向分析を用いてデータセットを検証し、トレーニングとテストの分割を提供する。
さらに、RGB-D VSODに適した3ストリームネットワークであるDCTNet+を導入し、RGBのモダリティを重視し、奥行きと光の流れを補助モダリティとして扱う。
正確な最終予測のために,有効機能強化,改良,融合を追求するために,マルチモーダルアテンションモジュール (MAM) と改良融合モジュール (RFM) の2つのモジュールを提案する。
RFM内での相互作用と融合を強化するため、我々はUIM(Universal Interaction Module)を設計し、RFMに到達する前にマルチモーダルな低レベル特徴を洗練するための全体的マルチモーダル減衰経路(HMAP)を統合する。
RDVSと共に擬似RGB-Dビデオデータセットを用いて総合実験を行い、DCTNet+が17のVSODモデルと14のRGB-D SODモデルよりも優れていることを示した。
擬似的および現実的なRGB-Dビデオデータセット上でアブレーション実験を行い、個々のモジュールの利点と現実的な深さを導入する必要性を実証した。
私たちのコードとRDVSデータセットはhttps://github.com/kerenfu/RDVS/で利用可能です。
関連論文リスト
- ViDSOD-100: A New Dataset and a Baseline Model for RGB-D Video Salient Object Detection [51.16181295385818]
まず、注釈付きRGB-D video SODOD(DSOD-100)データセットを収集し、合計9,362フレーム内に100の動画を含む。
各ビデオのフレームはすべて、高品質なサリエンシアノテーションに手動で注釈付けされる。
本稿では,RGB-Dサリアンオブジェクト検出のための新しいベースラインモデル,attentive triple-fusion network (ATF-Net)を提案する。
論文 参考訳(メタデータ) (2024-06-18T12:09:43Z) - HODINet: High-Order Discrepant Interaction Network for RGB-D Salient
Object Detection [4.007827908611563]
RGB-D Salient Object Detection (SOD) は、RGBと深度情報を共同でモデル化することで、顕著な領域を検出することを目的としている。
ほとんどのRGB-D SOD法は、同じ種類のバックボーンと融合モジュールを適用して、マルチモーダリティとマルチステージの特徴を同一に学習する。
本稿では,RGB-D SODのための高次離散相互作用ネットワーク(HODINet)を提案する。
論文 参考訳(メタデータ) (2023-07-03T11:56:21Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Pyramidal Attention for Saliency Detection [30.554118525502115]
本稿では,RGB画像のみを活用し,RGBから深度を推定し,中間深度特性を利用する。
ピラミッド型アテンション構造を用いて,マルチレベル畳み込み変換器の特徴を抽出し,初期表現の処理を行う。
我々は8つのRGBおよびRGB-Dデータセット上で21と40の最先端SOD法に対する性能を著しく改善したことを報告した。
論文 参考訳(メタデータ) (2022-04-14T06:57:46Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z) - Siamese Network for RGB-D Salient Object Detection and Beyond [113.30063105890041]
共有ネットワークバックボーンを通じてRGBと深度入力の両方から学習するための新しいフレームワークが提案されている。
5つの一般的な指標を用いた総合的な実験は、設計されたフレームワークが堅牢なRGB-D塩分濃度検出器をもたらすことを示している。
また、JL-DCFをRGB-Dセマンティックセマンティックセマンティクスフィールドにリンクし、いくつかのセマンティクスセマンティクスモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-08-26T06:01:05Z) - RGB-D Salient Object Detection: A Survey [195.83586883670358]
様々な観点からRGB-Dに基づくSODモデルを総合的に調査する。
また、このドメインからSODモデルと人気のあるベンチマークデータセットもレビューします。
今後の研究に向けたRGB-DベースのSODの課題と方向性について論じる。
論文 参考訳(メタデータ) (2020-08-01T10:01:32Z) - Synergistic saliency and depth prediction for RGB-D saliency detection [76.27406945671379]
既存のRGB-Dサリエンシデータセットは小さく、多様なシナリオに対して過度に適合し、限定的な一般化につながる可能性がある。
そこで本研究では,RGB-Dサリエンシ検出のための半教師付きシステムを提案する。
論文 参考訳(メタデータ) (2020-07-03T14:24:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。