論文の概要: ViDSOD-100: A New Dataset and a Baseline Model for RGB-D Video Salient Object Detection
- arxiv url: http://arxiv.org/abs/2406.12536v1
- Date: Tue, 18 Jun 2024 12:09:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 19:17:37.194186
- Title: ViDSOD-100: A New Dataset and a Baseline Model for RGB-D Video Salient Object Detection
- Title(参考訳): ViDSOD-100:RGB-Dビデオ有向物体検出のための新しいデータセットとベースラインモデル
- Authors: Junhao Lin, Lei Zhu, Jiaxing Shen, Huazhu Fu, Qing Zhang, Liansheng Wang,
- Abstract要約: まず、注釈付きRGB-D video SODOD(DSOD-100)データセットを収集し、合計9,362フレーム内に100の動画を含む。
各ビデオのフレームはすべて、高品質なサリエンシアノテーションに手動で注釈付けされる。
本稿では,RGB-Dサリアンオブジェクト検出のための新しいベースラインモデル,attentive triple-fusion network (ATF-Net)を提案する。
- 参考スコア(独自算出の注目度): 51.16181295385818
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid development of depth sensor, more and more RGB-D videos could be obtained. Identifying the foreground in RGB-D videos is a fundamental and important task. However, the existing salient object detection (SOD) works only focus on either static RGB-D images or RGB videos, ignoring the collaborating of RGB-D and video information. In this paper, we first collect a new annotated RGB-D video SOD (ViDSOD-100) dataset, which contains 100 videos within a total of 9,362 frames, acquired from diverse natural scenes. All the frames in each video are manually annotated to a high-quality saliency annotation. Moreover, we propose a new baseline model, named attentive triple-fusion network (ATF-Net), for RGB-D video salient object detection. Our method aggregates the appearance information from an input RGB image, spatio-temporal information from an estimated motion map, and the geometry information from the depth map by devising three modality-specific branches and a multi-modality integration branch. The modality-specific branches extract the representation of different inputs, while the multi-modality integration branch combines the multi-level modality-specific features by introducing the encoder feature aggregation (MEA) modules and decoder feature aggregation (MDA) modules. The experimental findings conducted on both our newly introduced ViDSOD-100 dataset and the well-established DAVSOD dataset highlight the superior performance of the proposed ATF-Net. This performance enhancement is demonstrated both quantitatively and qualitatively, surpassing the capabilities of current state-of-the-art techniques across various domains, including RGB-D saliency detection, video saliency detection, and video object segmentation. Our data and our code are available at github.com/jhl-Det/RGBD_Video_SOD.
- Abstract(参考訳): 深度センサーの急速な開発により、より多くのRGB-Dビデオが得られるようになった。
RGB-Dビデオのフォアグラウンドを特定することは、基本的で重要なタスクである。
しかし、既存のサルエントオブジェクト検出(SOD)は、静的なRGB-D画像またはRGBビデオにのみ焦点を合わせ、RGB-Dとビデオ情報の協調を無視している。
本稿では,まず,自然界の多様なシーンから取得した合計9,362フレーム内に100本のビデオを含む,新しい注釈付きRGB-DビデオSOD(ViDSOD-100)データセットを収集する。
各ビデオのフレームはすべて、高品質なサリエンシアノテーションに手動で注釈付けされる。
さらに,RGB-Dビデオ有向物体検出のための新しいベースラインモデル,attentive triple-fusion network (ATF-Net)を提案する。
提案手法は,入力されたRGB画像からの外観情報,推定した動きマップからの時空間情報,深度マップからの幾何学情報を3つのモード固有ブランチと多モード統合ブランチを考案して集約する。
モダリティ特異的ブランチは異なる入力の表現を抽出し、マルチモダリティ統合ブランチは、エンコーダ特徴集約(MEA)モジュールとデコーダ特徴集約(MDA)モジュールを導入することで、マルチレベルモダリティ固有特徴を結合する。
新たに導入したViDSOD-100データセットと、確立されたDAVSODデータセットの両方で実施された実験結果は、提案したAFF-Netの優れた性能を示している。
この性能向上は、RGB-Dサリエンシ検出、ビデオサリエンシ検出、ビデオオブジェクトセグメンテーションなど、様々な領域における最先端技術の能力を上回る、定量的かつ質的に実証される。
我々のデータとコードはgithub.com/jhl-Det/RGBD_Video_SODで利用可能です。
関連論文リスト
- Unveiling the Limits of Alignment: Multi-modal Dynamic Local Fusion Network and A Benchmark for Unaligned RGBT Video Object Detection [5.068440399797739]
現在のRGB-Thermal Video Object Detection (RGBT VOD) 法は、画像レベルで手動で調整するデータに依存する。
不整合RGBTペアを扱うために設計されたMDLNet(Multi-modal Dynamic Local fusion Network)を提案する。
MDLNet と State-of-the-art (SOTA) モデルとの総合的な評価と比較を行い,MDLNet の有効性を実証した。
論文 参考訳(メタデータ) (2024-10-16T01:06:12Z) - SEDS: Semantically Enhanced Dual-Stream Encoder for Sign Language Retrieval [82.51117533271517]
以前はRGBビデオをエンコードするだけで高レベルのセマンティックな特徴が得られていた。
既存のRGBベースの手話検索作業は、エンドツーエンドのトレーニングに埋め込まれた濃密な視覚データによる膨大なメモリコストに悩まされる。
本稿では,Semantically Enhanced Dual-Streamという手話表現フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-23T11:31:11Z) - EvPlug: Learn a Plug-and-Play Module for Event and Image Fusion [55.367269556557645]
EvPlugは、既存のRGBベースのモデルの監視から、プラグアンドプレイイベントとイメージ融合モジュールを学習する。
オブジェクト検出,セマンティックセグメンテーション,3Dハンドポーズ推定などの視覚タスクにおいて,EvPlugの優位性を示す。
論文 参考訳(メタデータ) (2023-12-28T10:05:13Z) - Salient Object Detection in RGB-D Videos [11.805682025734551]
本稿では,データセットとモデルという2つの主要なコントリビューションについて述べる。
現実的な深度を持つ新しいRGB-D VSODデータセットであるRDVSデータセットを構築した。
RGB-D VSODに適した3ストリームネットワークであるDCTNet+を紹介する。
論文 参考訳(メタデータ) (2023-10-24T03:18:07Z) - Anyview: Generalizable Indoor 3D Object Detection with Variable Frames [63.51422844333147]
我々は,AnyViewという新しい3D検出フレームワークを実用化するために提案する。
本手法は, 単純かつクリーンなアーキテクチャを用いて, 高い一般化性と高い検出精度を実現する。
論文 参考訳(メタデータ) (2023-10-09T02:15:45Z) - Learning Modal-Invariant and Temporal-Memory for Video-based
Visible-Infrared Person Re-Identification [46.49866514866999]
主にビデオベースのクロスモーダル人物Re-ID法について研究する。
トラックレット内のフレームの増加により,性能が向上することが証明された。
モーダル不変部分空間に2つのモダリティを投影する新しい手法を提案する。
論文 参考訳(メタデータ) (2022-08-04T04:43:52Z) - Dynamic Message Propagation Network for RGB-D Salient Object Detection [47.00147036733322]
本稿では,RGB画像と特徴レベルの深度マップ間のメッセージパッシングを制御することにより,RGB-D有意物体検出のための新しいディープニューラルネットワークフレームワークを提案する。
RGB-D能動的物体検出のための6つのベンチマークデータセットを用いた17の最先端手法と比較して,本手法は定量的・視覚的に,他の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-06-20T03:27:48Z) - RGB-D Saliency Detection via Cascaded Mutual Information Minimization [122.8879596830581]
既存のRGB-Dサリエンシ検出モデルは、RGBと深さを効果的にマルチモーダル学習を実現するために明示的に奨励するものではない。
本稿では,RGB画像と深度データ間のマルチモーダル情報を「明示的」にモデル化するために,相互情報最小化による新しい多段階学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-15T12:31:27Z) - Cross-modality Discrepant Interaction Network for RGB-D Salient Object
Detection [78.47767202232298]
本稿では,RGB-D SODのためのクロスモダリティ離散相互作用ネットワーク(CDINet)を提案する。
2つのコンポーネントは、効果的な相互モダリティ相互作用を実装するように設計されている。
我々のネットワークは、定量的にも質的にも15ドルの最先端の手法より優れています。
論文 参考訳(メタデータ) (2021-08-04T11:24:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。