論文の概要: RGB-D Salient Object Detection with Ubiquitous Target Awareness
- arxiv url: http://arxiv.org/abs/2109.03425v1
- Date: Wed, 8 Sep 2021 04:27:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-09 13:48:11.535297
- Title: RGB-D Salient Object Detection with Ubiquitous Target Awareness
- Title(参考訳): ユビキタスターゲット認識によるRGB-D能動物体検出
- Authors: Yifan Zhao, Jiawei Zhao, Jia Li, Xiaowu Chen
- Abstract要約: 我々は、新しい深度認識フレームワークを用いて、RGB-D有向物体検出問題を解くための最初の試みを行う。
本稿では,RGB-D SODタスクにおける3つの課題を解決するために,ユビキタスターゲット意識(UTA)ネットワークを提案する。
提案するUTAネットワークは深度フリーで,43FPSでリアルタイムに動作可能である。
- 参考スコア(独自算出の注目度): 37.6726410843724
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conventional RGB-D salient object detection methods aim to leverage depth as
complementary information to find the salient regions in both modalities.
However, the salient object detection results heavily rely on the quality of
captured depth data which sometimes are unavailable. In this work, we make the
first attempt to solve the RGB-D salient object detection problem with a novel
depth-awareness framework. This framework only relies on RGB data in the
testing phase, utilizing captured depth data as supervision for representation
learning. To construct our framework as well as achieving accurate salient
detection results, we propose a Ubiquitous Target Awareness (UTA) network to
solve three important challenges in RGB-D SOD task: 1) a depth awareness module
to excavate depth information and to mine ambiguous regions via adaptive
depth-error weights, 2) a spatial-aware cross-modal interaction and a
channel-aware cross-level interaction, exploiting the low-level boundary cues
and amplifying high-level salient channels, and 3) a gated multi-scale
predictor module to perceive the object saliency in different contextual
scales. Besides its high performance, our proposed UTA network is depth-free
for inference and runs in real-time with 43 FPS. Experimental evidence
demonstrates that our proposed network not only surpasses the state-of-the-art
methods on five public RGB-D SOD benchmarks by a large margin, but also
verifies its extensibility on five public RGB SOD benchmarks.
- Abstract(参考訳): 従来のrgb-dサルエント物体検出手法は、両モードのサルエント領域を見つけるために深度を補完的情報として活用することを目的としている。
しかし、salient object detectionの結果は、時々利用できない被写体深度データの品質に大きく依存している。
本研究では,新しい深度認識フレームワークを用いて,RGB-D有向物体検出問題を解くための最初の試みを行う。
このフレームワークはテストフェーズでのみRGBデータに依存し、取得した深度データを表現学習の監督として利用する。
To construct our framework as well as achieving accurate salient detection results, we propose a Ubiquitous Target Awareness (UTA) network to solve three important challenges in RGB-D SOD task: 1) a depth awareness module to excavate depth information and to mine ambiguous regions via adaptive depth-error weights, 2) a spatial-aware cross-modal interaction and a channel-aware cross-level interaction, exploiting the low-level boundary cues and amplifying high-level salient channels, and 3) a gated multi-scale predictor module to perceive the object saliency in different contextual scales.
高パフォーマンスに加えて,提案するutaネットワークは推論の深さフリーであり,43fpsでリアルタイムに動作している。
実験により,提案したネットワークは,5つの公開RGB-D SODベンチマークの最先端手法をはるかに上回るだけでなく,5つの公開RGB SODベンチマークの拡張性も検証している。
関連論文リスト
- RGB-D Grasp Detection via Depth Guided Learning with Cross-modal
Attention [14.790193023912973]
本稿では,DGCAN(Depth Guided Cross-modal Attention Network)を用いた新しい学習手法を提案する。
深度チャネルに記録された幾何情報をよりよく活用するために、全6次元矩形表現を専用に考慮して採用する。
余分な掴み深度の予測は特徴学習を大幅に強化し、より正確な結果をもたらす。
論文 参考訳(メタデータ) (2023-02-28T02:41:27Z) - Unsupervised Spike Depth Estimation via Cross-modality Cross-domain Knowledge Transfer [53.413305467674434]
スパイク深度推定をサポートするためにオープンソースのRGBデータを導入し,そのアノテーションと空間情報を活用する。
教師なしスパイク深さ推定を実現するために,クロスモーダルクロスドメイン(BiCross)フレームワークを提案する。
提案手法は,RGB指向の教師なし深度推定法と比較して,最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2022-08-26T09:35:20Z) - Robust RGB-D Fusion for Saliency Detection [13.705088021517568]
本稿では, 層状および三重項空間, 注意機構の利点を生かしたRGB-D融合法を提案する。
5つのベンチマーク・データセットを用いた実験により,提案手法は最先端の核融合法よりも一貫した性能を示した。
論文 参考訳(メタデータ) (2022-08-02T21:23:00Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Joint Learning of Salient Object Detection, Depth Estimation and Contour
Extraction [91.43066633305662]
RGB-D Salient Object Detection (SOD) のための新しいマルチタスク・マルチモーダルフィルタトランス (MMFT) ネットワークを提案する。
具体的には、深度推定、健全な物体検出、輪郭推定の3つの相補的なタスクを統合する。マルチタスク機構は、タスク認識の特徴を補助タスクから学習するためのモデルを促進する。
実験の結果、複数のデータセット上での深度に基づくRGB-D SOD法をはるかに上回るだけでなく、高品質の深度マップと塩分濃度を同時に正確に予測できることがわかった。
論文 参考訳(メタデータ) (2022-03-09T17:20:18Z) - Cross-modality Discrepant Interaction Network for RGB-D Salient Object
Detection [78.47767202232298]
本稿では,RGB-D SODのためのクロスモダリティ離散相互作用ネットワーク(CDINet)を提案する。
2つのコンポーネントは、効果的な相互モダリティ相互作用を実装するように設計されている。
我々のネットワークは、定量的にも質的にも15ドルの最先端の手法より優れています。
論文 参考訳(メタデータ) (2021-08-04T11:24:42Z) - Accurate RGB-D Salient Object Detection via Collaborative Learning [101.82654054191443]
RGB-Dサリエンシ検出は、いくつかの課題シナリオにおいて素晴らしい能力を示している。
本稿では,エッジ,深度,塩分濃度をより効率的に活用する新しい協調学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-23T04:33:36Z) - Is Depth Really Necessary for Salient Object Detection? [50.10888549190576]
本稿では,RGB情報のみを推論の入力とする統合深度認識フレームワークの実現に向けた最初の試みを行う。
5つの公開RGB SODベンチマークの最先端のパフォーマンスを上回るだけでなく、5つのベンチマークのRGBDベースのメソッドを大きく上回っている。
論文 参考訳(メタデータ) (2020-05-30T13:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。