論文の概要: Robust RGB-D Fusion for Saliency Detection
- arxiv url: http://arxiv.org/abs/2208.01762v1
- Date: Tue, 2 Aug 2022 21:23:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-08-04 13:36:53.894561
- Title: Robust RGB-D Fusion for Saliency Detection
- Title(参考訳): 塩分検出のためのロバストRGB-D核融合
- Authors: Zongwei Wu, Shriarulmozhivarman Gobichettipalayam, Brahim Tamadazte,
Guillaume Allibert, Danda Pani Paudel, C\'edric Demonceaux
- Abstract要約: 本稿では, 層状および三重項空間, 注意機構の利点を生かしたRGB-D融合法を提案する。
5つのベンチマーク・データセットを用いた実験により,提案手法は最先端の核融合法よりも一貫した性能を示した。
- 参考スコア(独自算出の注目度): 13.705088021517568
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efficiently exploiting multi-modal inputs for accurate RGB-D saliency
detection is a topic of high interest. Most existing works leverage cross-modal
interactions to fuse the two streams of RGB-D for intermediate features'
enhancement. In this process, a practical aspect of the low quality of the
available depths has not been fully considered yet. In this work, we aim for
RGB-D saliency detection that is robust to the low-quality depths which
primarily appear in two forms: inaccuracy due to noise and the misalignment to
RGB. To this end, we propose a robust RGB-D fusion method that benefits from
(1) layer-wise, and (2) trident spatial, attention mechanisms. On the one hand,
layer-wise attention (LWA) learns the trade-off between early and late fusion
of RGB and depth features, depending upon the depth accuracy. On the other
hand, trident spatial attention (TSA) aggregates the features from a wider
spatial context to address the depth misalignment problem. The proposed LWA and
TSA mechanisms allow us to efficiently exploit the multi-modal inputs for
saliency detection while being robust against low-quality depths. Our
experiments on five benchmark datasets demonstrate that the proposed fusion
method performs consistently better than the state-of-the-art fusion
alternatives.
- Abstract(参考訳): マルチモーダル入力を高精度なrgb-dサリエンシー検出に効率的に活用することは、高い関心を集めている。
既存のほとんどの研究は、中間機能の強化のためにRGB-Dの2つのストリームを融合するために、相互モーダル相互作用を利用する。
この過程では、利用可能な深さの低品質の実用的側面が十分に検討されていない。
本研究は,ノイズによる不正確さとRGBの誤認識という,低品質な深度に頑健なRGB-Dサリエンシ検出を実現することを目的とする。
そこで本研究では,(1)層状,(2)トリデント空間,注意機構の利点を生かした,堅牢なRGB-D融合法を提案する。
一方、レイヤワイド・アテンション(LWA)は、RGBの初期と後期の融合と深度特性のトレードオフを、深さ精度に応じて学習する。
一方,tsa (trident spatial attention) は,より広い空間的文脈から特徴を集約し,奥行き不一致問題に対処する。
提案したLWAおよびTSA機構により,低品質深度に対して堅牢でありながら,多モード入力を効率よく唾液濃度検出に利用することができる。
5つのベンチマーク・データセットを用いた実験により,提案手法は最先端の核融合法よりも一貫した性能を示した。
関連論文リスト
- HODINet: High-Order Discrepant Interaction Network for RGB-D Salient
Object Detection [4.007827908611563]
RGB-D Salient Object Detection (SOD) は、RGBと深度情報を共同でモデル化することで、顕著な領域を検出することを目的としている。
ほとんどのRGB-D SOD法は、同じ種類のバックボーンと融合モジュールを適用して、マルチモーダリティとマルチステージの特徴を同一に学習する。
本稿では,RGB-D SODのための高次離散相互作用ネットワーク(HODINet)を提案する。
論文 参考訳(メタデータ) (2023-07-03T11:56:21Z) - RGB-D Grasp Detection via Depth Guided Learning with Cross-modal
Attention [14.790193023912973]
本稿では,DGCAN(Depth Guided Cross-modal Attention Network)を用いた新しい学習手法を提案する。
深度チャネルに記録された幾何情報をよりよく活用するために、全6次元矩形表現を専用に考慮して採用する。
余分な掴み深度の予測は特徴学習を大幅に強化し、より正確な結果をもたらす。
論文 参考訳(メタデータ) (2023-02-28T02:41:27Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Joint Learning of Salient Object Detection, Depth Estimation and Contour
Extraction [91.43066633305662]
RGB-D Salient Object Detection (SOD) のための新しいマルチタスク・マルチモーダルフィルタトランス (MMFT) ネットワークを提案する。
具体的には、深度推定、健全な物体検出、輪郭推定の3つの相補的なタスクを統合する。マルチタスク機構は、タスク認識の特徴を補助タスクから学習するためのモデルを促進する。
実験の結果、複数のデータセット上での深度に基づくRGB-D SOD法をはるかに上回るだけでなく、高品質の深度マップと塩分濃度を同時に正確に予測できることがわかった。
論文 参考訳(メタデータ) (2022-03-09T17:20:18Z) - RGB-D Salient Object Detection with Ubiquitous Target Awareness [37.6726410843724]
我々は、新しい深度認識フレームワークを用いて、RGB-D有向物体検出問題を解くための最初の試みを行う。
本稿では,RGB-D SODタスクにおける3つの課題を解決するために,ユビキタスターゲット意識(UTA)ネットワークを提案する。
提案するUTAネットワークは深度フリーで,43FPSでリアルタイムに動作可能である。
論文 参考訳(メタデータ) (2021-09-08T04:27:29Z) - Cross-modality Discrepant Interaction Network for RGB-D Salient Object
Detection [78.47767202232298]
本稿では,RGB-D SODのためのクロスモダリティ離散相互作用ネットワーク(CDINet)を提案する。
2つのコンポーネントは、効果的な相互モダリティ相互作用を実装するように設計されている。
我々のネットワークは、定量的にも質的にも15ドルの最先端の手法より優れています。
論文 参考訳(メタデータ) (2021-08-04T11:24:42Z) - Deep RGB-D Saliency Detection with Depth-Sensitive Attention and
Automatic Multi-Modal Fusion [15.033234579900657]
RGB-Dサラエントオブジェクト検出(SOD)は通常、2つのモダリティ、すなわちRGBと深さの分類または回帰の問題として定式化される。
本稿では,salient objectsの奥行き方向幾何学的前置を用いた深さ感応型rgb特徴モデリング手法を提案する。
7つの標準ベンチマークに関する実験は、最先端技術に対する提案手法の有効性を示している。
論文 参考訳(メタデータ) (2021-03-22T13:28:45Z) - Learning Selective Mutual Attention and Contrast for RGB-D Saliency
Detection [145.4919781325014]
クロスモーダル情報を効果的に融合する方法は、RGB-Dの有能な物体検出の鍵となる問題である。
多くのモデルは特徴融合戦略を用いるが、低次点対点融合法によって制限されている。
本研究では,異なるモダリティから注目とコンテキストを融合させることにより,新たな相互注意モデルを提案する。
論文 参考訳(メタデータ) (2020-10-12T08:50:10Z) - Depth Quality Aware Salient Object Detection [52.618404186447165]
本稿では,選択的なRGB-D融合を行う前に,従来の2ストリーム構造に意識した新しい深度品質を組み込むことを目的としている。
本手法の主な特徴は,ロークオリティ,ノンコントリビューション,さらには負コントリビューションD領域のRGB-D融合における重要性を低下させることである。
論文 参考訳(メタデータ) (2020-08-07T09:54:39Z) - Is Depth Really Necessary for Salient Object Detection? [50.10888549190576]
本稿では,RGB情報のみを推論の入力とする統合深度認識フレームワークの実現に向けた最初の試みを行う。
5つの公開RGB SODベンチマークの最先端のパフォーマンスを上回るだけでなく、5つのベンチマークのRGBDベースのメソッドを大きく上回っている。
論文 参考訳(メタデータ) (2020-05-30T13:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。