論文の概要: DPANet: Depth Potentiality-Aware Gated Attention Network for RGB-D
Salient Object Detection
- arxiv url: http://arxiv.org/abs/2003.08608v4
- Date: Tue, 29 Sep 2020 02:34:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-12-22 04:24:24.272283
- Title: DPANet: Depth Potentiality-Aware Gated Attention Network for RGB-D
Salient Object Detection
- Title(参考訳): DPANet:RGB-D Salient Object Detectionのための奥行き電位対応ゲート注意ネットワーク
- Authors: Zuyao Chen, Runmin Cong, Qianqian Xu, and Qingming Huang
- Abstract要約: そこで我々は,DPANetという新しいネットワークを提案し,深度マップの可能性を明確にモデル化し,モーダル間の相補性を効果的に統合する。
深度ポテンシャル知覚を導入することにより、ネットワークは深度情報のポテンシャルを学習ベースで知覚することができる。
- 参考スコア(独自算出の注目度): 107.96418568008644
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There are two main issues in RGB-D salient object detection: (1) how to
effectively integrate the complementarity from the cross-modal RGB-D data; (2)
how to prevent the contamination effect from the unreliable depth map. In fact,
these two problems are linked and intertwined, but the previous methods tend to
focus only on the first problem and ignore the consideration of depth map
quality, which may yield the model fall into the sub-optimal state. In this
paper, we address these two issues in a holistic model synergistically, and
propose a novel network named DPANet to explicitly model the potentiality of
the depth map and effectively integrate the cross-modal complementarity. By
introducing the depth potentiality perception, the network can perceive the
potentiality of depth information in a learning-based manner, and guide the
fusion process of two modal data to prevent the contamination occurred. The
gated multi-modality attention module in the fusion process exploits the
attention mechanism with a gate controller to capture long-range dependencies
from a cross-modal perspective. Experimental results compared with 15
state-of-the-art methods on 8 datasets demonstrate the validity of the proposed
approach both quantitatively and qualitatively.
- Abstract(参考訳): RGB-Dの有意な物体検出には,(1)モーダルRGB-Dデータの相補性を効果的に統合する方法,(2)信頼できない深度マップからの汚染効果の防止方法,の2つの課題がある。
実際、これらの2つの問題はリンクされ、相互に絡み合っているが、以前の手法は最初の問題にのみ焦点を合わせ、深度マップの品質の考慮を無視する傾向にあり、モデルが準最適状態に陥る可能性がある。
本稿では,これら2つの問題を総合モデルで相乗的に扱い,深度マップの可能性を明確にモデル化し,相互補完性を効果的に統合するDPANetという新しいネットワークを提案する。
深度ポテンシャル知覚を導入することにより、ネットワークは深度情報のポテンシャルを学習ベースで認識し、2つのモーダルデータの融合プロセスを導出し、汚染の発生を防止することができる。
融合プロセスのゲート型マルチモダリティアテンションモジュールは、ゲートコントローラによるアテンション機構を利用して、クロスモダリティの観点から長距離の依存関係をキャプチャする。
8つのデータセットに対する15の最先端手法との比較実験により,提案手法の有効性が定量的にも定性的にも示された。
関連論文リスト
- Unveiling the Depths: A Multi-Modal Fusion Framework for Challenging
Scenarios [103.72094710263656]
本稿では,学習に基づくフレームワークを用いて,支配的モダリティの奥行きを識別し,統合する手法を提案する。
本稿では,信頼度予測ネットワークを操り,潜在電位深度領域を特定する信頼マップを作成する新しい信頼損失を提案する。
得られた信頼度マップを用いて,最終深度をエンドツーエンドに融合するマルチモーダル融合ネットワークを提案する。
論文 参考訳(メタデータ) (2024-02-19T04:39:16Z) - RGB-D Grasp Detection via Depth Guided Learning with Cross-modal
Attention [14.790193023912973]
本稿では,DGCAN(Depth Guided Cross-modal Attention Network)を用いた新しい学習手法を提案する。
深度チャネルに記録された幾何情報をよりよく活用するために、全6次元矩形表現を専用に考慮して採用する。
余分な掴み深度の予測は特徴学習を大幅に強化し、より正確な結果をもたらす。
論文 参考訳(メタデータ) (2023-02-28T02:41:27Z) - Robust RGB-D Fusion for Saliency Detection [13.705088021517568]
本稿では, 層状および三重項空間, 注意機構の利点を生かしたRGB-D融合法を提案する。
5つのベンチマーク・データセットを用いた実験により,提案手法は最先端の核融合法よりも一貫した性能を示した。
論文 参考訳(メタデータ) (2022-08-02T21:23:00Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Target-aware Dual Adversarial Learning and a Multi-scenario
Multi-Modality Benchmark to Fuse Infrared and Visible for Object Detection [65.30079184700755]
本研究は、物体検出のために異なるように見える赤外線と可視画像の融合の問題に対処する。
従来のアプローチでは、2つのモダリティの根底にある共通点を発見し、反復最適化またはディープネットワークによって共通空間に融合する。
本稿では、融合と検出の連立問題に対する二段階最適化の定式化を提案し、その後、核融合と一般的に使用される検出ネットワークのためのターゲット認識デュアル逆学習(TarDAL)ネットワークに展開する。
論文 参考訳(メタデータ) (2022-03-30T11:44:56Z) - Depth-Cooperated Trimodal Network for Video Salient Object Detection [13.727763221832532]
我々はDCTNet(Deep-operated triOD network)を提案する。
この目的のために、まずRGBフレームから深度を生成し、次に3つのモダリティを不等に扱うアプローチを提案する。
また、各モードの雑音を抑えるための改良融合モジュール(RFM)を導入し、機能改善のために有用な情報を動的に選択する。
論文 参考訳(メタデータ) (2022-02-12T13:04:16Z) - RGB-D Salient Object Detection with Ubiquitous Target Awareness [37.6726410843724]
我々は、新しい深度認識フレームワークを用いて、RGB-D有向物体検出問題を解くための最初の試みを行う。
本稿では,RGB-D SODタスクにおける3つの課題を解決するために,ユビキタスターゲット意識(UTA)ネットワークを提案する。
提案するUTAネットワークは深度フリーで,43FPSでリアルタイムに動作可能である。
論文 参考訳(メタデータ) (2021-09-08T04:27:29Z) - Learning Selective Mutual Attention and Contrast for RGB-D Saliency
Detection [145.4919781325014]
クロスモーダル情報を効果的に融合する方法は、RGB-Dの有能な物体検出の鍵となる問題である。
多くのモデルは特徴融合戦略を用いるが、低次点対点融合法によって制限されている。
本研究では,異なるモダリティから注目とコンテキストを融合させることにより,新たな相互注意モデルを提案する。
論文 参考訳(メタデータ) (2020-10-12T08:50:10Z) - A Single Stream Network for Robust and Real-time RGB-D Salient Object
Detection [89.88222217065858]
我々は、深度マップを用いて、RGBと深度の間の早期融合と中核融合を誘導する単一ストリームネットワークを設計する。
このモデルは、現在の最も軽量なモデルよりも55.5%軽く、32 FPSのリアルタイム速度で384倍の384ドルの画像を処理している。
論文 参考訳(メタデータ) (2020-07-14T04:40:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。