論文の概要: Siamese Network for RGB-D Salient Object Detection and Beyond
- arxiv url: http://arxiv.org/abs/2008.12134v2
- Date: Fri, 16 Apr 2021 05:52:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 21:55:14.333854
- Title: Siamese Network for RGB-D Salient Object Detection and Beyond
- Title(参考訳): RGB-D能動物体検出のためのシームズネットワーク
- Authors: Keren Fu, Deng-Ping Fan, Ge-Peng Ji, Qijun Zhao, Jianbing Shen, Ce Zhu
- Abstract要約: 共有ネットワークバックボーンを通じてRGBと深度入力の両方から学習するための新しいフレームワークが提案されている。
5つの一般的な指標を用いた総合的な実験は、設計されたフレームワークが堅牢なRGB-D塩分濃度検出器をもたらすことを示している。
また、JL-DCFをRGB-Dセマンティックセマンティックセマンティクスフィールドにリンクし、いくつかのセマンティクスセマンティクスモデルよりも優れた性能を示す。
- 参考スコア(独自算出の注目度): 113.30063105890041
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing RGB-D salient object detection (SOD) models usually treat RGB and
depth as independent information and design separate networks for feature
extraction from each. Such schemes can easily be constrained by a limited
amount of training data or over-reliance on an elaborately designed training
process. Inspired by the observation that RGB and depth modalities actually
present certain commonality in distinguishing salient objects, a novel joint
learning and densely cooperative fusion (JL-DCF) architecture is designed to
learn from both RGB and depth inputs through a shared network backbone, known
as the Siamese architecture. In this paper, we propose two effective
components: joint learning (JL), and densely cooperative fusion (DCF). The JL
module provides robust saliency feature learning by exploiting cross-modal
commonality via a Siamese network, while the DCF module is introduced for
complementary feature discovery. Comprehensive experiments using five popular
metrics show that the designed framework yields a robust RGB-D saliency
detector with good generalization. As a result, JL-DCF significantly advances
the state-of-the-art models by an average of ~2.0% (max F-measure) across seven
challenging datasets. In addition, we show that JL-DCF is readily applicable to
other related multi-modal detection tasks, including RGB-T (thermal infrared)
SOD and video SOD, achieving comparable or even better performance against
state-of-the-art methods. We also link JL-DCF to the RGB-D semantic
segmentation field, showing its capability of outperforming several semantic
segmentation models on the task of RGB-D SOD. These facts further confirm that
the proposed framework could offer a potential solution for various
applications and provide more insight into the cross-modal complementarity
task.
- Abstract(参考訳): 既存のrgb-d salient object detection (sod)モデルは通常、rgbと深度を独立した情報として扱い、特徴抽出のための別々のネットワークを設計する。
このようなスキームは、限られた量のトレーニングデータや、精巧に設計されたトレーニングプロセスへの過剰依存によって容易に制限できる。
RGBと深度変調が実際に有意な物体の識別に共通点があることに着想を得て、新しい共同学習と密結合融合(JL-DCF)アーキテクチャは、シームズアーキテクチャとして知られる共有ネットワークバックボーンを通じてRGBと深度入力の両方から学習するように設計されている。
本稿では,共同学習(JL)と高密度協調融合(DCF)の2つの有効成分を提案する。
JLモジュールは、Siameseネットワークを介してクロスモーダルな共通性を活用することで、堅牢なサリエンシ機能学習を提供し、DCFモジュールは補完的な特徴発見のために導入された。
5つの一般的なメトリクスを用いた包括的な実験により、設計されたフレームワークは、優れた一般化を持つ堅牢なrgb-dサリエンシー検出器をもたらすことが示された。
その結果、jl-dcfは7つの挑戦的データセットで平均2.0% (max f-measure) 向上した。
さらに,JL-DCFはRGB-T(熱赤外)SODやビデオSODなど,関連するマルチモーダル検出タスクにも容易に適用可能であることを示し,最先端の手法と同等あるいはそれ以上のパフォーマンスを実現する。
また、JL-DCFをRGB-Dセマンティックセマンティックセマンティックセマンティックフィールドにリンクし、RGB-D SODのタスク上で複数のセマンティックセマンティックセマンティックセマンティクスモデルを上回る性能を示す。
これらの事実は、提案されたフレームワークが様々なアプリケーションに対して潜在的なソリューションを提供し、クロスモーダル相補性タスクに関するさらなる洞察を提供する可能性があることをさらに確認している。
関連論文リスト
- HODINet: High-Order Discrepant Interaction Network for RGB-D Salient
Object Detection [4.007827908611563]
RGB-D Salient Object Detection (SOD) は、RGBと深度情報を共同でモデル化することで、顕著な領域を検出することを目的としている。
ほとんどのRGB-D SOD法は、同じ種類のバックボーンと融合モジュールを適用して、マルチモーダリティとマルチステージの特徴を同一に学習する。
本稿では,RGB-D SODのための高次離散相互作用ネットワーク(HODINet)を提案する。
論文 参考訳(メタデータ) (2023-07-03T11:56:21Z) - CIR-Net: Cross-modality Interaction and Refinement for RGB-D Salient
Object Detection [144.66411561224507]
本稿では,CIR-Netと呼ばれる畳み込みニューラルネットワーク(CNN)モデルを提案する。
我々のネットワークは、定性的かつ定量的に最先端の塩分濃度検出器より優れています。
論文 参考訳(メタデータ) (2022-10-06T11:59:19Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Cross-modality Discrepant Interaction Network for RGB-D Salient Object
Detection [78.47767202232298]
本稿では,RGB-D SODのためのクロスモダリティ離散相互作用ネットワーク(CDINet)を提案する。
2つのコンポーネントは、効果的な相互モダリティ相互作用を実装するように設計されている。
我々のネットワークは、定量的にも質的にも15ドルの最先端の手法より優れています。
論文 参考訳(メタデータ) (2021-08-04T11:24:42Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z) - A Unified Structure for Efficient RGB and RGB-D Salient Object Detection [15.715143016999695]
SODの両タスクを効率的に扱うために,CRACEモジュールを用いた統合構造を提案する。
提案したCRACEモジュールは2つ(RGB SOD)または3つ(RGB-D SOD)の入力を受信し、適切に融合する。
CRACEモジュールを備えた単純な統合機能ピラミッドネットワーク(FPN)のような構造は、サリエンシとバウンダリの多層監視の下で結果を伝達し、洗練する。
論文 参考訳(メタデータ) (2020-12-01T12:12:03Z) - Multi-level Cross-modal Interaction Network for RGB-D Salient Object
Detection [3.581367375462018]
我々は,RGB-D を用いたサルエントオブジェクト検出(SOD)のためのMCINet(Multi-level Cross-modal Interaction Network)を提案する。
MCI-Netには2つの重要なコンポーネントがある: 1)RGB画像と深度キューの高レベルな特徴を学習するために使用されるクロスモーダルな特徴学習ネットワーク、2)SOD性能を高めるためにマルチレベルなクロスモーダル機能を統合するマルチレベルな対話型統合ネットワーク。
論文 参考訳(メタデータ) (2020-07-10T02:21:02Z) - Cross-Modal Weighting Network for RGB-D Salient Object Detection [76.0965123893641]
我々は,RGB-D SODの深度チャネルとRGB-D SODの包括的相互作用を促進するために,新しいクロスモーダルウェイトリング(CMW)戦略を提案する。
具体的には、CMW-L、CMW-M、CMW-Hという3つのRGB-depth相互作用モジュールが、それぞれ低レベル、中級、高レベルのクロスモーダル情報融合を扱うように開発されている。
CMWNetは、7つの人気のあるベンチマークで15の最先端のRGB-D SODメソッドを上回っている。
論文 参考訳(メタデータ) (2020-07-09T16:01:44Z) - JL-DCF: Joint Learning and Densely-Cooperative Fusion Framework for
RGB-D Salient Object Detection [39.125777418630136]
本稿では,RGB-Dサルエント物体検出のための新しい共同学習と密結合型融合(JL-DCF)アーキテクチャを提案する。
我々のJL-DCFは、シームズネットワークを介してRGBと深さの入力から学習する。
実験により、設計されたフレームワークは、優れた一般化を伴う堅牢なRGB-Dサリエンシ検出器を生成することが示された。
論文 参考訳(メタデータ) (2020-04-18T03:22:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。