論文の概要: RGB-D Saliency Detection via Cascaded Mutual Information Minimization
- arxiv url: http://arxiv.org/abs/2109.07246v1
- Date: Wed, 15 Sep 2021 12:31:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-16 14:59:43.223343
- Title: RGB-D Saliency Detection via Cascaded Mutual Information Minimization
- Title(参考訳): カスケード型相互情報最小化によるRGB-D残差検出
- Authors: Jing Zhang and Deng-Ping Fan and Yuchao Dai and Xin Yu and Yiran Zhong
and Nick Barnes and Ling Shao
- Abstract要約: 既存のRGB-Dサリエンシ検出モデルは、RGBと深さを効果的にマルチモーダル学習を実現するために明示的に奨励するものではない。
本稿では,RGB画像と深度データ間のマルチモーダル情報を「明示的」にモデル化するために,相互情報最小化による新しい多段階学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 122.8879596830581
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing RGB-D saliency detection models do not explicitly encourage RGB and
depth to achieve effective multi-modal learning. In this paper, we introduce a
novel multi-stage cascaded learning framework via mutual information
minimization to "explicitly" model the multi-modal information between RGB
image and depth data. Specifically, we first map the feature of each mode to a
lower dimensional feature vector, and adopt mutual information minimization as
a regularizer to reduce the redundancy between appearance features from RGB and
geometric features from depth. We then perform multi-stage cascaded learning to
impose the mutual information minimization constraint at every stage of the
network. Extensive experiments on benchmark RGB-D saliency datasets illustrate
the effectiveness of our framework. Further, to prosper the development of this
field, we contribute the largest (7x larger than NJU2K) dataset, which contains
15,625 image pairs with high quality
polygon-/scribble-/object-/instance-/rank-level annotations. Based on these
rich labels, we additionally construct four new benchmarks with strong
baselines and observe some interesting phenomena, which can motivate future
model design. Source code and dataset are available at
"https://github.com/JingZhang617/cascaded_rgbd_sod".
- Abstract(参考訳): 既存のRGB-Dサリエンシ検出モデルは、RGBと深さを効果的にマルチモーダル学習を実現するために明示的に奨励するものではない。
本稿では,RGB画像と深度データの間のマルチモーダル情報を「明示的に」モデル化するために,相互情報最小化による新しい多段階学習フレームワークを提案する。
具体的には、まず、各モードの特徴を低次元特徴ベクトルにマッピングし、相互情報の最小化をレギュレータとして採用し、RGBと幾何学的特徴との冗長性を深さから低減する。
次に,ネットワークの各段階に相互情報最小化制約を課すために,多段階カスケード学習を行う。
ベンチマークRGB-Dサリエンシデータセットに関する大規模な実験は、我々のフレームワークの有効性を示している。
さらに,この分野の発展を促進するために,15,625のイメージペアと高品質なポリゴン/クリブル/オブジェクト/インスタンス/ランクレベルのアノテーションを含む,nju2kより7倍大きいデータセットをコントリビュートする。
これらのリッチなラベルに基づいて、強力なベースラインを持つ4つの新しいベンチマークを構築し、将来のモデル設計を動機付ける興味深い現象を観察します。
ソースコードとデータセットは"https://github.com/jingzhang617/cascaded_rgbd_sod"で入手できる。
関連論文リスト
- PointMBF: A Multi-scale Bidirectional Fusion Network for Unsupervised
RGB-D Point Cloud Registration [6.030097207369754]
本稿では,RGB画像と深度画像から生成された点雲との間に,マルチスケールの双方向融合を実現するネットワークを提案する。
提案手法は,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-08-09T08:13:46Z) - HiDAnet: RGB-D Salient Object Detection via Hierarchical Depth Awareness [2.341385717236931]
本稿では,RGB-Dサリエンシ検出のための階層的深度認識ネットワーク(HiDAnet)を提案する。
我々のモチベーションは、幾何学的先行の多粒性特性がニューラルネットワーク階層とよく相関しているという観察から来ています。
当社のHiDAnetは最先端の手法よりも大きなマージンで良好に動作します。
論文 参考訳(メタデータ) (2023-01-18T10:00:59Z) - Cross-modality Discrepant Interaction Network for RGB-D Salient Object
Detection [78.47767202232298]
本稿では,RGB-D SODのためのクロスモダリティ離散相互作用ネットワーク(CDINet)を提案する。
2つのコンポーネントは、効果的な相互モダリティ相互作用を実装するように設計されている。
我々のネットワークは、定量的にも質的にも15ドルの最先端の手法より優れています。
論文 参考訳(メタデータ) (2021-08-04T11:24:42Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z) - Bifurcated backbone strategy for RGB-D salient object detection [168.19708737906618]
我々は、RGB-Dの高次物体検出に固有のマルチモーダル・マルチレベルの性質を活用して、新しいカスケードリファインメントネットワークを考案する。
アーキテクチャは Bifurcated Backbone Strategy Network (BBS-Net) と呼ばれ、シンプルで効率的でバックボーンに依存しない。
論文 参考訳(メタデータ) (2020-07-06T13:01:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。