論文の概要: Self-Supervised Representation Learning for RGB-D Salient Object
Detection
- arxiv url: http://arxiv.org/abs/2101.12482v1
- Date: Fri, 29 Jan 2021 09:16:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-01 12:57:06.854147
- Title: Self-Supervised Representation Learning for RGB-D Salient Object
Detection
- Title(参考訳): RGB-D定常物体検出のための自己監督表現学習
- Authors: Xiaoqi Zhao, Youwei Pang, Lihe Zhang, Huchuan Lu, Xiang Ruan
- Abstract要約: 我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
- 参考スコア(独自算出の注目度): 93.17479956795862
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing CNNs-Based RGB-D Salient Object Detection (SOD) networks are all
required to be pre-trained on the ImageNet to learn the hierarchy features
which can help to provide a good initialization. However, the collection and
annotation of large-scale datasets are time-consuming and expensive. In this
paper, we utilize Self-Supervised Representation Learning (SSL) to design two
pretext tasks: the cross-modal auto-encoder and the depth-contour estimation.
Our pretext tasks require only a few and unlabeled RGB-D datasets to perform
pre-training, which make the network capture rich semantic contexts as well as
reduce the gap between two modalities, thereby providing an effective
initialization for the downstream task. In addition, for the inherent problem
of cross-modal fusion in RGB-D SOD, we propose a multi-path fusion (MPF) module
that splits a single feature fusion into multi-path fusion to achieve an
adequate perception of consistent and differential information. The MPF module
is general and suitable for both cross-modal and cross-level feature fusion.
Extensive experiments on six benchmark RGB-D SOD datasets, our model
pre-trained on the RGB-D dataset ($6,335$ without any annotations) can perform
favorably against most state-of-the-art RGB-D methods pre-trained on ImageNet
($1,280,000$ with image-level annotations).
- Abstract(参考訳): 既存の CNN ベースの RGB-D Salient Object Detection (SOD) ネットワークは、全て ImageNet で事前トレーニングされ、優れた初期化を提供するのに役立つ階層機能を学ぶ必要がある。
しかし、大規模なデータセットの収集とアノテーションは時間がかかり、高価です。
本論文では,Self-Supervised Representation Learning (SSL) を用いて,クロスモーダルオートエンコーダと深度コントール推定の2つのプリテキストタスクを設計する。
我々のプレテキストタスクは、事前トレーニングを行うために少数のラベル付きRGB-Dデータセットのみを必要とするため、ネットワークがリッチなセマンティックコンテキストをキャプチャし、2つのモード間のギャップを減らし、ダウンストリームタスクに効果的な初期化を提供する。
また、RGB-D SODにおけるクロスモーダル融合の固有の問題として、単一の特徴融合をマルチパス融合に分割し、一貫性と差分情報の適切な認識を実現するマルチパス融合(MPF)モジュールを提案する。
MPFモジュールは汎用的で、クロスモーダルおよびクロスレベルな特徴融合に適している。
6つのベンチマークRGB-D SODデータセットに関する広範な実験、RGB-Dデータセットで事前トレーニングされたモデル(アノテーションなしで6,335$)は、ImageNetで事前トレーニングされた最先端のRGB-Dメソッド(画像レベルのアノテーションで1,280,000$)に対して有利に実行できます。
関連論文リスト
- PointMBF: A Multi-scale Bidirectional Fusion Network for Unsupervised
RGB-D Point Cloud Registration [6.030097207369754]
本稿では,RGB画像と深度画像から生成された点雲との間に,マルチスケールの双方向融合を実現するネットワークを提案する。
提案手法は,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-08-09T08:13:46Z) - CoMAE: Single Model Hybrid Pre-training on Small-Scale RGB-D Datasets [50.6643933702394]
本稿では,RGBと深度変調のための単一モデル自己教師型ハイブリッド事前学習フレームワークについて述べる。
我々のCoMAEは、コントラスト学習とマスク画像モデリングという2つの一般的な自己教師付き表現学習アルゴリズムを統合するためのカリキュラム学習戦略を提示している。
論文 参考訳(メタデータ) (2023-02-13T07:09:45Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - MTFNet: Mutual-Transformer Fusion Network for RGB-D Salient Object
Detection [15.371153771528093]
RGB-D SODのためのMTFNet(Mutual-Transformer Fusion Network)を提案する。
MTFNet には $i.e.$, Focal Feature Extractor (FFE) と Mutual-Transformer Fusion (MTF) という2つの主要なモジュールが含まれている。
6つの公開ベンチマークの総合的な実験結果から,提案したMTFNetの優位性を示す。
論文 参考訳(メタデータ) (2021-12-02T12:48:37Z) - RGB-D Saliency Detection via Cascaded Mutual Information Minimization [122.8879596830581]
既存のRGB-Dサリエンシ検出モデルは、RGBと深さを効果的にマルチモーダル学習を実現するために明示的に奨励するものではない。
本稿では,RGB画像と深度データ間のマルチモーダル情報を「明示的」にモデル化するために,相互情報最小化による新しい多段階学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-15T12:31:27Z) - Siamese Network for RGB-D Salient Object Detection and Beyond [113.30063105890041]
共有ネットワークバックボーンを通じてRGBと深度入力の両方から学習するための新しいフレームワークが提案されている。
5つの一般的な指標を用いた総合的な実験は、設計されたフレームワークが堅牢なRGB-D塩分濃度検出器をもたらすことを示している。
また、JL-DCFをRGB-Dセマンティックセマンティックセマンティクスフィールドにリンクし、いくつかのセマンティクスセマンティクスモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-08-26T06:01:05Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。