論文の概要: P4Contrast: Contrastive Learning with Pairs of Point-Pixel Pairs for
RGB-D Scene Understanding
- arxiv url: http://arxiv.org/abs/2012.13089v1
- Date: Thu, 24 Dec 2020 04:00:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-25 08:17:55.591376
- Title: P4Contrast: Contrastive Learning with Pairs of Point-Pixel Pairs for
RGB-D Scene Understanding
- Title(参考訳): P4コントラスト:RGB-Dシーン理解のための点線対向学習
- Authors: Yunze Liu, Li Yi, Shanghang Zhang, Qingnan Fan, Thomas Funkhouser, Hao
Dong
- Abstract要約: 本論文では, RGB-D 点の対を正に含み, 負が2つのモダリティのいずれかが乱れた対を含む, 対照的な「点-ピクセル対の対」を提案する。
これにより、ハードネガティブのさらなる柔軟性が提供され、ネットワークは両方のモダリティから機能を学ぶことができます。
- 参考スコア(独自算出の注目度): 24.93545970229774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised representation learning is a critical problem in computer
vision, as it provides a way to pretrain feature extractors on large unlabeled
datasets that can be used as an initialization for more efficient and effective
training on downstream tasks. A promising approach is to use contrastive
learning to learn a latent space where features are close for similar data
samples and far apart for dissimilar ones. This approach has demonstrated
tremendous success for pretraining both image and point cloud feature
extractors, but it has been barely investigated for multi-modal RGB-D scans,
especially with the goal of facilitating high-level scene understanding. To
solve this problem, we propose contrasting "pairs of point-pixel pairs", where
positives include pairs of RGB-D points in correspondence, and negatives
include pairs where one of the two modalities has been disturbed and/or the two
RGB-D points are not in correspondence. This provides extra flexibility in
making hard negatives and helps networks to learn features from both
modalities, not just the more discriminating one of the two. Experiments show
that this proposed approach yields better performance on three large-scale
RGB-D scene understanding benchmarks (ScanNet, SUN RGB-D, and 3RScan) than
previous pretraining approaches.
- Abstract(参考訳): 自己教師付き表現学習はコンピュータビジョンにおいて重要な問題であり、下流タスクのより効率的で効果的なトレーニングの初期化として使用できる、大きなラベルのないデータセットで特徴抽出器を事前訓練する手段を提供する。
有望なアプローチは、対照的な学習を使って、類似したデータサンプルに近づき、異種データには遠く離れている潜在空間を学習することだ。
このアプローチは、画像と点雲の特徴抽出器の両方を事前訓練する上で大きな成功を収めてきたが、特に高レベルシーン理解の促進を目的としたマルチモーダルRGB-Dスキャンでは、ほとんど研究されていない。
そこで本研究では, 正の対にrgb-d点が対応し, 負の対に2つの相同性が乱れ, または2つのrgb-d点が対応しない対を含む「点-画素対のペア」を提案する。
これにより、ハードネガティブ化の柔軟性が増し、ネットワークが両方のモダリティから機能を学ぶのに役立ちます。
実験により,提案手法は従来の事前学習手法よりも3つの大規模RGB-Dシーン理解ベンチマーク(ScanNet, SUN RGB-D, 3RScan)の方が優れた性能を示した。
関連論文リスト
- Confidence-Aware RGB-D Face Recognition via Virtual Depth Synthesis [50.686770592256345]
2D顔認証は、照明、閉塞、ポーズの変化により、制約のない環境において課題に遭遇する。
近年の研究では、深度情報を組み込んだRGB-D顔認証に焦点が当てられている。
本研究では,まず,深度モデル事前学習のための3次元Morphable Modelsによって生成された多様な深度データセットを構築する。
そこで本研究では,手軽に利用できるRGBと深度モデルを利用したドメイン非依存の事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-11T09:12:24Z) - PointMBF: A Multi-scale Bidirectional Fusion Network for Unsupervised
RGB-D Point Cloud Registration [6.030097207369754]
本稿では,RGB画像と深度画像から生成された点雲との間に,マルチスケールの双方向融合を実現するネットワークを提案する。
提案手法は,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-08-09T08:13:46Z) - Masked Scene Contrast: A Scalable Framework for Unsupervised 3D
Representation Learning [37.155772047656114]
Masked Scene Contrast (MSC)フレームワークは、より効率的かつ効果的に包括的な3D表現を抽出することができる。
MSCはまた、複数のデータセットにわたる大規模な3D事前トレーニングを可能にする。
論文 参考訳(メタデータ) (2023-03-24T17:59:58Z) - DPODv2: Dense Correspondence-Based 6 DoF Pose Estimation [24.770767430749288]
DPODv2(Dense Pose Object Detector)と呼ばれる3ステージ6DoFオブジェクト検出手法を提案する。
本研究では,2次元物体検出器と高密度対応推定ネットワークを組み合わせることで,フル6DFのポーズを推定する多視点ポーズ補正手法を提案する。
DPODv2は、使用済みのデータモダリティとトレーニングデータの種類によらず、高速でスケーラブルなまま、すべてのデータに対して優れた結果を得る。
論文 参考訳(メタデータ) (2022-07-06T16:48:56Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Feature-Supervised Action Modality Transfer [35.550525307238146]
本稿では,ビデオモダリティにおける動作認識と検出を,限定されたモダリティ指定のラベル付き例のみに限定して行おうとする。
RGBや派生した光フローでは、多数の大規模ラベル付きデータセットが利用可能である。
論文 参考訳(メタデータ) (2021-08-06T22:59:10Z) - Perception-aware Multi-sensor Fusion for 3D LiDAR Semantic Segmentation [59.42262859654698]
3Dセマンティックセグメンテーションは、自動運転やロボット工学など、多くのアプリケーションにおいてシーン理解において重要である。
既存の融合法は、2つのモードの差が大きいため、有望な性能を達成できない。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z) - Accurate RGB-D Salient Object Detection via Collaborative Learning [101.82654054191443]
RGB-Dサリエンシ検出は、いくつかの課題シナリオにおいて素晴らしい能力を示している。
本稿では,エッジ,深度,塩分濃度をより効率的に活用する新しい協調学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-23T04:33:36Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。