論文の概要: Detecting Humans in RGB-D Data with CNNs
- arxiv url: http://arxiv.org/abs/2207.08064v1
- Date: Sun, 17 Jul 2022 03:17:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-19 16:37:23.455332
- Title: Detecting Humans in RGB-D Data with CNNs
- Title(参考訳): CNNを用いたRGB-Dデータ中の人間検出
- Authors: Kaiyang Zhou, Adeline Paiement, Majid Mirmehdi
- Abstract要約: 深度画像の特徴に基づく新しい融合手法を提案する。
また、3つのチャネルに深度画像をエンコードするだけでなく、分類のための情報も強化する新しい深度符号化方式を提案する。
- 参考スコア(独自算出の注目度): 14.283154024458739
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address the problem of people detection in RGB-D data where we leverage
depth information to develop a region-of-interest (ROI) selection method that
provides proposals to two color and depth CNNs. To combine the detections
produced by the two CNNs, we propose a novel fusion approach based on the
characteristics of depth images. We also present a new depth-encoding scheme,
which not only encodes depth images into three channels but also enhances the
information for classification. We conduct experiments on a publicly available
RGB-D people dataset and show that our approach outperforms the baseline models
that only use RGB data.
- Abstract(参考訳): 深度情報を活用するRGB-Dデータにおける人物検出の問題に対処し,2つの色と深度CNNに対して提案する関心領域選択法を開発した。
2つのcnnによる検出を組み合わせるために,深度画像の特性に基づく新しい融合手法を提案する。
また、3つのチャネルに深度画像をエンコードするだけでなく、分類のための情報も強化する新しい深度符号化方式を提案する。
公開可能なRGB-Dピープルデータセットで実験を行い、RGBデータのみを使用するベースラインモデルよりも優れていることを示す。
関連論文リスト
- Depth-based Privileged Information for Boosting 3D Human Pose Estimation on RGB [48.31210455404533]
ヒートマップに基づく3Dポーズ推定器は、推定時に与えられるRGBフレームから深度情報を幻覚することができる。
深度情報は、RGBベースの幻覚ネットワークを強制して、深度データのみに基づいて事前訓練されたバックボーンに類似した特徴を学習することによって、トレーニング中にのみ使用される。
論文 参考訳(メタデータ) (2024-09-17T11:59:34Z) - DFormer: Rethinking RGBD Representation Learning for Semantic
Segmentation [76.81628995237058]
DFormerは、RGB-Dセグメンテーションタスクの転送可能な表現を学ぶための新しいフレームワークである。
ImageNet-1Kから画像深度ペアを使用してバックボーンを事前トレーニングする。
DFormerは2つのRGB-Dタスクで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-09-18T11:09:11Z) - PointMBF: A Multi-scale Bidirectional Fusion Network for Unsupervised
RGB-D Point Cloud Registration [6.030097207369754]
本稿では,RGB画像と深度画像から生成された点雲との間に,マルチスケールの双方向融合を実現するネットワークを提案する。
提案手法は,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-08-09T08:13:46Z) - Depth-Adapted CNNs for RGB-D Semantic Segmentation [2.341385717236931]
我々は、RGB畳み込みニューラルネットワーク(CNN)に深度情報を組み込む新しい枠組みを提案する。
具体的には、Z-ACNは2次元奥行き適応オフセットを生成し、RGB画像の特徴抽出を誘導する低レベル特徴に完全に制約される。
生成されたオフセットでは、基本的なCNN演算子を置き換えるために、2つの直感的で効果的な操作を導入する。
論文 参考訳(メタデータ) (2022-06-08T14:59:40Z) - Boosting RGB-D Saliency Detection by Leveraging Unlabeled RGB Images [89.81919625224103]
RGB-D Salient Object Detection (SOD) のための深層モデルの訓練は、しばしば多数のラベル付きRGB-D画像を必要とする。
本稿では、ラベルのないRGB画像を活用するために、Dual-Semi RGB-D Salient Object Detection Network (DS-Net)を提案する。
論文 参考訳(メタデータ) (2022-01-01T03:02:27Z) - Refer-it-in-RGBD: A Bottom-up Approach for 3D Visual Grounding in RGBD
Images [69.5662419067878]
RGBD画像における接地参照表現は新たな分野である。
本稿では,参照する物体が閉塞により部分的にスキャンされる場合が多い単視点rgbd画像における3次元視覚グランド化の新たな課題を提案する。
提案手法はまず,RGBD画像内の関連領域をローカライズするヒートマップを生成するために,下層の言語と視覚的特徴を融合させる。
次に、ヒートマップに基づく適応的特徴学習を行い、他のビジオ言語融合とオブジェクトレベルのマッチングを行い、最後に参照したオブジェクトを接地する。
論文 参考訳(メタデータ) (2021-03-14T11:18:50Z) - Learning Selective Mutual Attention and Contrast for RGB-D Saliency
Detection [145.4919781325014]
クロスモーダル情報を効果的に融合する方法は、RGB-Dの有能な物体検出の鍵となる問題である。
多くのモデルは特徴融合戦略を用いるが、低次点対点融合法によって制限されている。
本研究では,異なるモダリティから注目とコンテキストを融合させることにより,新たな相互注意モデルを提案する。
論文 参考訳(メタデータ) (2020-10-12T08:50:10Z) - Depth-Adapted CNN for RGB-D cameras [0.3727773051465455]
従来の2次元畳み込みニューラルネットワーク(CNN)は線形フィルタを適用して入力画像から特徴を抽出する。
我々は,RGB-Dカメラの奥行き情報を用いて,従来のRGB CNN手法の改善に取り組み,その課題を解決した。
本稿では,CNNアーキテクチャにおける測光情報と幾何情報の両方を記述するための,新規で汎用的な手順を提案する。
論文 参考訳(メタデータ) (2020-09-21T15:58:32Z) - Is Depth Really Necessary for Salient Object Detection? [50.10888549190576]
本稿では,RGB情報のみを推論の入力とする統合深度認識フレームワークの実現に向けた最初の試みを行う。
5つの公開RGB SODベンチマークの最先端のパフォーマンスを上回るだけでなく、5つのベンチマークのRGBDベースのメソッドを大きく上回っている。
論文 参考訳(メタデータ) (2020-05-30T13:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。