論文の概要: DGGAN: Depth-image Guided Generative Adversarial Networks for
Disentangling RGB and Depth Images in 3D Hand Pose Estimation
- arxiv url: http://arxiv.org/abs/2012.03197v1
- Date: Sun, 6 Dec 2020 07:23:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-22 07:43:00.027721
- Title: DGGAN: Depth-image Guided Generative Adversarial Networks for
Disentangling RGB and Depth Images in 3D Hand Pose Estimation
- Title(参考訳): DGGAN:3次元ハンドポース推定におけるRGBと深度画像の遠方化のための深度画像誘導型生成逆数ネットワーク
- Authors: Liangjian Chen, Shih-Yao Lin, Yusheng Xie, Yen-Yu Lin, Wei Fan, and
Xiaohui Xie
- Abstract要約: RGB画像から3Dハンドポーズを推定することは、広範囲の潜在的な応用に不可欠であるが、RGB画像からの深部情報の推測においてかなりの曖昧さのために困難である。
本稿では,DGGAN(Depth-image Guided GAN)と呼ばれる条件付き生成対向ネットワーク(GAN)モデルを提案する。
DGGANにより合成された深度マップは, 目的推定モデルの正規化に極めて有効であることを示す。
- 参考スコア(独自算出の注目度): 33.23818997206978
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Estimating3D hand poses from RGB images is essentialto a wide range of
potential applications, but is challengingowing to substantial ambiguity in the
inference of depth in-formation from RGB images. State-of-the-art estimators
ad-dress this problem by regularizing3D hand pose estimationmodels during
training to enforce the consistency betweenthe predicted3D poses and the
ground-truth depth maps.However, these estimators rely on both RGB images and
thepaired depth maps during training. In this study, we proposea conditional
generative adversarial network (GAN) model,called Depth-image Guided GAN
(DGGAN), to generate re-alistic depth maps conditioned on the input RGB image,
anduse the synthesized depth maps to regularize the3D handpose estimation
model, therefore eliminating the need forground-truth depth maps. Experimental
results on multiplebenchmark datasets show that the synthesized depth
mapsproduced by DGGAN are quite effective in regularizing thepose estimation
model, yielding new state-of-the-art resultsin estimation accuracy, notably
reducing the mean3D end-point errors (EPE) by4.7%,16.5%, and6.8%on the RHD,STB
and MHP datasets, respectively.
- Abstract(参考訳): RGB画像からの3Dハンドポーズの推定は、広範囲の潜在的な応用に不可欠であるが、RGB画像からの深度インフォームの推測においてかなりの曖昧さのために困難である。
予測された3Dポーズと地上深度マップの整合性を強制するため、3Dハンドポーズ推定モデルを正規化することで、最先端の推定者がこの問題に対処する。
本研究では,DGGAN(Depth-image Guided GAN)と呼ばれる条件付き生成逆数ネットワークモデルを提案し,入力されたRGB画像に条件付き再帰的深度マップを生成し,合成した深度マップを用いて3次元手動推定モデルを正規化することにより,地平線深度マップの必要性を解消する。
多重ベンチマークデータセットを用いた実験結果から、DGGANが生成した合成深度マップは、それぞれRHD、STB、MHPデータセットにおいて、平均3D終点誤差(EPE)を4.7%、16.5%、および6.8%減らすことで、目的推定モデルの正規化に極めて効果的であることが示された。
関連論文リスト
- Towards Human-Level 3D Relative Pose Estimation: Generalizable, Training-Free, with Single Reference [62.99706119370521]
人間は、単一のクエリ参照イメージペアのみを与えられたラベル/トレーニングなしで、目に見えないオブジェクトの相対的なポーズを容易に推論することができる。
そこで,本研究では,RGB-D参照から2.5D形状のRGB-D参照,オフザシェルフ微分可能なRGB-D参照,DINOv2のような事前学習モデルからのセマンティックキューを用いた3D一般化可能な相対ポーズ推定手法を提案する。
論文 参考訳(メタデータ) (2024-06-26T16:01:10Z) - Improving 2D-3D Dense Correspondences with Diffusion Models for 6D
Object Pose Estimation [9.760487761422326]
RGB画像と3D空間の2D-3D対応性の推定は、6Dオブジェクトのポーズ推定における根本的な問題である。
近年のポーズ推定では、高密度対応マップとポイント・ツー・ポイントアルゴリズムを用いてオブジェクトのポーズを推定している。
画像から画像への変換の最近の進歩は、ベンチマークデータセットで評価した場合、拡散モデルの方が優れた選択となっている。
論文 参考訳(メタデータ) (2024-02-09T14:27:40Z) - FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - 3D Neural Embedding Likelihood: Probabilistic Inverse Graphics for
Robust 6D Pose Estimation [50.15926681475939]
逆グラフィックスは2次元画像から3次元シーン構造を推論することを目的としている。
確率モデルを導入し,不確実性を定量化し,6次元ポーズ推定タスクにおけるロバスト性を実現する。
3DNELは、RGBから学んだニューラルネットワークの埋め込みと深度情報を組み合わせることで、RGB-D画像からのsim-to-real 6Dオブジェクトのポーズ推定の堅牢性を向上させる。
論文 参考訳(メタデータ) (2023-02-07T20:48:35Z) - Boosting Monocular 3D Object Detection with Object-Centric Auxiliary
Depth Supervision [13.593246617391266]
本稿では,RGB画像に基づく3D検出器を,深度推定タスクに類似した深度予測損失で共同でトレーニングすることにより,RGB画像に基づく3D検出器の強化手法を提案する。
新たな物体中心深度予測損失は,3次元物体検出において重要な前景物体周辺の深度に焦点をあてる。
我々の深度回帰モデルは、物体の3次元信頼度を表すために、深度の不確かさを予測するためにさらに訓練される。
論文 参考訳(メタデータ) (2022-10-29T11:32:28Z) - DPODv2: Dense Correspondence-Based 6 DoF Pose Estimation [24.770767430749288]
DPODv2(Dense Pose Object Detector)と呼ばれる3ステージ6DoFオブジェクト検出手法を提案する。
本研究では,2次元物体検出器と高密度対応推定ネットワークを組み合わせることで,フル6DFのポーズを推定する多視点ポーズ補正手法を提案する。
DPODv2は、使用済みのデータモダリティとトレーニングデータの種類によらず、高速でスケーラブルなまま、すべてのデータに対して優れた結果を得る。
論文 参考訳(メタデータ) (2022-07-06T16:48:56Z) - Semi-Perspective Decoupled Heatmaps for 3D Robot Pose Estimation from
Depth Maps [66.24554680709417]
協調環境における労働者とロボットの正確な3D位置を知ることは、いくつかの実際のアプリケーションを可能にする。
本研究では、深度デバイスと深度ニューラルネットワークに基づく非侵襲的なフレームワークを提案し、外部カメラからロボットの3次元ポーズを推定する。
論文 参考訳(メタデータ) (2022-07-06T08:52:12Z) - TriHorn-Net: A Model for Accurate Depth-Based 3D Hand Pose Estimation [8.946655323517092]
TriHorn-Netは、ディープイメージのポーズ推定精度を改善するために、特定のイノベーションを使用する新しいモデルである。
第1の革新は、深度画像空間における2次元関節位置推定への3次元手ポーズ推定の分解である。
第2のイノベーションはPixDropoutで、私たちの知る限り、手深度画像のための最初の外見に基づくデータ拡張手法です。
論文 参考訳(メタデータ) (2022-06-14T19:08:42Z) - Weakly-Supervised Monocular Depth Estimationwith Resolution-Mismatched
Data [73.9872931307401]
単眼深度推定ネットワークをトレーニングするための弱教師付きフレームワークを提案する。
提案フレームワークは, 共有重量単分子深度推定ネットワークと蒸留用深度再構成ネットワークから構成される。
実験結果から,本手法は教師なし・半教師付き学習ベース方式よりも優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2021-09-23T18:04:12Z) - VR3Dense: Voxel Representation Learning for 3D Object Detection and
Monocular Dense Depth Reconstruction [0.951828574518325]
3次元物体検出と単眼深層再構成ニューラルネットワークを共同トレーニングする方法を紹介します。
推論中に入力、LiDARポイントクラウド、単一のRGBイメージとして取得し、オブジェクトポーズ予測と密に再構築された深度マップを生成します。
物体検出は教師付き方式で訓練されるが,自己教師型と教師型の両方の損失関数を用いて深度予測ネットワークを訓練する。
論文 参考訳(メタデータ) (2021-04-13T04:25:54Z) - 3D Dense Geometry-Guided Facial Expression Synthesis by Adversarial
Learning [54.24887282693925]
本稿では,3次元密度(深度,表面正規度)情報を表現操作に用いる新しいフレームワークを提案する。
既製の最先端3D再構成モデルを用いて深度を推定し,大規模RGB-Depthデータセットを作成する。
実験により,提案手法は競争ベースラインと既存の芸術を大きなマージンで上回ることを示した。
論文 参考訳(メタデータ) (2020-09-30T17:12:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。