論文の概要: Instant Multi-View Head Capture through Learnable Registration
- arxiv url: http://arxiv.org/abs/2306.07437v1
- Date: Mon, 12 Jun 2023 21:45:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 15:37:51.700299
- Title: Instant Multi-View Head Capture through Learnable Registration
- Title(参考訳): 学習可能な登録による瞬時マルチビューヘッドキャプチャ
- Authors: Timo Bolkart and Tianye Li and Michael J. Black
- Abstract要約: 3次元頭部のデータセットを密接なセマンティック通信でキャプチャする既存の手法は遅い。
キャリブレーションされたマルチビュー画像から3Dヘッドを直接推定するためにTEMPEHを導入する。
1つの頭部の予測には0.3秒かかるが、中央値の復元誤差は0.26mmで、現在の最先端よりも64%低い。
- 参考スコア(独自算出の注目度): 62.70443641907766
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing methods for capturing datasets of 3D heads in dense semantic
correspondence are slow, and commonly address the problem in two separate
steps; multi-view stereo (MVS) reconstruction followed by non-rigid
registration. To simplify this process, we introduce TEMPEH (Towards Estimation
of 3D Meshes from Performances of Expressive Heads) to directly infer 3D heads
in dense correspondence from calibrated multi-view images. Registering datasets
of 3D scans typically requires manual parameter tuning to find the right
balance between accurately fitting the scans surfaces and being robust to
scanning noise and outliers. Instead, we propose to jointly register a 3D head
dataset while training TEMPEH. Specifically, during training we minimize a
geometric loss commonly used for surface registration, effectively leveraging
TEMPEH as a regularizer. Our multi-view head inference builds on a volumetric
feature representation that samples and fuses features from each view using
camera calibration information. To account for partial occlusions and a large
capture volume that enables head movements, we use view- and surface-aware
feature fusion, and a spatial transformer-based head localization module,
respectively. We use raw MVS scans as supervision during training, but, once
trained, TEMPEH directly predicts 3D heads in dense correspondence without
requiring scans. Predicting one head takes about 0.3 seconds with a median
reconstruction error of 0.26 mm, 64% lower than the current state-of-the-art.
This enables the efficient capture of large datasets containing multiple people
and diverse facial motions. Code, model, and data are publicly available at
https://tempeh.is.tue.mpg.de.
- Abstract(参考訳): 既存の3dヘッドのデータセットを密接なセマンティック対応でキャプチャする手法は遅く、マルチビューステレオ(mvs)の再構築と非リジッド登録という2つのステップで問題に対処するのが一般的である。
この処理を簡略化するために,キャリブレーションされたマルチビュー画像から3次元頭部を直接推定するTEMPEH(Towards Estimation of 3D Meshs from Performances of Expressive Heads)を導入する。
3dスキャンのデータセットを登録するには、通常、手動のパラメータチューニングが必要で、スキャン表面を正確に適合させ、ノイズや異常値のスキャンにロバストなバランスをとる必要がある。
代わりに、TEMPEHのトレーニング中に3Dヘッドデータセットを共同登録することを提案する。
具体的には、トレーニング中に表面登録によく使用される幾何学的損失を最小限に抑え、TEMPEHをレギュレータとして有効活用する。
我々のマルチビューヘッド推論は、カメラキャリブレーション情報を用いて各ビューから特徴をサンプリングし、融合するボリューム特徴表現に基づいている。
頭の動きを可能にする部分的咬合量と大きな捕獲容積を考慮し,視標と表面認識特徴融合と空間トランスフォーマティブを用いた頭部定位モジュールを用いた。
私たちは訓練中に生のmvsスキャンを監督として使用するが、一度訓練するとtempehはスキャンを必要とせず、密接な対応で直接3dヘッドを予測する。
1つの頭部の予測には0.3秒かかり、中央値の復元誤差は0.26mmで、現在の最先端よりも64%低い。
これにより、複数の人と多様な顔の動きを含む大規模なデータセットの効率的なキャプチャが可能になる。
コード、モデル、データはhttps://tempeh.is.tue.mpg.deで公開されている。
関連論文リスト
- GRAPE: Generalizable and Robust Multi-view Facial Capture [12.255610707737548]
ディープラーニングベースのマルチビュー顔キャプチャ手法は、従来のメッシュ登録パイプラインよりも数桁高速で、印象的な精度を示している。
本研究では,異なるカメラアレイ上での推論(すなわち,新しいデータをキャプチャする)に訓練されたモデルを容易に利用できるように,一般化能力を向上させることを目的とする。
FaMoSデータセットとFaceScapeデータセットの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-07-14T13:24:17Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - Implicit Shape and Appearance Priors for Few-Shot Full Head
Reconstruction [17.254539604491303]
本稿では,数発のフル3次元頭部再構成の問題点に対処する。
我々は、座標に基づく表現に先立って確率的形状と外観を組み込むことにより、これを達成した。
我々はH3DSデータセットを拡張し、60個の高解像度3Dフルヘッドスキャンと対応する画像とマスクを含む。
論文 参考訳(メタデータ) (2023-10-12T07:35:30Z) - Uni3D: A Unified Baseline for Multi-dataset 3D Object Detection [34.2238222373818]
現在の3Dオブジェクト検出モデルは、単一のデータセット固有のトレーニングとテストのパラダイムに従っている。
本稿では,複数のデータセットから統合された3次元検出器を訓練する作業について検討する。
単純なデータレベルの修正操作と設計された意味レベルの結合・再結合モジュールを利用するUni3Dを提案する。
論文 参考訳(メタデータ) (2023-03-13T05:54:13Z) - Shape My Face: Registering 3D Face Scans by Surface-to-Surface
Translation [75.59415852802958]
Shape-My-Face (SMF) は、改良されたポイントクラウドエンコーダ、新しい視覚的注意機構、スキップ接続付きグラフ畳み込みデコーダ、特殊口モデルに基づく強力なエンコーダデコーダアーキテクチャである。
私たちのモデルは、トポロジカルにサウンドメッシュを最小限の監視で提供し、より高速なトレーニング時間を提供し、訓練可能なパラメータを桁違いに減らし、ノイズに強く、以前は見られないデータセットに一般化することができます。
論文 参考訳(メタデータ) (2020-12-16T20:02:36Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z) - Monocular, One-stage, Regression of Multiple 3D People [105.3143785498094]
我々は、複数の3D人物(ROMP)のための1段階方式で全てのメッシュを回帰することを提案する。
本手法は,体温マップとメッシュマップを同時に予測し,画素レベルの3Dボディメッシュを共同で記述する。
最先端の手法と比較して、ROMPは挑戦的なマルチパーソンベンチマークよりも優れた性能を示した。
論文 参考訳(メタデータ) (2020-08-27T17:21:47Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。