論文の概要: DeepMultiCap: Performance Capture of Multiple Characters Using Sparse
Multiview Cameras
- arxiv url: http://arxiv.org/abs/2105.00261v1
- Date: Sat, 1 May 2021 14:32:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-04 14:04:33.355822
- Title: DeepMultiCap: Performance Capture of Multiple Characters Using Sparse
Multiview Cameras
- Title(参考訳): DeepMultiCap:スパースマルチビューカメラを用いた複数文字のパフォーマンスキャプチャ
- Authors: Yang Zheng, Ruizhi Shao, Yuxiang Zhang, Tao Yu, Zerong Zheng, Qionghai
Dai, Yebin Liu
- Abstract要約: deep multicapは、スパースマルチビューカメラを用いたマルチパーソンパフォーマンスキャプチャのための新しい手法である。
本手法では,事前走査型テンプレートモデルを用いることなく,時間変化した表面の詳細をキャプチャできる。
- 参考スコア(独自算出の注目度): 63.186486240525554
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose DeepMultiCap, a novel method for multi-person performance capture
using sparse multi-view cameras. Our method can capture time varying surface
details without the need of using pre-scanned template models. To tackle with
the serious occlusion challenge for close interacting scenes, we combine a
recently proposed pixel-aligned implicit function with parametric model for
robust reconstruction of the invisible surface areas. An effective
attention-aware module is designed to obtain the fine-grained geometry details
from multi-view images, where high-fidelity results can be generated. In
addition to the spatial attention method, for video inputs, we further propose
a novel temporal fusion method to alleviate the noise and temporal
inconsistencies for moving character reconstruction. For quantitative
evaluation, we contribute a high quality multi-person dataset, MultiHuman,
which consists of 150 static scenes with different levels of occlusions and
ground truth 3D human models. Experimental results demonstrate the
state-of-the-art performance of our method and the well generalization to real
multiview video data, which outperforms the prior works by a large margin.
- Abstract(参考訳): スパースマルチビューカメラを用いた複数対人パフォーマンスキャプチャのための新しい手法であるDeepMultiCapを提案する。
本手法では,事前走査型テンプレートモデルを用いることなく,時間変化した表面の詳細をキャプチャできる。
接近場面における重度の咬合問題に取り組むため,最近提案されている画素整合暗黙関数とパラメトリックモデルを組み合わせて,見えない表面領域の堅牢な再構成を行った。
高忠実度結果が生成される多視点画像から細かな幾何学的詳細を効果的に把握するモジュールを設計する。
映像入力のための空間的注意法に加えて,移動文字再構成のためのノイズや時間的不整合を緩和する新しい時間的融合法を提案する。
定量的評価のために,我々は150の静的シーンからなり,異なる咬合レベルと基底真理の3dモデルからなる,高品質なマルチパーソンデータセットであるmultihumanをコントリビュートする。
実験により,本手法の最先端性能と実写映像データへの十分に一般化が示され,従来よりも大きなマージンで性能が向上した。
関連論文リスト
- Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object
Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。
提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。
本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文 参考訳(メタデータ) (2023-12-24T08:42:37Z) - Learning Robust Multi-Scale Representation for Neural Radiance Fields
from Unposed Images [65.41966114373373]
コンピュータビジョンにおけるニューラルイメージベースのレンダリング問題に対する改善された解決策を提案する。
提案手法は,テスト時に新たな視点からシーンのリアルなイメージを合成することができる。
論文 参考訳(メタデータ) (2023-11-08T08:18:23Z) - Preface: A Data-driven Volumetric Prior for Few-shot Ultra
High-resolution Face Synthesis [0.0]
NeRFは、複雑な外観や毛髪と皮膚の反射効果を含む、人間の顔の非常に現実的な合成を可能にした。
本稿では,前者のトレーニング分布の一部ではない被験者の超高解像度な新しい視点の合成を可能にする,新しいヒューマン・フェイス・プレファレンスを提案する。
論文 参考訳(メタデータ) (2023-09-28T21:21:44Z) - Multi-Plane Neural Radiance Fields for Novel View Synthesis [5.478764356647437]
新しいビュー合成は、新しいカメラの視点からシーンのフレームを描画する、長年にわたる問題である。
本研究では, 単面多面体ニューラル放射場の性能, 一般化, 効率について検討する。
合成結果の改善と視聴範囲の拡大のために,複数のビューを受理する新しい多面体NeRFアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-03-03T06:32:55Z) - Scatter Points in Space: 3D Detection from Multi-view Monocular Images [8.71944437852952]
単眼画像からの3次元物体検出は,コンピュータビジョンの課題であり,長年の課題である。
近年の手法では, 空間に密集した正規3次元格子をサンプリングすることにより, マルチビュー特性を集約する傾向にある。
そこで本研究では,データ空間に擬似曲面点を散布し,データの分散性を維持するための学習可能なキーポイントサンプリング手法を提案する。
論文 参考訳(メタデータ) (2022-08-31T09:38:05Z) - Neural Pixel Composition: 3D-4D View Synthesis from Multi-Views [12.386462516398469]
離散的な多視点観察のみを入力とする連続3D-4Dビュー合成のための新しい手法を提案する。
提案した定式化はスパースおよびワイドベースラインのマルチビュー画像に対して確実に動作する。
ハイレゾ(12MP)コンテンツに対して、数秒から10分以内に効率的にトレーニングすることができる。
論文 参考訳(メタデータ) (2022-07-21T17:58:02Z) - Detailed Facial Geometry Recovery from Multi-view Images by Learning an
Implicit Function [12.522283941978722]
約10秒で高精細な3次元顔を復元する新しいアーキテクチャを提案する。
マルチビュー画像から3次元形態素モデルを取り付けることで、複数の画像の特徴を抽出し、メッシュ付きUV空間に集約する。
提案手法は,FaceScape データセットにおいて,SOTA 学習に基づく MVS の精度を高いマージンで向上させる。
論文 参考訳(メタデータ) (2022-01-04T07:24:58Z) - Direct Multi-view Multi-person 3D Pose Estimation [138.48139701871213]
マルチビュー画像からマルチパーソン3Dポーズを推定するためのMulti-view Pose Transformer(MvP)を提案する。
MvPは、中間タスクに頼ることなく、複数の人物の3Dポーズを直接クリーンで効率的な方法で回帰する。
我々は,MvPモデルがより効率的でありながら,いくつかのベンチマークにおいて最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-07T13:09:20Z) - Neural Radiance Fields Approach to Deep Multi-View Photometric Stereo [103.08512487830669]
多視点測光ステレオ問題(MVPS)に対する現代的な解法を提案する。
我々は、光度ステレオ(PS)画像形成モデルを用いて表面配向を取得し、それを多視点のニューラルラディアンス場表現とブレンドして物体の表面形状を復元する。
本手法は,多視点画像のニューラルレンダリングを行い,深部光度ステレオネットワークによって推定される表面の正規性を活用している。
論文 参考訳(メタデータ) (2021-10-11T20:20:03Z) - End-to-end Multi-modal Video Temporal Grounding [105.36814858748285]
ビデオから補完情報を抽出するマルチモーダルフレームワークを提案する。
我々は、外見にRGB画像、運動に光学フロー、画像構造に深度マップを採用する。
本稿では、Charades-STAおよびActivityNet Captionsデータセットの実験を行い、提案手法が最先端のアプローチに対して好適に動作することを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。