論文の概要: DeepMultiCap: Performance Capture of Multiple Characters Using Sparse
Multiview Cameras
- arxiv url: http://arxiv.org/abs/2105.00261v1
- Date: Sat, 1 May 2021 14:32:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-04 14:04:33.355822
- Title: DeepMultiCap: Performance Capture of Multiple Characters Using Sparse
Multiview Cameras
- Title(参考訳): DeepMultiCap:スパースマルチビューカメラを用いた複数文字のパフォーマンスキャプチャ
- Authors: Yang Zheng, Ruizhi Shao, Yuxiang Zhang, Tao Yu, Zerong Zheng, Qionghai
Dai, Yebin Liu
- Abstract要約: deep multicapは、スパースマルチビューカメラを用いたマルチパーソンパフォーマンスキャプチャのための新しい手法である。
本手法では,事前走査型テンプレートモデルを用いることなく,時間変化した表面の詳細をキャプチャできる。
- 参考スコア(独自算出の注目度): 63.186486240525554
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose DeepMultiCap, a novel method for multi-person performance capture
using sparse multi-view cameras. Our method can capture time varying surface
details without the need of using pre-scanned template models. To tackle with
the serious occlusion challenge for close interacting scenes, we combine a
recently proposed pixel-aligned implicit function with parametric model for
robust reconstruction of the invisible surface areas. An effective
attention-aware module is designed to obtain the fine-grained geometry details
from multi-view images, where high-fidelity results can be generated. In
addition to the spatial attention method, for video inputs, we further propose
a novel temporal fusion method to alleviate the noise and temporal
inconsistencies for moving character reconstruction. For quantitative
evaluation, we contribute a high quality multi-person dataset, MultiHuman,
which consists of 150 static scenes with different levels of occlusions and
ground truth 3D human models. Experimental results demonstrate the
state-of-the-art performance of our method and the well generalization to real
multiview video data, which outperforms the prior works by a large margin.
- Abstract(参考訳): スパースマルチビューカメラを用いた複数対人パフォーマンスキャプチャのための新しい手法であるDeepMultiCapを提案する。
本手法では,事前走査型テンプレートモデルを用いることなく,時間変化した表面の詳細をキャプチャできる。
接近場面における重度の咬合問題に取り組むため,最近提案されている画素整合暗黙関数とパラメトリックモデルを組み合わせて,見えない表面領域の堅牢な再構成を行った。
高忠実度結果が生成される多視点画像から細かな幾何学的詳細を効果的に把握するモジュールを設計する。
映像入力のための空間的注意法に加えて,移動文字再構成のためのノイズや時間的不整合を緩和する新しい時間的融合法を提案する。
定量的評価のために,我々は150の静的シーンからなり,異なる咬合レベルと基底真理の3dモデルからなる,高品質なマルチパーソンデータセットであるmultihumanをコントリビュートする。
実験により,本手法の最先端性能と実写映像データへの十分に一般化が示され,従来よりも大きなマージンで性能が向上した。
関連論文リスト
- Pixel-Aligned Multi-View Generation with Depth Guided Decoder [86.1813201212539]
画素レベルの画像・マルチビュー生成のための新しい手法を提案する。
従来の作業とは異なり、潜伏映像拡散モデルのVAEデコーダにマルチビュー画像にアテンション層を組み込む。
本モデルにより,マルチビュー画像間の画素アライメントが向上する。
論文 参考訳(メタデータ) (2024-08-26T04:56:41Z) - MultiDiff: Consistent Novel View Synthesis from a Single Image [60.04215655745264]
MultiDiffは、単一のRGB画像からシーンを一貫した新しいビュー合成のための新しいアプローチである。
以上の結果から,MultiDiffは,課題の多いリアルタイムデータセットであるRealEstate10KとScanNetにおいて,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-26T17:53:51Z) - GenS: Generalizable Neural Surface Reconstruction from Multi-View Images [20.184657468900852]
GenSは、エンドツーエンドの一般化可能なニューラルサーフェス再構成モデルである。
我々の表現はより強力であり、グローバルな滑らかさを維持しながら高周波の詳細を回復することができる。
人気のあるベンチマーク実験により、我々のモデルは新たなシーンにうまく一般化できることが示された。
論文 参考訳(メタデータ) (2024-06-04T17:13:10Z) - Era3D: High-Resolution Multiview Diffusion using Efficient Row-wise Attention [87.02613021058484]
単一視点画像から高解像度のマルチビュー画像を生成する新しい多視点拡散法であるEra3Dを紹介する。
Era3Dは、最大512*512の解像度で高品質なマルチビュー画像を生成し、複雑さを12倍に削減する。
論文 参考訳(メタデータ) (2024-05-19T17:13:16Z) - Multi-Plane Neural Radiance Fields for Novel View Synthesis [5.478764356647437]
新しいビュー合成は、新しいカメラの視点からシーンのフレームを描画する、長年にわたる問題である。
本研究では, 単面多面体ニューラル放射場の性能, 一般化, 効率について検討する。
合成結果の改善と視聴範囲の拡大のために,複数のビューを受理する新しい多面体NeRFアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-03-03T06:32:55Z) - Neural Pixel Composition: 3D-4D View Synthesis from Multi-Views [12.386462516398469]
離散的な多視点観察のみを入力とする連続3D-4Dビュー合成のための新しい手法を提案する。
提案した定式化はスパースおよびワイドベースラインのマルチビュー画像に対して確実に動作する。
ハイレゾ(12MP)コンテンツに対して、数秒から10分以内に効率的にトレーニングすることができる。
論文 参考訳(メタデータ) (2022-07-21T17:58:02Z) - Neural Radiance Fields Approach to Deep Multi-View Photometric Stereo [103.08512487830669]
多視点測光ステレオ問題(MVPS)に対する現代的な解法を提案する。
我々は、光度ステレオ(PS)画像形成モデルを用いて表面配向を取得し、それを多視点のニューラルラディアンス場表現とブレンドして物体の表面形状を復元する。
本手法は,多視点画像のニューラルレンダリングを行い,深部光度ステレオネットワークによって推定される表面の正規性を活用している。
論文 参考訳(メタデータ) (2021-10-11T20:20:03Z) - End-to-end Multi-modal Video Temporal Grounding [105.36814858748285]
ビデオから補完情報を抽出するマルチモーダルフレームワークを提案する。
我々は、外見にRGB画像、運動に光学フロー、画像構造に深度マップを採用する。
本稿では、Charades-STAおよびActivityNet Captionsデータセットの実験を行い、提案手法が最先端のアプローチに対して好適に動作することを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。