Fugu-MT 論文翻訳(概要): DeepMultiCap: Performance Capture of Multiple Characters Using Sparse Multiview Cameras

論文の概要: DeepMultiCap: Performance Capture of Multiple Characters Using Sparse Multiview Cameras

arxiv url: http://arxiv.org/abs/2105.00261v1
Date: Sat, 1 May 2021 14:32:13 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-04 14:04:33.355822
Title: DeepMultiCap: Performance Capture of Multiple Characters Using Sparse Multiview Cameras
Title（参考訳）: DeepMultiCap:スパースマルチビューカメラを用いた複数文字のパフォーマンスキャプチャ
Authors: Yang Zheng, Ruizhi Shao, Yuxiang Zhang, Tao Yu, Zerong Zheng, Qionghai Dai, Yebin Liu
Abstract要約: deep multicapは、スパースマルチビューカメラを用いたマルチパーソンパフォーマンスキャプチャのための新しい手法である。本手法では,事前走査型テンプレートモデルを用いることなく,時間変化した表面の詳細をキャプチャできる。
参考スコア（独自算出の注目度）: 63.186486240525554
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose DeepMultiCap, a novel method for multi-person performance capture using sparse multi-view cameras. Our method can capture time varying surface details without the need of using pre-scanned template models. To tackle with the serious occlusion challenge for close interacting scenes, we combine a recently proposed pixel-aligned implicit function with parametric model for robust reconstruction of the invisible surface areas. An effective attention-aware module is designed to obtain the fine-grained geometry details from multi-view images, where high-fidelity results can be generated. In addition to the spatial attention method, for video inputs, we further propose a novel temporal fusion method to alleviate the noise and temporal inconsistencies for moving character reconstruction. For quantitative evaluation, we contribute a high quality multi-person dataset, MultiHuman, which consists of 150 static scenes with different levels of occlusions and ground truth 3D human models. Experimental results demonstrate the state-of-the-art performance of our method and the well generalization to real multiview video data, which outperforms the prior works by a large margin.
Abstract（参考訳）: スパースマルチビューカメラを用いた複数対人パフォーマンスキャプチャのための新しい手法であるDeepMultiCapを提案する。本手法では,事前走査型テンプレートモデルを用いることなく,時間変化した表面の詳細をキャプチャできる。接近場面における重度の咬合問題に取り組むため,最近提案されている画素整合暗黙関数とパラメトリックモデルを組み合わせて,見えない表面領域の堅牢な再構成を行った。高忠実度結果が生成される多視点画像から細かな幾何学的詳細を効果的に把握するモジュールを設計する。映像入力のための空間的注意法に加えて,移動文字再構成のためのノイズや時間的不整合を緩和する新しい時間的融合法を提案する。定量的評価のために,我々は150の静的シーンからなり,異なる咬合レベルと基底真理の3dモデルからなる,高品質なマルチパーソンデータセットであるmultihumanをコントリビュートする。実験により,本手法の最先端性能と実写映像データへの十分に一般化が示され,従来よりも大きなマージンで性能が向上した。

関連論文リスト

Zero-Shot Novel View and Depth Synthesis with Multi-View Geometric Diffusion [27.836518920611557]
本稿では,新しい視点から画像や深度マップを直接生成できる拡散型アーキテクチャMVGDを紹介する。このモデルは、公開データセットから6000万以上のマルチビューサンプルを収集した上でトレーニングします。複数の新しいビュー合成ベンチマーク、マルチビューステレオおよびビデオ深度推定における最先端結果について報告する。
論文参考訳（メタデータ） (2025-01-30T23:43:06Z)
Pixel-Aligned Multi-View Generation with Depth Guided Decoder [86.1813201212539]
画素レベルの画像・マルチビュー生成のための新しい手法を提案する。従来の作業とは異なり、潜伏映像拡散モデルのVAEデコーダにマルチビュー画像にアテンション層を組み込む。本モデルにより,マルチビュー画像間の画素アライメントが向上する。
論文参考訳（メタデータ） (2024-08-26T04:56:41Z)
MultiDiff: Consistent Novel View Synthesis from a Single Image [60.04215655745264]
MultiDiffは、単一のRGB画像からシーンを一貫した新しいビュー合成のための新しいアプローチである。以上の結果から,MultiDiffは,課題の多いリアルタイムデータセットであるRealEstate10KとScanNetにおいて,最先端の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-06-26T17:53:51Z)
GenS: Generalizable Neural Surface Reconstruction from Multi-View Images [20.184657468900852]
GenSは、エンドツーエンドの一般化可能なニューラルサーフェス再構成モデルである。我々の表現はより強力であり、グローバルな滑らかさを維持しながら高周波の詳細を回復することができる。人気のあるベンチマーク実験により、我々のモデルは新たなシーンにうまく一般化できることが示された。
論文参考訳（メタデータ） (2024-06-04T17:13:10Z)
Era3D: High-Resolution Multiview Diffusion using Efficient Row-wise Attention [87.02613021058484]
単一視点画像から高解像度のマルチビュー画像を生成する新しい多視点拡散法であるEra3Dを紹介する。 Era3Dは、最大512*512の解像度で高品質なマルチビュー画像を生成し、複雑さを12倍に削減する。
論文参考訳（メタデータ） (2024-05-19T17:13:16Z)
Multi-Plane Neural Radiance Fields for Novel View Synthesis [5.478764356647437]
新しいビュー合成は、新しいカメラの視点からシーンのフレームを描画する、長年にわたる問題である。本研究では, 単面多面体ニューラル放射場の性能, 一般化, 効率について検討する。合成結果の改善と視聴範囲の拡大のために,複数のビューを受理する新しい多面体NeRFアーキテクチャを提案する。
論文参考訳（メタデータ） (2023-03-03T06:32:55Z)
Neural Pixel Composition: 3D-4D View Synthesis from Multi-Views [12.386462516398469]
離散的な多視点観察のみを入力とする連続3D-4Dビュー合成のための新しい手法を提案する。提案した定式化はスパースおよびワイドベースラインのマルチビュー画像に対して確実に動作する。ハイレゾ(12MP)コンテンツに対して、数秒から10分以内に効率的にトレーニングすることができる。
論文参考訳（メタデータ） (2022-07-21T17:58:02Z)
Neural Radiance Fields Approach to Deep Multi-View Photometric Stereo [103.08512487830669]
多視点測光ステレオ問題(MVPS)に対する現代的な解法を提案する。我々は、光度ステレオ(PS)画像形成モデルを用いて表面配向を取得し、それを多視点のニューラルラディアンス場表現とブレンドして物体の表面形状を復元する。本手法は,多視点画像のニューラルレンダリングを行い,深部光度ステレオネットワークによって推定される表面の正規性を活用している。
論文参考訳（メタデータ） (2021-10-11T20:20:03Z)
End-to-end Multi-modal Video Temporal Grounding [105.36814858748285]
ビデオから補完情報を抽出するマルチモーダルフレームワークを提案する。我々は、外見にRGB画像、運動に光学フロー、画像構造に深度マップを採用する。本稿では、Charades-STAおよびActivityNet Captionsデータセットの実験を行い、提案手法が最先端のアプローチに対して好適に動作することを示す。
論文参考訳（メタデータ） (2021-07-12T17:58:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。