論文の概要: Holoported Characters: Real-time Free-viewpoint Rendering of Humans from Sparse RGB Cameras
- arxiv url: http://arxiv.org/abs/2312.07423v2
- Date: Thu, 25 Jul 2024 12:24:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-26 19:46:37.231439
- Title: Holoported Characters: Real-time Free-viewpoint Rendering of Humans from Sparse RGB Cameras
- Title(参考訳): ホロポートキャラクタ:スパースRGBカメラによる人間のリアルタイム自由視点レンダリング
- Authors: Ashwath Shetty, Marc Habermann, Guoxing Sun, Diogo Luvizon, Vladislav Golyanik, Christian Theobalt,
- Abstract要約: 一般のアパレルにおいて,人間俳優の高度にリアルなフリー視点映像をレンダリングするための最初のアプローチを提案する。
提案手法は,動作中のアクターの4つのカメラビューと,各3次元骨格ポーズのみを必要とする。
広い服装の俳優を扱い、さらに細かなダイナミックディテールを再現する。
- 参考スコア(独自算出の注目度): 65.54875149514274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present the first approach to render highly realistic free-viewpoint videos of a human actor in general apparel, from sparse multi-view recording to display, in real-time at an unprecedented 4K resolution. At inference, our method only requires four camera views of the moving actor and the respective 3D skeletal pose. It handles actors in wide clothing, and reproduces even fine-scale dynamic detail, e.g. clothing wrinkles, face expressions, and hand gestures. At training time, our learning-based approach expects dense multi-view video and a rigged static surface scan of the actor. Our method comprises three main stages. Stage 1 is a skeleton-driven neural approach for high-quality capture of the detailed dynamic mesh geometry. Stage 2 is a novel solution to create a view-dependent texture using four test-time camera views as input. Finally, stage 3 comprises a new image-based refinement network rendering the final 4K image given the output from the previous stages. Our approach establishes a new benchmark for real-time rendering resolution and quality using sparse input camera views, unlocking possibilities for immersive telepresence.
- Abstract(参考訳): そこで本研究では,従来の4K解像度でのマルチビュー録画から表示に至るまで,人間俳優の映像をリアルタイムにレンダリングする手法について紹介する。
提案手法は,動作中のアクターの4つのカメラビューと,各3次元骨格ポーズのみを必要とする。
広い服装の役者を扱い、例えば衣服のしわ、顔の表情、手のジェスチャーなど、細かなダイナミックなディテールを再現する。
トレーニング時に、我々の学習ベースのアプローチは、密集したマルチビュービデオと、アクターのトリグされた静的表面スキャンを期待する。
本手法は3つの主要な段階から構成される。
ステージ1は、詳細なメッシュ幾何学の高品質なキャプチャのためのスケルトン駆動のニューラルネットワークである。
ステージ2は、4つのテストタイムカメラビューを入力として、ビュー依存のテクスチャを作成するための新しいソリューションである。
最後に、ステージ3は、前のステージから出力された最終的な4K画像をレンダリングする新しい画像ベース精細ネットワークを備える。
提案手法は,スパースカメラビューを用いたリアルタイムレンダリングの解像度と品質の新たなベンチマークを確立し,没入型テレプレゼンスを実現する。
関連論文リスト
- GFlow: Recovering 4D World from Monocular Video [58.63051670458107]
GFlowは、ビデオ(3D)を4次元の明示的な表現に持ち上げるフレームワークで、空間と時間を通してガウスのスプラッティングの流れを包含する。
GFlowはまずシーンを静止部分と移動部分にクラスタリングし、逐次最適化プロセスを適用する。
GFlowは、単なる4D再構築の境界を超越する。
論文 参考訳(メタデータ) (2024-05-28T17:59:22Z) - Make-It-4D: Synthesizing a Consistent Long-Term Dynamic Scene Video from
a Single Image [59.18564636990079]
本研究では,1枚の画像のみから長期ダイナミック映像を合成する問題について検討する。
既存の方法は、一貫性のない永遠の視点を幻覚させるか、長いカメラの軌跡に苦しむかのいずれかである。
一つの画像から一貫した長期動画像を生成する新しい方法であるMake-It-4Dを提案する。
論文 参考訳(メタデータ) (2023-08-20T12:53:50Z) - FlowCam: Training Generalizable 3D Radiance Fields without Camera Poses
via Pixel-Aligned Scene Flow [26.528667940013598]
ポーズ画像からの3次元ニューラルネットワークの再構成は、自己教師付き表現学習の有望な方法として現れている。
これらの3Dシーンの学習者が大規模ビデオデータに展開するのを防ぐ重要な課題は、構造から移動までの正確なカメラポーズに依存することである。
本稿では,オンラインと1つのフォワードパスでカメラポーズと3Dニューラルシーン表現を共同で再構築する手法を提案する。
論文 参考訳(メタデータ) (2023-05-31T20:58:46Z) - Scene-Aware 3D Multi-Human Motion Capture from a Single Camera [83.06768487435818]
静止カメラで記録された1枚のRGBビデオから、シーン内の複数の人間の3次元位置を推定し、その身体形状と調音を推定する問題を考察する。
コンピュータビジョンの最近の進歩を,2次元の人体関節,関節角度,正規化不均等マップ,人間のセグメンテーションマスクなど,様々なモダリティのための大規模事前訓練モデルを用いて活用している。
特に,2次元の関節と関節角度を用いた正規化不均等予測から,シーン深度とユニークな人格尺度を推定する。
論文 参考訳(メタデータ) (2023-01-12T18:01:28Z) - NeRFPlayer: A Streamable Dynamic Scene Representation with Decomposed
Neural Radiance Fields [99.57774680640581]
本稿では、高速な再構成、コンパクトなモデリング、およびストリーム可能なレンダリングが可能な効率的なフレームワークを提案する。
本稿では, 時間特性に応じて4次元空間を分解することを提案する。4次元空間の点は, 静的, 変形, および新しい領域の3つのカテゴリに属する確率に関連付けられている。
論文 参考訳(メタデータ) (2022-10-28T07:11:05Z) - Self-Supervised 3D Human Pose Estimation in Static Video Via Neural
Rendering [5.568218439349004]
2D画像から3Dの人間のポーズを推定することは、コンピュータビジョンの分野における困難かつ長年の問題である。
本研究では,1人の人物を含む2次元映像から3次元ポーズを推定する手法の予備的な結果を示す。
論文 参考訳(メタデータ) (2022-10-10T09:24:07Z) - Learning to Deblur and Rotate Motion-Blurred Faces [43.673660541417995]
ニューラルネットワークを用いて、1つの画像と対応する顔の視線から3Dビデオ表現を再構成する。
次に、推定視線に対するカメラ視点と、エンコーダデコーダネットワークに入力されるぼやけた画像とを比較し、新しいカメラ視点でシャープフレームのビデオを生成する。
論文 参考訳(メタデータ) (2021-12-14T17:51:19Z) - Neural Radiance Flow for 4D View Synthesis and Video Processing [59.9116932930108]
本稿では,RGB画像から動的シーンの4次元空間時空間表現を学習する手法を提案する。
私たちのアプローチの鍵は、シーンの3D占有率、輝度、およびダイナミクスをキャプチャすることを学ぶ神経暗黙表現を使用することです。
論文 参考訳(メタデータ) (2020-12-17T17:54:32Z) - 4D Association Graph for Realtime Multi-person Motion Capture Using
Multiple Video Cameras [46.664422061537564]
本稿では,マルチビュー映像入力を用いた新しいリアルタイム多対人モーションキャプチャーアルゴリズムを提案する。
ビューパース、クロスビューマッチング、時間トラッキングを単一の最適化フレームワークに統合します。
提案手法はノイズ検出に頑健であり,高品質なオンラインポーズ復元品質を実現する。
論文 参考訳(メタデータ) (2020-02-28T09:57:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。