論文の概要: CFSynthesis: Controllable and Free-view 3D Human Video Synthesis
- arxiv url: http://arxiv.org/abs/2412.11067v3
- Date: Wed, 18 Dec 2024 01:55:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 13:25:07.622356
- Title: CFSynthesis: Controllable and Free-view 3D Human Video Synthesis
- Title(参考訳): CFS合成:制御可能で自由な3Dビデオ合成
- Authors: Liyuan Cui, Xiaogang Xu, Wenqi Dong, Zesong Yang, Hujun Bao, Zhaopeng Cui,
- Abstract要約: CFSynthesisは、カスタマイズ可能な属性で高品質なヒューマンビデオを生成するための新しいフレームワークである。
本手法はテクスチャ-SMPLに基づく表現を利用して,自由視点における一貫した,安定したキャラクタの出現を保証する。
複数のデータセットの結果から,複雑な人間のアニメーションにおいて,CFS合成が最先端のパフォーマンスを達成することが示された。
- 参考スコア(独自算出の注目度): 57.561237409603066
- License:
- Abstract: Human video synthesis aims to create lifelike characters in various environments, with wide applications in VR, storytelling, and content creation. While 2D diffusion-based methods have made significant progress, they struggle to generalize to complex 3D poses and varying scene backgrounds. To address these limitations, we introduce CFSynthesis, a novel framework for generating high-quality human videos with customizable attributes, including identity, motion, and scene configurations. Our method leverages a texture-SMPL-based representation to ensure consistent and stable character appearances across free viewpoints. Additionally, we introduce a novel foreground-background separation strategy that effectively decomposes the scene as foreground and background, enabling seamless integration of user-defined backgrounds. Experimental results on multiple datasets show that CFSynthesis not only achieves state-of-the-art performance in complex human animations but also adapts effectively to 3D motions in free-view and user-specified scenarios.
- Abstract(参考訳): 人間のビデオ合成は、様々な環境において、VR、ストーリーテリング、コンテンツ制作の幅広い応用により、ライフライクなキャラクターを作成することを目的としている。
2次元拡散に基づく手法は大きな進歩を遂げているが、複雑な3次元ポーズや様々なシーン背景への一般化に苦慮している。
これらの制約に対処するため、CFSynthesisは、アイデンティティ、モーション、シーン構成を含むカスタマイズ可能な属性で高品質な人間ビデオを生成するための新しいフレームワークである。
本手法はテクスチャ-SMPLに基づく表現を利用して,自由視点における一貫した,安定したキャラクタの出現を保証する。
さらに,前景と背景を効果的に分解し,ユーザ定義背景のシームレスな統合を可能にする,新しい前景と背景の分離戦略を導入する。
複数のデータセットに対する実験結果から,CFS合成は複雑な人間のアニメーションにおける最先端のパフォーマンスを達成するだけでなく,自由視点およびユーザ特定シナリオにおける3Dモーションに効果的に適応することが示された。
関連論文リスト
- MIMO: Controllable Character Video Synthesis with Spatial Decomposed Modeling [21.1274747033854]
キャラクタビデオ合成は、ライフライクなシーン内でアニマタブルなキャラクターのリアルなビデオを作成することを目的としている。
Miloは、文字ビデオを制御可能な属性で合成できる新しいフレームワークである。
Miloは、任意のキャラクタへの高度なスケーラビリティ、新しい3Dモーションへの一般化、インタラクティブな現実世界のシーンへの適用性を実現している。
論文 参考訳(メタデータ) (2024-09-24T15:00:07Z) - ViewCrafter: Taming Video Diffusion Models for High-fidelity Novel View Synthesis [63.169364481672915]
単一またはスパース画像からジェネリックシーンの高忠実な新規ビューを合成する新しい方法である textbfViewCrafter を提案する。
提案手法は,映像拡散モデルの強力な生成能力と,ポイントベース表現によって提供される粗い3D手がかりを利用して高品質な映像フレームを生成する。
論文 参考訳(メタデータ) (2024-09-03T16:53:19Z) - Dynamic Scene Understanding through Object-Centric Voxelization and Neural Rendering [57.895846642868904]
オブジェクト中心学習が可能な動的シーンのための3次元生成モデルDynaVol-Sを提案する。
ボキセル化は、個々の空間的位置において、物体ごとの占有確率を推定する。
提案手法は2次元セマンティックな特徴を統合して3次元セマンティック・グリッドを作成し,複数の不整合ボクセル・グリッドを通してシーンを表現する。
論文 参考訳(メタデータ) (2024-07-30T15:33:58Z) - Modeling Ambient Scene Dynamics for Free-view Synthesis [31.233859111566613]
モノクルキャプチャから周囲のシーンを動的に自由視点で合成する手法を提案する。
本手法は, 複雑な静的シーンを忠実に再構築できる3次元ガウス散乱(3DGS)の最近の進歩に基づいている。
論文 参考訳(メタデータ) (2024-06-13T17:59:11Z) - Style-Consistent 3D Indoor Scene Synthesis with Decoupled Objects [84.45345829270626]
制御可能な3D屋内シーン合成は、技術進歩の最前線にある。
シーンスタイリングの現在の手法は、シーン全体にスタイルを適用することに限定されている。
室内3Dシーンを合成するためのユニークなパイプラインを提案する。
論文 参考訳(メタデータ) (2024-01-24T03:10:36Z) - Towards 4D Human Video Stylization [56.33756124829298]
本稿では,4D(3Dおよび時間)の映像スタイリングに向けての第一歩として,スタイル変換,新しいビュー合成,人間アニメーションについて述べる。
我々はNeural Radiance Fields(NeRF)を利用してビデオを表現する。
我々のフレームワークは、斬新なポーズや視点に対応する能力を独自に拡張し、クリエイティブなヒューマンビデオスタイリングのための汎用的なツールとなる。
論文 参考訳(メタデータ) (2023-12-07T08:58:33Z) - Novel View Synthesis of Humans using Differentiable Rendering [50.57718384229912]
我々は新しいポーズで人々の新しい視点を合成するための新しいアプローチを提案する。
我々の合成はヒトの骨格構造を表す拡散ガウス原始体を用いる。
これらのプリミティブをレンダリングすると、高次元の潜像が得られ、デコーダネットワークによってRGBイメージに変換される。
論文 参考訳(メタデータ) (2023-03-28T10:48:33Z) - Human View Synthesis using a Single Sparse RGB-D Input [16.764379184593256]
本稿では,RGB-Dが疎い単一ビューセンサから取得した映像からリアルなレンダリングを生成するための,新しいビュー合成フレームワークを提案する。
エンハンサーネットワークは、元のビューから隠された領域でも全体の忠実さを活用し、細部まで細部までクリップレンダリングを生成する。
論文 参考訳(メタデータ) (2021-12-27T20:13:53Z) - Self-Supervised Equivariant Scene Synthesis from Video [84.15595573718925]
本稿では,映像からシーン表現を学習するフレームワークを提案する。
トレーニング後、画像エンコーディングをリアルタイムで操作して、非表示のコンポーネントの組み合わせを生成することができる。
背景を持つMNISTの移動、2Dビデオゲームのスプライト、ファッションモデリングの3つのデータセットで結果を示す。
論文 参考訳(メタデータ) (2021-02-01T14:17:31Z) - Going beyond Free Viewpoint: Creating Animatable Volumetric Video of
Human Performances [7.7824496657259665]
本稿では,人間の演奏の高品質な映像コンテンツ作成のためのエンドツーエンドパイプラインを提案する。
セマンティックエンリッチメントと幾何学的アニメーション能力は、3Dデータに時間的一貫性を確立することによって達成される。
ポーズ編集では、キャプチャしたデータを可能な限り活用し、キャプチャしたフレームをキネマティックに変形して所望のポーズに適合させる。
論文 参考訳(メタデータ) (2020-09-02T09:46:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。