論文の概要: MV-Performer: Taming Video Diffusion Model for Faithful and Synchronized Multi-view Performer Synthesis
- arxiv url: http://arxiv.org/abs/2510.07190v1
- Date: Wed, 08 Oct 2025 16:24:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.624676
- Title: MV-Performer: Taming Video Diffusion Model for Faithful and Synchronized Multi-view Performer Synthesis
- Title(参考訳): MV-Performer: 忠実で同期化されたマルチビューパフォーマ合成のためのビデオ拡散モデル
- Authors: Yihao Zhi, Chenghong Li, Hongjie Liao, Xihe Yang, Zhengwentai Sun, Jiahao Chang, Xiaodong Cun, Wensen Feng, Xiaoguang Han,
- Abstract要約: モノクロフルボディキャプチャーから新しいビュービデオを作成するための革新的なフレームワークであるMV-Performerを提案する。
360度合成を実現するために、MVHumanNetデータセットを広範囲に活用し、情報伝達条件信号を取り込む。
生成したビデオの同期を維持するために,多視点の人間中心ビデオ拡散モデルを提案する。
- 参考スコア(独自算出の注目度): 34.793258395288895
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent breakthroughs in video generation, powered by large-scale datasets and diffusion techniques, have shown that video diffusion models can function as implicit 4D novel view synthesizers. Nevertheless, current methods primarily concentrate on redirecting camera trajectory within the front view while struggling to generate 360-degree viewpoint changes. In this paper, we focus on human-centric subdomain and present MV-Performer, an innovative framework for creating synchronized novel view videos from monocular full-body captures. To achieve a 360-degree synthesis, we extensively leverage the MVHumanNet dataset and incorporate an informative condition signal. Specifically, we use the camera-dependent normal maps rendered from oriented partial point clouds, which effectively alleviate the ambiguity between seen and unseen observations. To maintain synchronization in the generated videos, we propose a multi-view human-centric video diffusion model that fuses information from the reference video, partial rendering, and different viewpoints. Additionally, we provide a robust inference procedure for in-the-wild video cases, which greatly mitigates the artifacts induced by imperfect monocular depth estimation. Extensive experiments on three datasets demonstrate our MV-Performer's state-of-the-art effectiveness and robustness, setting a strong model for human-centric 4D novel view synthesis.
- Abstract(参考訳): 大規模データセットと拡散技術を利用した映像生成の最近の進歩は、ビデオ拡散モデルが暗黙の4D新規ビューシンセサイザーとして機能することを示してきた。
それにもかかわらず、現在の手法は主に、360度視点の変化を生じさせるのに苦労しながら、フロントビュー内のカメラ軌跡をリダイレクトすることに集中している。
本稿では,人間中心のサブドメインとMV-Performerに着目し,モノクロフルボディキャプチャーからノベルビュービデオを作成するための革新的なフレームワークを提案する。
360度合成を実現するために、MVHumanNetデータセットを広範囲に活用し、情報伝達条件信号を取り込む。
具体的には、向き付けされた部分点雲から描画されるカメラ依存の正規写像を用いて、観察と見えない観察のあいまいさを効果的に軽減する。
生成したビデオの同期を維持するために、参照ビデオ、部分レンダリング、異なる視点からの情報を融合する多視点人中心ビデオ拡散モデルを提案する。
さらに,不完全な単眼深度推定によって引き起こされるアーチファクトを大幅に軽減する,Wild ビデオケースに対する堅牢な推論手法を提案する。
3つのデータセットに対する大規模な実験は、MV-Performerの最先端の有効性とロバスト性を示し、人間中心の4D新規ビュー合成のための強力なモデルを確立した。
関連論文リスト
- WorldSplat: Gaussian-Centric Feed-Forward 4D Scene Generation for Autonomous Driving [21.778139777889397]
4次元駆動シーン生成のための新しいフィードフォワードフレームワークである textbfWorldSplat を提案する。
提案手法は,2つのステップで一貫したマルチトラック映像を効果的に生成する。
ベンチマークデータセットを用いて行った実験は、textbfWorldSplatが高忠実で時間的に空間的に一貫した新しいビュー駆動ビデオを効果的に生成することを示した。
論文 参考訳(メタデータ) (2025-09-27T16:47:44Z) - Diffuman4D: 4D Consistent Human View Synthesis from Sparse-View Videos with Spatio-Temporal Diffusion Models [83.76517697509156]
本稿では、疎視映像を入力として高忠実度視点合成の課題に対処する。
本研究では, 4次元拡散モデルの視時整合性を高めるために, 反復的スライディング・デノナイジング法を提案する。
提案手法は,高品質で一貫したノベルビュー映像を合成し,既存の手法を大幅に上回っている。
論文 参考訳(メタデータ) (2025-07-17T17:59:17Z) - Zero4D: Training-Free 4D Video Generation From Single Video Using Off-the-Shelf Video Diffusion [52.0192865857058]
そこで,本研究では,市販ビデオ拡散モデルを利用して,単一入力ビデオから多視点ビデオを生成する4Dビデオ生成手法を提案する。
本手法はトレーニング不要で,市販のビデオ拡散モデルを完全に活用し,マルチビュービデオ生成のための実用的で効果的なソリューションを提供する。
論文 参考訳(メタデータ) (2025-03-28T17:14:48Z) - TrajectoryCrafter: Redirecting Camera Trajectory for Monocular Videos via Diffusion Models [33.219657261649324]
TrajectoryCrafterは、モノクロビデオのためのカメラトラジェクトリをリダイレクトする新しいアプローチである。
コンテンツ生成から決定論的視点変換を遠ざけることで,ユーザの特定したカメラトラジェクトリの正確な制御を実現する。
論文 参考訳(メタデータ) (2025-03-07T17:57:53Z) - ViewCrafter: Taming Video Diffusion Models for High-fidelity Novel View Synthesis [63.169364481672915]
単一またはスパース画像からジェネリックシーンの高忠実な新規ビューを合成する新しい方法である textbfViewCrafter を提案する。
提案手法は,映像拡散モデルの強力な生成能力と,ポイントベース表現によって提供される粗い3D手がかりを利用して高品質な映像フレームを生成する。
論文 参考訳(メタデータ) (2024-09-03T16:53:19Z) - SV4D: Dynamic 3D Content Generation with Multi-Frame and Multi-View Consistency [37.96042037188354]
本稿では,多フレーム・多視点一貫した動的3Dコンテンツ生成のための遅延ビデオ拡散モデルであるStable Video 4D(SV4D)を提案する。
論文 参考訳(メタデータ) (2024-07-24T17:59:43Z) - 4Diffusion: Multi-view Video Diffusion Model for 4D Generation [55.82208863521353]
現在の4D生成法は, 高度な拡散生成モデルの助けを借りて, 有意義な有効性を実現している。
モノクロビデオから空間的・時間的に一貫した4Dコンテンツを生成することを目的とした,新しい4D生成パイプライン,すなわち4Diffusionを提案する。
論文 参考訳(メタデータ) (2024-05-31T08:18:39Z) - MVD-Fusion: Single-view 3D via Depth-consistent Multi-view Generation [54.27399121779011]
本稿では,多視点RGB-D画像の生成モデルを用いて,単視点3次元推論を行うMVD-Fusionを提案する。
提案手法は,蒸留に基づく3D推論や先行多視点生成手法など,最近の最先端技術と比較して,より正確な合成を実現することができることを示す。
論文 参考訳(メタデータ) (2024-04-04T17:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。