論文の概要: Virtually Being: Customizing Camera-Controllable Video Diffusion Models with Multi-View Performance Captures
- arxiv url: http://arxiv.org/abs/2510.14179v1
- Date: Thu, 16 Oct 2025 00:20:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.658313
- Title: Virtually Being: Customizing Camera-Controllable Video Diffusion Models with Multi-View Performance Captures
- Title(参考訳): 仮想存在:マルチビューパフォーマンスキャプチャによるカメラ制御可能なビデオ拡散モデルのカスタマイズ
- Authors: Yuancheng Xu, Wenqi Xian, Li Ma, Julien Philip, Ahmet Levent Taşel, Yiwei Zhao, Ryan Burgert, Mingming He, Oliver Hermann, Oliver Pilarski, Rahul Garg, Paul Debevec, Ning Yu,
- Abstract要約: 本稿では,映像拡散モデルにおける多視点キャラクタ一貫性と3Dカメラ制御の両立を可能にするフレームワークを提案する。
我々は、このデータに基づいて、最先端のオープンソースビデオ拡散モデルを微調整し、強力なマルチビューID保存を提供する。
私たちのフレームワークは、マルチオブジェクト生成を含む、仮想プロダクションのコア機能もサポートしています。
- 参考スコア(独自算出の注目度): 18.241178853941623
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a framework that enables both multi-view character consistency and 3D camera control in video diffusion models through a novel customization data pipeline. We train the character consistency component with recorded volumetric capture performances re-rendered with diverse camera trajectories via 4D Gaussian Splatting (4DGS), lighting variability obtained with a video relighting model. We fine-tune state-of-the-art open-source video diffusion models on this data to provide strong multi-view identity preservation, precise camera control, and lighting adaptability. Our framework also supports core capabilities for virtual production, including multi-subject generation using two approaches: joint training and noise blending, the latter enabling efficient composition of independently customized models at inference time; it also achieves scene and real-life video customization as well as control over motion and spatial layout during customization. Extensive experiments show improved video quality, higher personalization accuracy, and enhanced camera control and lighting adaptability, advancing the integration of video generation into virtual production. Our project page is available at: https://eyeline-labs.github.io/Virtually-Being.
- Abstract(参考訳): 本稿では,映像拡散モデルにおける多視点キャラクタ整合性と3次元カメラ制御の両方を,新しいカスタマイズデータパイプラインを通じて実現するフレームワークを提案する。
4DGS(4D Gaussian Splatting)を用いて,様々なカメラトラジェクトリで記録されたボリュームキャプチャ性能を用いて,キャラクタ一貫性成分をトレーニングする。
我々は、このデータに基づいて最先端のオープンソースビデオ拡散モデルを微調整し、強力なマルチビューID保存、精密カメラ制御、照明適応性を提供する。
提案フレームワークは,複数オブジェクト生成のための仮想プロダクションのコア機能もサポートしている。関節トレーニングとノイズブレンディング,推論時に独立にカスタマイズされたモデルの効率的な構成,シーンと実写映像のカスタマイズ,カスタマイズ時の移動と空間レイアウトの制御などだ。
大規模な実験では、ビデオ品質の向上、パーソナライズ精度の向上、カメラ制御の強化、照明適応性の向上、ビデオ生成の仮想プロダクションへの統合の促進などが示されている。
私たちのプロジェクトページは、https://eyeline-labs.github.io/Virtually-Being.com/で公開されています。
関連論文リスト
- MultiCOIN: Multi-Modal COntrollable Video INbetweening [46.37499813275259]
マルチモーダル制御を実現するMultiCOINを紹介した。
DiTとマルチモーダルコントロールの互換性を確保するため、すべてのモーションコントロールを共通スパース表現にマッピングする。
また,モデルがマルチモーダル制御を円滑に学習できるように,段階的な学習戦略を提案する。
論文 参考訳(メタデータ) (2025-10-09T17:59:27Z) - EchoShot: Multi-Shot Portrait Video Generation [37.77879735014084]
EchoShotは、基礎的なビデオ拡散モデルに基づいて構築されたポートレートカスタマイズのためのネイティブなマルチショットフレームワークである。
マルチショットシナリオにおけるモデルトレーニングを容易にするため,大規模かつ高忠実な人間中心のビデオデータセットであるPortraitGalaを構築した。
適用性をさらに向上するため、EchoShotを拡張して、参照画像に基づくパーソナライズされたマルチショット生成と、無限ショットカウントによる長いビデオ合成を行う。
論文 参考訳(メタデータ) (2025-06-16T11:00:16Z) - CameraCtrl II: Dynamic Scene Exploration via Camera-controlled Video Diffusion Models [89.63787060844409]
CameraCtrl IIは、カメラ制御ビデオ拡散モデルによる大規模動的シーン探索を可能にするフレームワークである。
動的シーンの生成を段階的に拡大するアプローチを採っている。
論文 参考訳(メタデータ) (2025-03-13T17:42:01Z) - TrajectoryCrafter: Redirecting Camera Trajectory for Monocular Videos via Diffusion Models [33.219657261649324]
TrajectoryCrafterは、モノクロビデオのためのカメラトラジェクトリをリダイレクトする新しいアプローチである。
コンテンツ生成から決定論的視点変換を遠ざけることで,ユーザの特定したカメラトラジェクトリの正確な制御を実現する。
論文 参考訳(メタデータ) (2025-03-07T17:57:53Z) - SynCamMaster: Synchronizing Multi-Camera Video Generation from Diverse Viewpoints [43.14498014617223]
マルチカメラビデオ生成のための事前訓練されたテキスト・ツー・ビデオモデルを強化するプラグイン・アンド・プレイ・モジュールを提案する。
異なる視点における外観と幾何の整合性を維持するために,マルチビュー同期モジュールを導入する。
提案手法は,新しい視点からビデオを再レンダリングするなど,興味をそそる拡張を可能にする。
論文 参考訳(メタデータ) (2024-12-10T18:55:17Z) - Latent-Reframe: Enabling Camera Control for Video Diffusion Model without Training [51.851390459940646]
我々は、微調整なしで事前訓練されたビデオ拡散モデルでカメラ制御が可能なLatent-Reframeを紹介した。
Latent-Reframeはサンプリング段階で動作し、オリジナルのモデル分布を維持しながら効率を維持する。
当社のアプローチでは,ビデオフレームの潜在コードを再設計し,タイムアウェアな点雲を通して入力カメラ軌跡と整合する。
論文 参考訳(メタデータ) (2024-12-08T18:59:54Z) - Cavia: Camera-controllable Multi-view Video Diffusion with View-Integrated Attention [62.2447324481159]
Caviaはカメラ制御可能なマルチビュービデオ生成のための新しいフレームワークである。
我々のフレームワークは、空間的および時間的注意モジュールを拡張し、視点と時間的一貫性を改善します。
Caviaは、ユーザーが物体の動きを取得しながら、異なるカメラの動きを特定できる最初の製品だ。
論文 参考訳(メタデータ) (2024-10-14T17:46:32Z) - Diversity-Driven View Subset Selection for Indoor Novel View Synthesis [54.468355408388675]
本稿では、包括的多様性に基づく測定と、よく設計されたユーティリティ機能を統合する新しいサブセット選択フレームワークを提案する。
私たちのフレームワークは、データの5~20%しか使用せずに、ベースライン戦略を一貫して上回ります。
論文 参考訳(メタデータ) (2024-09-11T08:36:49Z) - Collaborative Video Diffusion: Consistent Multi-video Generation with Camera Control [70.17137528953953]
コラボレーション型ビデオ拡散(CVD)は、ビデオ生成のための最先端のカメラ制御モジュール上で訓練される。
CVDは、異なるカメラ軌跡からレンダリングされた複数のビデオを、ベースラインよりもはるかに優れた一貫性で生成する。
論文 参考訳(メタデータ) (2024-05-27T17:58:01Z) - CameraCtrl: Enabling Camera Control for Text-to-Video Generation [86.36135895375425]
ユーザーがコンテンツをより正確に作成し、編集できるようにするため、制御性はビデオ生成において重要な役割を果たす。
しかし、既存のモデルは、より深い物語のニュアンスを表現するための映画言語として機能するカメラポーズの制御を欠いている。
我々は、ビデオ拡散モデルの正確なカメラポーズ制御を可能にするCameraCtrlを紹介する。
論文 参考訳(メタデータ) (2024-04-02T16:52:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。