論文の概要: Uni3C: Unifying Precisely 3D-Enhanced Camera and Human Motion Controls for Video Generation
- arxiv url: http://arxiv.org/abs/2504.14899v1
- Date: Mon, 21 Apr 2025 07:10:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-29 19:16:53.169503
- Title: Uni3C: Unifying Precisely 3D-Enhanced Camera and Human Motion Controls for Video Generation
- Title(参考訳): Uni3C:ビデオ生成のための精密3Dカメラと人間のモーションコントロールの統合
- Authors: Chenjie Cao, Jingkai Zhou, Shikai Li, Jingyun Liang, Chaohui Yu, Fan Wang, Xiangyang Xue, Yanwei Fu,
- Abstract要約: 映像生成におけるカメラと人間の動きを正確に制御するための統合フレームワークUni3Cを提案する。
まず,フリーズビデオ生成バックボーンであるPCDControllerで学習したプラグイン・アンド・プレイ制御モジュールを提案する。
第2に,景観点雲とSMPL-X文字をシームレスに統合する推論フェーズの3次元ワールドガイダンスを提案する。
- 参考スコア(独自算出の注目度): 85.10745006495364
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Camera and human motion controls have been extensively studied for video generation, but existing approaches typically address them separately, suffering from limited data with high-quality annotations for both aspects. To overcome this, we present Uni3C, a unified 3D-enhanced framework for precise control of both camera and human motion in video generation. Uni3C includes two key contributions. First, we propose a plug-and-play control module trained with a frozen video generative backbone, PCDController, which utilizes unprojected point clouds from monocular depth to achieve accurate camera control. By leveraging the strong 3D priors of point clouds and the powerful capacities of video foundational models, PCDController shows impressive generalization, performing well regardless of whether the inference backbone is frozen or fine-tuned. This flexibility enables different modules of Uni3C to be trained in specific domains, i.e., either camera control or human motion control, reducing the dependency on jointly annotated data. Second, we propose a jointly aligned 3D world guidance for the inference phase that seamlessly integrates both scenic point clouds and SMPL-X characters to unify the control signals for camera and human motion, respectively. Extensive experiments confirm that PCDController enjoys strong robustness in driving camera motion for fine-tuned backbones of video generation. Uni3C substantially outperforms competitors in both camera controllability and human motion quality. Additionally, we collect tailored validation sets featuring challenging camera movements and human actions to validate the effectiveness of our method.
- Abstract(参考訳): カメラと人間のモーションコントロールは、ビデオ生成のために広く研究されてきたが、既存のアプローチでは、両方の面で高品質なアノテーションを持つ限られたデータに悩まされている。
この問題を解決するために、ビデオ生成におけるカメラと人間の動きを正確に制御するための統合された3D拡張フレームワークUni3Cを提案する。
Uni3Cには2つの重要なコントリビューションが含まれている。
まず,単眼深度からの未投影点雲を利用して正確なカメラ制御を実現する,冷凍ビデオ生成バックボーンPCDControllerを訓練したプラグアンドプレイ制御モジュールを提案する。
PCDControllerは、ポイントクラウドの強力な3D先行とビデオ基礎モデルの強力な能力を活用することで、推論バックボーンが凍結されているか、微調整されているかに関わらず、優れた一般化を示す。
この柔軟性により、Uni3Cの異なるモジュールを特定のドメイン、すなわちカメラ制御または人間のモーション制御でトレーニングすることができ、共同アノテーション付きデータへの依存を減らすことができる。
次に,視覚点雲とSMPL-X文字をシームレスに統合し,カメラと人体の動きの制御信号を統一する推論フェーズの3Dワールドガイダンスを提案する。
広汎な実験により、PCDControllerは、ビデオ生成の微調整されたバックボーンのためのカメラモーションの駆動において、強い堅牢性を持っていることが確認された。
Uni3Cは、カメラの制御性と人間のモーションクオリティの両方でライバルより大幅に優れています。
さらに,カメラの動作に挑戦するカメラの動きと人間の動作を特徴とする調整済みの検証セットを収集し,本手法の有効性を検証した。
関連論文リスト
- 3DTrajMaster: Mastering 3D Trajectory for Multi-Entity Motion in Video Generation [83.98251722144195]
制御可能なビデオ生成における従来の方法は、主に物体の動きを操作するために2D制御信号を利用する。
本稿では3次元空間におけるマルチエンタリティダイナミクスを制御する頑健なコントローラである3DTrajMasterを紹介する。
3DTrajMasterは,多心性3D動作を制御するための精度と一般化の両面において,新しい最先端技術を設定する。
論文 参考訳(メタデータ) (2024-12-10T18:55:13Z) - AC3D: Analyzing and Improving 3D Camera Control in Video Diffusion Transformers [66.29824750770389]
カメラの動きを第一原理の観点から分析し、正確な3Dカメラ操作を可能にする洞察を明らかにする。
これらの知見を合成して、高度な3Dカメラ制御(AC3D)アーキテクチャを設計する。
論文 参考訳(メタデータ) (2024-11-27T18:49:13Z) - I2VControl-Camera: Precise Video Camera Control with Adjustable Motion Strength [11.778832811404259]
I2Vコントロルカメラ(I2VControl-Camera)は、被写体運動の強度を提供しながら、制御性を大幅に向上させる新しいカメラ制御方法である。
被写体運動の強度を正確に制御・調整するために,映像軌道展開の高次成分を明示的にモデル化する。
論文 参考訳(メタデータ) (2024-11-10T16:59:39Z) - VD3D: Taming Large Video Diffusion Transformers for 3D Camera Control [74.5434726968562]
制御ネットライクなコンディショニング機構を用いて3次元カメラ制御のためのトランスフォーマー映像の改ざん方法を示す。
我々の研究は、トランスフォーマーに基づくビデオ拡散モデルのカメラ制御を可能にする最初のものである。
論文 参考訳(メタデータ) (2024-07-17T17:59:05Z) - Training-free Camera Control for Video Generation [15.79168688275606]
本稿では,市販ビデオ拡散モデルに対して,カメラの動き制御を実現するためのトレーニングフリーで堅牢なソリューションを提案する。
本手法では,カメラ注釈付きデータセットの教師付き微調整やデータ拡張による自己教師型トレーニングは不要である。
ほとんどの事前訓練されたビデオ拡散モデルでプラグイン・アンド・プレイでき、単一の画像またはテキストプロンプトを入力としてカメラ制御可能なビデオを生成することができる。
論文 参考訳(メタデータ) (2024-06-14T15:33:00Z) - CamCo: Camera-Controllable 3D-Consistent Image-to-Video Generation [117.16677556874278]
我々はCamCoを導入し、細粒度カメラのポーズ制御を画像からビデオへ生成する。
生成したビデオの3D一貫性を高めるため,各アテンションブロックにエピポーラアテンションモジュールを統合する。
実験の結果,CamCoは従来のモデルに比べて3次元の整合性とカメラ制御能力を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-06-04T17:27:19Z) - MotionCtrl: A Unified and Flexible Motion Controller for Video Generation [77.09621778348733]
ビデオ中の動きは、主にカメラの動きによって誘導されるカメラの動きと、物体の動きによって生じる物体の動きから成り立っている。
本稿では,カメラと物体の動きを効果的かつ独立に制御するビデオ生成用統合モーションコントローラであるMotionCtrlを提案する。
論文 参考訳(メタデータ) (2023-12-06T17:49:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。