論文の概要: Diffusion as Shader: 3D-aware Video Diffusion for Versatile Video Generation Control
- arxiv url: http://arxiv.org/abs/2501.03847v2
- Date: Thu, 09 Jan 2025 04:25:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-10 13:59:56.280694
- Title: Diffusion as Shader: 3D-aware Video Diffusion for Versatile Video Generation Control
- Title(参考訳): シェーダとしての拡散:ヴァーサタイルビデオ生成制御のための3D対応ビデオ拡散
- Authors: Zekai Gu, Rui Yan, Jiahao Lu, Peng Li, Zhiyang Dou, Chenyang Si, Zhen Dong, Qifeng Liu, Cheng Lin, Ziwei Liu, Wenping Wang, Yuan Liu,
- Abstract要約: Diffusion as Shader (DaS)は、統一アーキテクチャ内で複数のビデオ制御タスクをサポートする新しいアプローチである。
DaSは3D追跡ビデオを制御入力として利用し、ビデオ拡散過程を本質的に3D対応にしている。
DaSは、メッシュ・ツー・ビデオ生成、カメラ制御、モーション転送、オブジェクト操作など、さまざまなタスクにわたる強力なコントロール機能を示している。
- 参考スコア(独自算出の注目度): 73.10569113380775
- License:
- Abstract: Diffusion models have demonstrated impressive performance in generating high-quality videos from text prompts or images. However, precise control over the video generation process, such as camera manipulation or content editing, remains a significant challenge. Existing methods for controlled video generation are typically limited to a single control type, lacking the flexibility to handle diverse control demands. In this paper, we introduce Diffusion as Shader (DaS), a novel approach that supports multiple video control tasks within a unified architecture. Our key insight is that achieving versatile video control necessitates leveraging 3D control signals, as videos are fundamentally 2D renderings of dynamic 3D content. Unlike prior methods limited to 2D control signals, DaS leverages 3D tracking videos as control inputs, making the video diffusion process inherently 3D-aware. This innovation allows DaS to achieve a wide range of video controls by simply manipulating the 3D tracking videos. A further advantage of using 3D tracking videos is their ability to effectively link frames, significantly enhancing the temporal consistency of the generated videos. With just 3 days of fine-tuning on 8 H800 GPUs using less than 10k videos, DaS demonstrates strong control capabilities across diverse tasks, including mesh-to-video generation, camera control, motion transfer, and object manipulation.
- Abstract(参考訳): 拡散モデルは、テキストプロンプトや画像から高品質なビデオを生成する際、素晴らしいパフォーマンスを示している。
しかし、カメラ操作やコンテンツ編集などの映像生成プロセスの正確な制御は、依然として重要な課題である。
制御されたビデオ生成のための既存の方法は、通常、単一の制御タイプに制限され、多様な制御要求を扱う柔軟性が欠如している。
本稿では,Diffusion as Shader (DaS)を導入し,複数のビデオ制御タスクを統一アーキテクチャ内でサポートする手法を提案する。
私たちのキーとなる洞察は、ビデオはダイナミックな3Dコンテンツの2Dレンダリングであるので、多目的なビデオ制御を実現するには、3D制御信号を活用する必要があるということです。
従来の2D制御信号に制限された手法とは異なり、DaSは3D追跡ビデオを制御入力として利用し、ビデオ拡散過程を本質的に3D対応にしている。
このイノベーションにより、DaSは3Dトラッキングビデオを操作することで、幅広いビデオコントロールを実現することができる。
さらに、3Dトラッキングビデオを使用する利点は、フレームを効果的にリンクできることであり、生成されたビデオの時間的一貫性を大幅に向上させる。
わずか3日間で10kビデオ未満の8 H800 GPUを微調整することで、DaSはメッシュ・ツー・ビデオ生成、カメラ制御、モーション転送、オブジェクト操作など、さまざまなタスクにまたがる強力なコントロール機能を示す。
関連論文リスト
- CineMaster: A 3D-Aware and Controllable Framework for Cinematic Text-to-Video Generation [76.72787726497343]
CineMasterは3D認識と制御可能なテキスト・ビデオ生成のためのフレームワークである。
私たちのゴールは、プロの映画監督と同等のコントロール性を持つユーザーを力づけることです。
論文 参考訳(メタデータ) (2025-02-12T18:55:36Z) - VidCRAFT3: Camera, Object, and Lighting Control for Image-to-Video Generation [62.64811405314847]
VidCRAFT3は、画像から映像までを正確に生成するための新しいフレームワークである。
カメラの動き、物体の動き、照明方向を同時に制御できる。
ベンチマークデータセットの実験では、高品質のビデオコンテンツの生成におけるVidCRAFT3の有効性が示されている。
論文 参考訳(メタデータ) (2025-02-11T13:11:59Z) - 3DTrajMaster: Mastering 3D Trajectory for Multi-Entity Motion in Video Generation [83.98251722144195]
制御可能なビデオ生成における従来の方法は、主に物体の動きを操作するために2D制御信号を利用する。
本稿では3次元空間におけるマルチエンタリティダイナミクスを制御する頑健なコントローラである3DTrajMasterを紹介する。
3DTrajMasterは,多心性3D動作を制御するための精度と一般化の両面において,新しい最先端技術を設定する。
論文 参考訳(メタデータ) (2024-12-10T18:55:13Z) - VD3D: Taming Large Video Diffusion Transformers for 3D Camera Control [74.5434726968562]
Plucker座標に基づく制御ネットライクなコンディショニング機構を用いた3次元カメラ制御のためのトランスフォーマー映像を試作する。
我々の研究は、トランスフォーマーに基づくビデオ拡散モデルのカメラ制御を可能にする最初のものである。
論文 参考訳(メタデータ) (2024-07-17T17:59:05Z) - Ctrl-V: Higher Fidelity Video Generation with Bounding-Box Controlled Object Motion [8.068194154084967]
本稿では,現実的な映像合成において,物体の動きを正確に制御する方法を提案する。
これを実現するために,バウンディングボックスを用いてオブジェクトの動きを制御し,この制御を画素空間内の2Dまたは3Dボックスのレンダリングに拡張する。
我々の手法であるCtrl-Vは、修正および微調整された安定ビデオ拡散(SVD)モデルを利用して、軌跡生成と映像生成の両方を解決する。
論文 参考訳(メタデータ) (2024-06-09T03:44:35Z) - Collaborative Video Diffusion: Consistent Multi-video Generation with Camera Control [70.17137528953953]
コラボレーション型ビデオ拡散(CVD)は、ビデオ生成のための最先端のカメラ制御モジュール上で訓練される。
CVDは、異なるカメラ軌跡からレンダリングされた複数のビデオを、ベースラインよりもはるかに優れた一貫性で生成する。
論文 参考訳(メタデータ) (2024-05-27T17:58:01Z) - CamViG: Camera Aware Image-to-Video Generation with Multimodal Transformers [18.67069364925506]
本稿では,3次元カメラ動作の符号化に生成した映像を条件付けすることで,仮想3Dカメラ制御を生成ビデオに付加することを提案する。
その結果,(1)単一フレームとカメラ信号から始まる映像生成におけるカメラの制御に成功し,(2)従来のコンピュータビジョン手法を用いて生成された3Dカメラパスの精度を示すことができた。
論文 参考訳(メタデータ) (2024-05-21T20:54:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。