Fugu-MT 論文翻訳(概要): VD3D: Taming Large Video Diffusion Transformers for 3D Camera Control

論文の概要: VD3D: Taming Large Video Diffusion Transformers for 3D Camera Control

arxiv url: http://arxiv.org/abs/2407.12781v1
Date: Wed, 17 Jul 2024 17:59:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-18 16:06:20.153706
Title: VD3D: Taming Large Video Diffusion Transformers for 3D Camera Control
Title（参考訳）: VD3D:3Dカメラ制御のための大容量ビデオ拡散変換器の開発
Authors: Sherwin Bahmani, Ivan Skorokhodov, Aliaksandr Siarohin, Willi Menapace, Guocheng Qian, Michael Vasilkovsky, Hsin-Ying Lee, Chaoyang Wang, Jiaxu Zou, Andrea Tagliasacchi, David B. Lindell, Sergey Tulyakov,
Abstract要約: Plucker座標に基づく制御ネットライクなコンディショニング機構を用いた3次元カメラ制御のためのトランスフォーマー映像を試作する。我々の研究は、トランスフォーマーに基づくビデオ拡散モデルのカメラ制御を可能にする最初のものである。
参考スコア（独自算出の注目度）: 74.5434726968562
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Modern text-to-video synthesis models demonstrate coherent, photorealistic generation of complex videos from a text description. However, most existing models lack fine-grained control over camera movement, which is critical for downstream applications related to content creation, visual effects, and 3D vision. Recently, new methods demonstrate the ability to generate videos with controllable camera poses these techniques leverage pre-trained U-Net-based diffusion models that explicitly disentangle spatial and temporal generation. Still, no existing approach enables camera control for new, transformer-based video diffusion models that process spatial and temporal information jointly. Here, we propose to tame video transformers for 3D camera control using a ControlNet-like conditioning mechanism that incorporates spatiotemporal camera embeddings based on Plucker coordinates. The approach demonstrates state-of-the-art performance for controllable video generation after fine-tuning on the RealEstate10K dataset. To the best of our knowledge, our work is the first to enable camera control for transformer-based video diffusion models.
Abstract（参考訳）: 現代のテキスト・ビデオ合成モデルは、テキスト記述から複雑なビデオのコヒーレントでフォトリアリスティックな生成を示す。しかし、既存のほとんどのモデルは、カメラの動きをきめ細かな制御に欠けており、コンテンツ作成、視覚効果、および3Dビジョンに関連する下流アプリケーションにとって重要である。近年,映像を制御可能なカメラで生成する手法が,空間的・時間的生成を明示的に切り離す,事前学習したU-Net拡散モデルを活用することを実証している。しかし、既存のアプローチでは、空間情報と時間情報を共同で処理する新しいトランスフォーマーベースのビデオ拡散モデルに対して、カメラ制御が可能であることはない。本稿では,Plucker座標に基づく時空間カメラの埋め込みを組み込んだ制御ネット型コンディショニング機構を用いて,3次元カメラ制御のためのビデオトランスフォーマーを提案する。このアプローチは、RealEstate10Kデータセットを微調整した後、制御可能なビデオ生成のための最先端性能を示す。我々の知る限りでは、トランスフォーマーに基づくビデオ拡散モデルのカメラ制御を可能にする最初の試みである。

関連論文リスト

Uni3C: Unifying Precisely 3D-Enhanced Camera and Human Motion Controls for Video Generation [85.10745006495364]
映像生成におけるカメラと人間の動きを正確に制御するための統合フレームワークUni3Cを提案する。まず,フリーズビデオ生成バックボーンであるPCDControllerで学習したプラグイン・アンド・プレイ制御モジュールを提案する。第2に,景観点雲とSMPL-X文字をシームレスに統合する推論フェーズの3次元ワールドガイダンスを提案する。
論文参考訳（メタデータ） (2025-04-21T07:10:41Z)
Diffusion as Shader: 3D-aware Video Diffusion for Versatile Video Generation Control [73.10569113380775]
Diffusion as Shader (DaS)は、統一アーキテクチャ内で複数のビデオ制御タスクをサポートする新しいアプローチである。 DaSは3D追跡ビデオを制御入力として利用し、ビデオ拡散過程を本質的に3D対応にしている。 DaSは、メッシュ・ツー・ビデオ生成、カメラ制御、モーション転送、オブジェクト操作など、さまざまなタスクにわたる強力なコントロール機能を示している。
論文参考訳（メタデータ） (2025-01-07T15:01:58Z)
Free-Form Motion Control: Controlling the 6D Poses of Camera and Objects in Video Generation [78.65431951506152]
自由形運動制御のための合成データセット(SynFMC)を提案する。提案するSynFMCデータセットには、さまざまなオブジェクトと環境カテゴリが含まれている。特定のルールに従って様々な動きパターンをカバーし、一般的な、複雑な現実世界のシナリオをシミュレートする。完全な6Dポーズ情報は、ビデオ内のオブジェクトとカメラからの動き効果を遠ざけることを学習するモデルを容易にする。
論文参考訳（メタデータ） (2025-01-02T18:59:45Z)
AC3D: Analyzing and Improving 3D Camera Control in Video Diffusion Transformers [66.29824750770389]
カメラの動きを第一原理の観点から分析し、正確な3Dカメラ操作を可能にする洞察を明らかにする。これらの知見を合成して、高度な3Dカメラ制御(AC3D)アーキテクチャを設計する。
論文参考訳（メタデータ） (2024-11-27T18:49:13Z)
Boosting Camera Motion Control for Video Diffusion Transformers [21.151900688555624]
本研究では, トランスフォーマーベース拡散モデル (DiT) がカメラモーションの精度を著しく低下させることを示した。 DiTの持続的な動き劣化に対処するため、カメラモーションガイダンス(CMG)を導入し、カメラ制御を400%以上向上させる。提案手法はU-NetモデルとDiTモデルの両方に適用され,ビデオ生成タスクに改良されたカメラ制御を提供する。
論文参考訳（メタデータ） (2024-10-14T17:58:07Z)
Image Conductor: Precision Control for Interactive Video Synthesis [90.2353794019393]
映画製作とアニメーション制作は、しばしばカメラの遷移と物体の動きを調整するための洗練された技術を必要とする。イメージコンダクタ(Image Conductor)は、カメラトランジションとオブジェクトの動きを正確に制御し、単一の画像からビデオアセットを生成する方法である。
論文参考訳（メタデータ） (2024-06-21T17:55:05Z)
Training-free Camera Control for Video Generation [19.526135830699882]
本稿では,市販ビデオ拡散モデルに対して,カメラの動き制御を実現するためのトレーニングフリーで堅牢なソリューションを提案する。本手法では,カメラ注釈付きデータセットの教師付き微調整やデータ拡張による自己教師型トレーニングは不要である。
論文参考訳（メタデータ） (2024-06-14T15:33:00Z)
Ctrl-V: Higher Fidelity Video Generation with Bounding-Box Controlled Object Motion [8.068194154084967]
本稿では,現実的な映像合成において,物体の動きを正確に制御する方法を提案する。これを実現するために,バウンディングボックスを用いてオブジェクトの動きを制御し,この制御を画素空間内の2Dまたは3Dボックスのレンダリングに拡張する。我々の手法であるCtrl-Vは、修正および微調整された安定ビデオ拡散(SVD)モデルを利用して、軌跡生成と映像生成の両方を解決する。
論文参考訳（メタデータ） (2024-06-09T03:44:35Z)
CamCo: Camera-Controllable 3D-Consistent Image-to-Video Generation [117.16677556874278]
我々はCamCoを導入し、細粒度カメラのポーズ制御を画像からビデオへ生成する。生成したビデオの3D一貫性を高めるため,各アテンションブロックにエピポーラアテンションモジュールを統合する。実験の結果,CamCoは従来のモデルに比べて3次元の整合性とカメラ制御能力を大幅に向上することがわかった。
論文参考訳（メタデータ） (2024-06-04T17:27:19Z)
Collaborative Video Diffusion: Consistent Multi-video Generation with Camera Control [70.17137528953953]
コラボレーション型ビデオ拡散(CVD)は、ビデオ生成のための最先端のカメラ制御モジュール上で訓練される。 CVDは、異なるカメラ軌跡からレンダリングされた複数のビデオを、ベースラインよりもはるかに優れた一貫性で生成する。
論文参考訳（メタデータ） (2024-05-27T17:58:01Z)
CamViG: Camera Aware Image-to-Video Generation with Multimodal Transformers [18.67069364925506]
本稿では,3次元カメラ動作の符号化に生成した映像を条件付けすることで,仮想3Dカメラ制御を生成ビデオに付加することを提案する。その結果,(1)単一フレームとカメラ信号から始まる映像生成におけるカメラの制御に成功し,(2)従来のコンピュータビジョン手法を用いて生成された3Dカメラパスの精度を示すことができた。
論文参考訳（メタデータ） (2024-05-21T20:54:27Z)
MotionMaster: Training-free Camera Motion Transfer For Video Generation [48.706578330771386]
本稿では,映像中のカメラの動きと物体の動きをアンハングリングする,トレーニング不要な動画移動モデルを提案する。我々のモデルは、効果的にカメラオブジェクトの動きを分離し、分離されたカメラの動きを広範囲の制御可能なビデオ生成タスクに適用することができる。
論文参考訳（メタデータ） (2024-04-24T10:28:54Z)
CameraCtrl: Enabling Camera Control for Text-to-Video Generation [86.36135895375425]
ユーザーが希望するコンテンツを作成することができるため、ビデオ生成において制御性は重要な役割を担っている。既存のモデルは、撮影言語として機能するカメラポーズの正確な制御をほとんど見落としていた。我々は、テキスト・トゥ・ビデオ(T2V)モデルの正確なカメラポーズ制御を可能にするCameraCtrlを紹介する。
論文参考訳（メタデータ） (2024-04-02T16:52:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。