論文の概要: VidCRAFT3: Camera, Object, and Lighting Control for Image-to-Video Generation
- arxiv url: http://arxiv.org/abs/2502.07531v3
- Date: Wed, 02 Apr 2025 03:56:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:17:22.183146
- Title: VidCRAFT3: Camera, Object, and Lighting Control for Image-to-Video Generation
- Title(参考訳): VidCRAFT3:画像・映像生成のためのカメラ・オブジェクト・照明制御
- Authors: Sixiao Zheng, Zimian Peng, Yanpeng Zhou, Yi Zhu, Hang Xu, Xiangru Huang, Yanwei Fu,
- Abstract要約: VidCRAFT3は、画像とビデオの正確な生成のための新しいフレームワークである。
カメラの動き、物体の動き、照明方向を同時に制御できる。
高品質なビデオコンテンツを生成し、粒度と視覚的コヒーレンスを制御する最先端の手法より優れている。
- 参考スコア(独自算出の注目度): 62.64811405314847
- License:
- Abstract: Recent image-to-video generation methods have demonstrated success in enabling control over one or two visual elements, such as camera motion or object motion. However, these methods are unable to offer control over multiple visual elements due to limitations in data and network efficacy. In this paper, we introduce VidCRAFT3, a novel framework for precise image-to-video generation that enables control over camera motion, object motion, and lighting direction simultaneously. VidCRAFT3 integrates three core components: Image2Cloud generates 3D point cloud from a reference image; ObjMotionNet encodes sparse object trajectories using multi-scale optical flow features; and Spatial Triple-Attention Transformer incorporates lighting direction embeddings via parallel cross-attention modules. Additionally, we introduce the VideoLightingDirection dataset, providing synthetic yet realistic video clips with accurate per-frame lighting direction annotations, effectively mitigating the lack of annotated real-world datasets. We further adopt a three-stage training strategy, ensuring robust learning even without joint multi-element annotations. Extensive experiments show that VidCRAFT3 produces high-quality video content, outperforming state-of-the-art methods in control granularity and visual coherence. Code and data will be publicly available.
- Abstract(参考訳): 最近の画像から映像への生成手法は、カメラの動きや物体の動きなどの1つまたは2つの視覚的要素を制御できることを実証している。
しかし、これらの手法は、データとネットワークの有効性の制限により、複数の視覚要素を制御できない。
本稿では,カメラの動き,物体の動き,照明方向を同時に制御できる,映像と映像の正確な生成のための新しいフレームワークであるVidCRAFT3を紹介する。
VidCRAFT3は3つのコアコンポーネントを統合している: Image2Cloudは参照画像から3Dポイントクラウドを生成し、ObjMotionNetはマルチスケールの光フロー機能を使ってスパースオブジェクトトラジェクトリを符号化する。
さらに,フレーム毎の正確な照明方向アノテーションを合成し,現実的なビデオクリップを提供するVideoLightingDirectionデータセットを導入し,アノテートされた実世界のデータセットの欠如を効果的に軽減する。
我々はさらに3段階のトレーニング戦略を採用し、共同のマルチ要素アノテーションを使わずに堅牢な学習を確保する。
広汎な実験により、VidCRAFT3は高品質な映像コンテンツを制作し、粒度と視覚的コヒーレンスを制御する最先端の手法よりも優れていた。
コードとデータは公開されます。
関連論文リスト
- Diffusion as Shader: 3D-aware Video Diffusion for Versatile Video Generation Control [73.10569113380775]
Diffusion as Shader (DaS)は、統一アーキテクチャ内で複数のビデオ制御タスクをサポートする新しいアプローチである。
DaSは3D追跡ビデオを制御入力として利用し、ビデオ拡散過程を本質的に3D対応にしている。
DaSは、メッシュ・ツー・ビデオ生成、カメラ制御、モーション転送、オブジェクト操作など、さまざまなタスクにわたる強力なコントロール機能を示している。
論文 参考訳(メタデータ) (2025-01-07T15:01:58Z) - UniAvatar: Taming Lifelike Audio-Driven Talking Head Generation with Comprehensive Motion and Lighting Control [17.039951897703645]
広範囲の運動と照明条件を広範囲に制御するUniAvatarを導入する。
具体的には、FLAMEモデルを用いて、すべてのモーション情報を単一の画像にレンダリングし、3Dモーションの詳細の整合性を維持する。
我々は3次元動作と照明の両方を管理するために独立モジュールを設計し、分離制御と組み合わせ制御を可能にした。
論文 参考訳(メタデータ) (2024-12-26T07:39:08Z) - LeviTor: 3D Trajectory Oriented Image-to-Video Synthesis [80.2461057573121]
本研究では,新しい次元,すなわち深度次元との相互作用を増大させ,ユーザが軌道上の各点に対して相対的な深度を割り当てることを許す。
本稿では,オブジェクトマスクを数個のクラスタポイントに抽象化することで,画像から映像への3次元トラジェクトリ制御の先駆的手法を提案する。
静的画像から実写映像を生成する際の物体の動きを正確に操作する手法であるLeviTorの有効性を検証する実験を行った。
論文 参考訳(メタデータ) (2024-12-19T18:59:56Z) - VD3D: Taming Large Video Diffusion Transformers for 3D Camera Control [74.5434726968562]
Plucker座標に基づく制御ネットライクなコンディショニング機構を用いた3次元カメラ制御のためのトランスフォーマー映像を試作する。
我々の研究は、トランスフォーマーに基づくビデオ拡散モデルのカメラ制御を可能にする最初のものである。
論文 参考訳(メタデータ) (2024-07-17T17:59:05Z) - Image Conductor: Precision Control for Interactive Video Synthesis [90.2353794019393]
映画製作とアニメーション制作は、しばしばカメラの遷移と物体の動きを調整するための洗練された技術を必要とする。
イメージコンダクタ(Image Conductor)は、カメラトランジションとオブジェクトの動きを正確に制御し、単一の画像からビデオアセットを生成する方法である。
論文 参考訳(メタデータ) (2024-06-21T17:55:05Z) - Ctrl-V: Higher Fidelity Video Generation with Bounding-Box Controlled Object Motion [8.068194154084967]
本稿では,現実的な映像合成において,物体の動きを正確に制御する方法を提案する。
これを実現するために,バウンディングボックスを用いてオブジェクトの動きを制御し,この制御を画素空間内の2Dまたは3Dボックスのレンダリングに拡張する。
我々の手法であるCtrl-Vは、修正および微調整された安定ビデオ拡散(SVD)モデルを利用して、軌跡生成と映像生成の両方を解決する。
論文 参考訳(メタデータ) (2024-06-09T03:44:35Z) - CamViG: Camera Aware Image-to-Video Generation with Multimodal Transformers [18.67069364925506]
本稿では,3次元カメラ動作の符号化に生成した映像を条件付けすることで,仮想3Dカメラ制御を生成ビデオに付加することを提案する。
その結果,(1)単一フレームとカメラ信号から始まる映像生成におけるカメラの制御に成功し,(2)従来のコンピュータビジョン手法を用いて生成された3Dカメラパスの精度を示すことができた。
論文 参考訳(メタデータ) (2024-05-21T20:54:27Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。