論文の概要: VidCRAFT3: Camera, Object, and Lighting Control for Image-to-Video Generation
- arxiv url: http://arxiv.org/abs/2502.07531v4
- Date: Fri, 26 Sep 2025 05:44:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 14:23:57.242423
- Title: VidCRAFT3: Camera, Object, and Lighting Control for Image-to-Video Generation
- Title(参考訳): VidCRAFT3:画像・映像生成のためのカメラ・オブジェクト・照明制御
- Authors: Sixiao Zheng, Zimian Peng, Yanpeng Zhou, Yi Zhu, Hang Xu, Xiangru Huang, Yanwei Fu,
- Abstract要約: 制御可能なイメージ・ツー・ビデオ(I2V)生成は、参照画像をユーザ指定の制御信号でガイドされたコヒーレントなビデオに変換する。
我々は、カメラモーション、オブジェクトモーション、照明方向の独立制御とジョイント制御をサポートする統合I2VフレームワークであるVidCRAFT3を提案する。
- 参考スコア(独自算出の注目度): 40.16313215714222
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Controllable image-to-video (I2V) generation transforms a reference image into a coherent video guided by user-specified control signals. In content creation workflows, precise and simultaneous control over camera motion, object motion, and lighting direction enhances both accuracy and flexibility. However, existing approaches typically treat these control signals separately, largely due to the scarcity of datasets with high-quality joint annotations and mismatched control spaces across modalities. We present VidCRAFT3, a unified and flexible I2V framework that supports both independent and joint control over camera motion, object motion, and lighting direction by integrating three core components. Image2Cloud reconstructs a 3D point cloud from the reference image to enable precise camera motion control. ObjMotionNet encodes sparse object trajectories into multi-scale optical flow features to guide object motion. The Spatial Triple-Attention Transformer integrates lighting direction embeddings via parallel cross-attention. To address the scarcity of jointly annotated data, we curate the VideoLightingDirection (VLD) dataset of synthetic static-scene video clips with per-frame lighting-direction labels, and adopt a three-stage training strategy that enables robust learning without fully joint annotations. Extensive experiments show that VidCRAFT3 outperforms existing methods in control precision and visual coherence. Code and data will be released. Project page: https://sixiaozheng.github.io/VidCRAFT3/.
- Abstract(参考訳): 制御可能なイメージ・ツー・ビデオ(I2V)生成は、参照画像をユーザ指定の制御信号でガイドされたコヒーレントなビデオに変換する。
コンテンツ作成ワークフローでは、カメラモーション、オブジェクトモーション、照明方向の正確かつ同時制御により、正確性と柔軟性が向上する。
しかし、既存のアプローチは一般的にこれらの制御信号を別々に扱うが、それは主に、高品質なジョイントアノテーションとモダリティ間のミスマッチした制御空間を持つデータセットが不足しているためである。
VidCRAFT3は,3つのコアコンポーネントを統合することで,カメラモーション,オブジェクトモーション,照明方向の独立制御とジョイント制御をサポートする,統一・フレキシブルなI2Vフレームワークである。
Image2Cloudは、基準画像から3Dポイントクラウドを再構成し、正確なカメラモーション制御を可能にする。
ObjMotionNetはスパースオブジェクトトラジェクトリをマルチスケールの光フロー特徴に符号化し、オブジェクトの動きを誘導する。
Space Triple-Attention Transformerは、並列なクロスアテンションを介して照明方向の埋め込みを統合する。
共同注釈付きデータの不足に対処するため,フレームごとのライティング指向ラベルを用いた合成静的シーンビデオクリップの VideoLightingDirection (VLD) データセットをキュレートし,完全ジョイントアノテーションを使わずに堅牢な学習を可能にする3段階のトレーニング戦略を採用する。
広汎な実験により、VidCRAFT3は制御精度と視覚的コヒーレンスにおいて既存の手法よりも優れていることが示された。
コードとデータはリリースされます。
プロジェクトページ: https://sixiaozheng.github.io/VidCRAFT3/
関連論文リスト
- IllumiCraft: Unified Geometry and Illumination Diffusion for Controllable Video Generation [79.1960960864242]
IllumiCraftは3つの補完的な入力を受け入れるエンドツーエンドの拡散フレームワークである。
ユーザの定義したプロンプトに沿った時間的に一貫性のあるビデオを生成する。
論文 参考訳(メタデータ) (2025-06-03T17:59:52Z) - I2V3D: Controllable image-to-video generation with 3D guidance [42.23117201457898]
IV23Dは、静的画像を正確な3D制御で動的ビデオにアニメーションするためのフレームワークである。
提案手法は,コンピュータグラフィックスパイプラインの精度と高度な生成モデルを組み合わせる。
論文 参考訳(メタデータ) (2025-03-12T18:26:34Z) - Diffusion as Shader: 3D-aware Video Diffusion for Versatile Video Generation Control [73.10569113380775]
Diffusion as Shader (DaS)は、統一アーキテクチャ内で複数のビデオ制御タスクをサポートする新しいアプローチである。
DaSは3D追跡ビデオを制御入力として利用し、ビデオ拡散過程を本質的に3D対応にしている。
DaSは、メッシュ・ツー・ビデオ生成、カメラ制御、モーション転送、オブジェクト操作など、さまざまなタスクにわたる強力なコントロール機能を示している。
論文 参考訳(メタデータ) (2025-01-07T15:01:58Z) - UniAvatar: Taming Lifelike Audio-Driven Talking Head Generation with Comprehensive Motion and Lighting Control [17.039951897703645]
広範囲の運動と照明条件を広範囲に制御するUniAvatarを導入する。
具体的には、FLAMEモデルを用いて、すべてのモーション情報を単一の画像にレンダリングし、3Dモーションの詳細の整合性を維持する。
我々は3次元動作と照明の両方を管理するために独立モジュールを設計し、分離制御と組み合わせ制御を可能にした。
論文 参考訳(メタデータ) (2024-12-26T07:39:08Z) - LeviTor: 3D Trajectory Oriented Image-to-Video Synthesis [80.2461057573121]
本研究では,新しい次元,すなわち深度次元との相互作用を増大させ,ユーザが軌道上の各点に対して相対的な深度を割り当てることを許す。
本稿では,オブジェクトマスクを数個のクラスタポイントに抽象化することで,画像から映像への3次元トラジェクトリ制御の先駆的手法を提案する。
静的画像から実写映像を生成する際の物体の動きを正確に操作する手法であるLeviTorの有効性を検証する実験を行った。
論文 参考訳(メタデータ) (2024-12-19T18:59:56Z) - VD3D: Taming Large Video Diffusion Transformers for 3D Camera Control [74.5434726968562]
Plucker座標に基づく制御ネットライクなコンディショニング機構を用いた3次元カメラ制御のためのトランスフォーマー映像を試作する。
我々の研究は、トランスフォーマーに基づくビデオ拡散モデルのカメラ制御を可能にする最初のものである。
論文 参考訳(メタデータ) (2024-07-17T17:59:05Z) - Ctrl-V: Higher Fidelity Video Generation with Bounding-Box Controlled Object Motion [8.068194154084967]
本稿では,現実的な映像合成において,物体の動きを正確に制御する方法を提案する。
これを実現するために,バウンディングボックスを用いてオブジェクトの動きを制御し,この制御を画素空間内の2Dまたは3Dボックスのレンダリングに拡張する。
我々の手法であるCtrl-Vは、修正および微調整された安定ビデオ拡散(SVD)モデルを利用して、軌跡生成と映像生成の両方を解決する。
論文 参考訳(メタデータ) (2024-06-09T03:44:35Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - Playable Environments: Video Manipulation in Space and Time [98.0621309257937]
再生可能な環境 - 空間と時間におけるインタラクティブなビデオ生成と操作のための新しい表現。
提案フレームワークでは,1枚の画像を推論時に生成し,対象物を3次元に移動させ,所望のアクションを連続して生成する。
提案手法は,各フレームの環境状態を構築し,提案したアクションモジュールで操作し,ボリュームレンダリングで画像空間に復号化することができる。
論文 参考訳(メタデータ) (2022-03-03T18:51:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。