論文の概要: VidCRAFT3: Camera, Object, and Lighting Control for Image-to-Video Generation
- arxiv url: http://arxiv.org/abs/2502.07531v2
- Date: Wed, 12 Feb 2025 07:35:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 13:50:59.407005
- Title: VidCRAFT3: Camera, Object, and Lighting Control for Image-to-Video Generation
- Title(参考訳): VidCRAFT3:画像・映像生成のためのカメラ・オブジェクト・照明制御
- Authors: Sixiao Zheng, Zimian Peng, Yanpeng Zhou, Yi Zhu, Hang Xu, Xiangru Huang, Yanwei Fu,
- Abstract要約: VidCRAFT3は、画像から映像までを正確に生成するための新しいフレームワークである。
カメラの動き、物体の動き、照明方向を同時に制御できる。
ベンチマークデータセットの実験では、高品質のビデオコンテンツの生成におけるVidCRAFT3の有効性が示されている。
- 参考スコア(独自算出の注目度): 62.64811405314847
- License:
- Abstract: Recent image-to-video generation methods have demonstrated success in enabling control over one or two visual elements, such as camera trajectory or object motion. However, these methods are unable to offer control over multiple visual elements due to limitations in data and network efficacy. In this paper, we introduce VidCRAFT3, a novel framework for precise image-to-video generation that enables control over camera motion, object motion, and lighting direction simultaneously. To better decouple control over each visual element, we propose the Spatial Triple-Attention Transformer, which integrates lighting direction, text, and image in a symmetric way. Since most real-world video datasets lack lighting annotations, we construct a high-quality synthetic video dataset, the VideoLightingDirection (VLD) dataset. This dataset includes lighting direction annotations and objects of diverse appearance, enabling VidCRAFT3 to effectively handle strong light transmission and reflection effects. Additionally, we propose a three-stage training strategy that eliminates the need for training data annotated with multiple visual elements (camera motion, object motion, and lighting direction) simultaneously. Extensive experiments on benchmark datasets demonstrate the efficacy of VidCRAFT3 in producing high-quality video content, surpassing existing state-of-the-art methods in terms of control granularity and visual coherence. All code and data will be publicly available.
- Abstract(参考訳): 最近の画像から映像への生成手法は、カメラ軌道や物体の動きなどの1つまたは2つの視覚的要素を制御できることを実証している。
しかし、これらの手法は、データとネットワークの有効性の制限により、複数の視覚要素を制御できない。
本稿では,カメラの動き,物体の動き,照明方向を同時に制御できる,映像と映像の正確な生成のための新しいフレームワークであるVidCRAFT3を紹介する。
本研究では、各視覚要素の制御をよりよく分離するために、光方向、テキスト、画像を対称的に統合する空間三重アテンション変換器を提案する。
ほとんどの実世界のビデオデータセットには照明アノテーションがないため、高品質な合成ビデオデータセットであるVideoLightingDirection(VLD)データセットを構築します。
このデータセットには、様々な外観の照明方向アノテーションとオブジェクトが含まれており、VidCRAFT3は強力な光透過と反射効果を効果的に処理することができる。
さらに,複数の視覚要素(カメラの動き,物体の動き,照明方向)を同時にアノテートしたトレーニングデータの必要性を解消する3段階のトレーニング戦略を提案する。
ベンチマークデータセットに対する大規模な実験は、制御の粒度と視覚的コヒーレンスの観点から、既存の最先端の手法を超越した高品質なビデオコンテンツを作成する上で、VidCRAFT3の有効性を示す。
すべてのコードとデータは公開されます。
関連論文リスト
- Diffusion as Shader: 3D-aware Video Diffusion for Versatile Video Generation Control [73.10569113380775]
Diffusion as Shader (DaS)は、統一アーキテクチャ内で複数のビデオ制御タスクをサポートする新しいアプローチである。
DaSは3D追跡ビデオを制御入力として利用し、ビデオ拡散過程を本質的に3D対応にしている。
DaSは、メッシュ・ツー・ビデオ生成、カメラ制御、モーション転送、オブジェクト操作など、さまざまなタスクにわたる強力なコントロール機能を示している。
論文 参考訳(メタデータ) (2025-01-07T15:01:58Z) - UniAvatar: Taming Lifelike Audio-Driven Talking Head Generation with Comprehensive Motion and Lighting Control [17.039951897703645]
広範囲の運動と照明条件を広範囲に制御するUniAvatarを導入する。
具体的には、FLAMEモデルを用いて、すべてのモーション情報を単一の画像にレンダリングし、3Dモーションの詳細の整合性を維持する。
我々は3次元動作と照明の両方を管理するために独立モジュールを設計し、分離制御と組み合わせ制御を可能にした。
論文 参考訳(メタデータ) (2024-12-26T07:39:08Z) - LeviTor: 3D Trajectory Oriented Image-to-Video Synthesis [80.2461057573121]
本研究では,新しい次元,すなわち深度次元との相互作用を増大させ,ユーザが軌道上の各点に対して相対的な深度を割り当てることを許す。
本稿では,オブジェクトマスクを数個のクラスタポイントに抽象化することで,画像から映像への3次元トラジェクトリ制御の先駆的手法を提案する。
静的画像から実写映像を生成する際の物体の動きを正確に操作する手法であるLeviTorの有効性を検証する実験を行った。
論文 参考訳(メタデータ) (2024-12-19T18:59:56Z) - VD3D: Taming Large Video Diffusion Transformers for 3D Camera Control [74.5434726968562]
Plucker座標に基づく制御ネットライクなコンディショニング機構を用いた3次元カメラ制御のためのトランスフォーマー映像を試作する。
我々の研究は、トランスフォーマーに基づくビデオ拡散モデルのカメラ制御を可能にする最初のものである。
論文 参考訳(メタデータ) (2024-07-17T17:59:05Z) - Image Conductor: Precision Control for Interactive Video Synthesis [90.2353794019393]
映画製作とアニメーション制作は、しばしばカメラの遷移と物体の動きを調整するための洗練された技術を必要とする。
イメージコンダクタ(Image Conductor)は、カメラトランジションとオブジェクトの動きを正確に制御し、単一の画像からビデオアセットを生成する方法である。
論文 参考訳(メタデータ) (2024-06-21T17:55:05Z) - Ctrl-V: Higher Fidelity Video Generation with Bounding-Box Controlled Object Motion [8.068194154084967]
本稿では,現実的な映像合成において,物体の動きを正確に制御する方法を提案する。
これを実現するために,バウンディングボックスを用いてオブジェクトの動きを制御し,この制御を画素空間内の2Dまたは3Dボックスのレンダリングに拡張する。
我々の手法であるCtrl-Vは、修正および微調整された安定ビデオ拡散(SVD)モデルを利用して、軌跡生成と映像生成の両方を解決する。
論文 参考訳(メタデータ) (2024-06-09T03:44:35Z) - CamViG: Camera Aware Image-to-Video Generation with Multimodal Transformers [18.67069364925506]
本稿では,3次元カメラ動作の符号化に生成した映像を条件付けすることで,仮想3Dカメラ制御を生成ビデオに付加することを提案する。
その結果,(1)単一フレームとカメラ信号から始まる映像生成におけるカメラの制御に成功し,(2)従来のコンピュータビジョン手法を用いて生成された3Dカメラパスの精度を示すことができた。
論文 参考訳(メタデータ) (2024-05-21T20:54:27Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。