論文の概要: IllumiCraft: Unified Geometry and Illumination Diffusion for Controllable Video Generation
- arxiv url: http://arxiv.org/abs/2506.03150v1
- Date: Tue, 03 Jun 2025 17:59:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.996013
- Title: IllumiCraft: Unified Geometry and Illumination Diffusion for Controllable Video Generation
- Title(参考訳): IllumiCraft:制御可能なビデオ生成のための統一幾何学と照明拡散
- Authors: Yuanze Lin, Yi-Wen Chen, Yi-Hsuan Tsai, Ronald Clark, Ming-Hsuan Yang,
- Abstract要約: IllumiCraftは3つの補完的な入力を受け入れるエンドツーエンドの拡散フレームワークである。
ユーザの定義したプロンプトに沿った時間的に一貫性のあるビデオを生成する。
- 参考スコア(独自算出の注目度): 79.1960960864242
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although diffusion-based models can generate high-quality and high-resolution video sequences from textual or image inputs, they lack explicit integration of geometric cues when controlling scene lighting and visual appearance across frames. To address this limitation, we propose IllumiCraft, an end-to-end diffusion framework accepting three complementary inputs: (1) high-dynamic-range (HDR) video maps for detailed lighting control; (2) synthetically relit frames with randomized illumination changes (optionally paired with a static background reference image) to provide appearance cues; and (3) 3D point tracks that capture precise 3D geometry information. By integrating the lighting, appearance, and geometry cues within a unified diffusion architecture, IllumiCraft generates temporally coherent videos aligned with user-defined prompts. It supports background-conditioned and text-conditioned video relighting and provides better fidelity than existing controllable video generation methods. Project Page: https://yuanze-lin.me/IllumiCraft_page
- Abstract(参考訳): 拡散ベースモデルはテキスト入力や画像入力から高品質で高解像度のビデオシーケンスを生成することができるが、フレーム間のシーンライティングや視覚的外観を制御する際には幾何学的手がかりの明示的な統合が欠如している。
この制限に対処するために、(1)細かな照明制御のための高ダイナミックレンジ(HDR)ビデオマップ、(2)ランダムな照明変化(オプションで静的な背景参照画像と組み合わせる)を生かしたフレーム、(3)正確な3D幾何情報をキャプチャする3Dポイントトラックの3つの補完的な入力を受信するエンドツーエンド拡散フレームワークであるIllumiCraftを提案する。
IllumiCraftは、照明、外観、幾何学を統合拡散アーキテクチャに統合することにより、ユーザ定義のプロンプトに整合した時間的コヒーレントなビデオを生成する。
背景条件付きおよびテキスト条件付きビデオリライトをサポートし、既存の制御可能なビデオ生成方法よりも忠実である。
Project Page: https://yuanze-lin.me/IllumiCraft_page
関連論文リスト
- Light-A-Video: Training-free Video Relighting via Progressive Light Fusion [52.420894727186216]
Light-A-Videoは、時間的にスムーズなビデオリライティングを実現するためのトレーニング不要のアプローチである。
Light-A-Videoは、画像のリライティングモデルに適応して、照明の一貫性を高める2つの重要な技術を導入している。
論文 参考訳(メタデータ) (2025-02-12T17:24:19Z) - VidCRAFT3: Camera, Object, and Lighting Control for Image-to-Video Generation [62.64811405314847]
VidCRAFT3は、画像とビデオの正確な生成のための新しいフレームワークである。
カメラの動き、物体の動き、照明方向を同時に制御できる。
高品質なビデオコンテンツを生成し、粒度と視覚的コヒーレンスを制御する最先端の手法より優れている。
論文 参考訳(メタデータ) (2025-02-11T13:11:59Z) - SyncNoise: Geometrically Consistent Noise Prediction for Text-based 3D Scene Editing [58.22339174221563]
高忠実度3Dシーン編集のための新しい幾何誘導型マルチビュー一貫したノイズ編集手法SyncNoiseを提案する。
SyncNoiseは2次元拡散モデルで複数のビューを同期的に編集し、幾何的に一貫した多視点ノイズ予測を行う。
本手法は,特に複雑なテクスチャを持つシーンにおいて,テキストの指示に配慮した高品質な3D編集結果を実現する。
論文 参考訳(メタデータ) (2024-06-25T09:17:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。