Fugu-MT 論文翻訳(概要): IllumiCraft: Unified Geometry and Illumination Diffusion for Controllable Video Generation

論文の概要: IllumiCraft: Unified Geometry and Illumination Diffusion for Controllable Video Generation

arxiv url: http://arxiv.org/abs/2506.03150v1
Date: Tue, 03 Jun 2025 17:59:52 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-04 21:47:35.996013
Title: IllumiCraft: Unified Geometry and Illumination Diffusion for Controllable Video Generation
Title（参考訳）: IllumiCraft:制御可能なビデオ生成のための統一幾何学と照明拡散
Authors: Yuanze Lin, Yi-Wen Chen, Yi-Hsuan Tsai, Ronald Clark, Ming-Hsuan Yang,
Abstract要約: IllumiCraftは3つの補完的な入力を受け入れるエンドツーエンドの拡散フレームワークである。ユーザの定義したプロンプトに沿った時間的に一貫性のあるビデオを生成する。
参考スコア（独自算出の注目度）: 79.1960960864242
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Although diffusion-based models can generate high-quality and high-resolution video sequences from textual or image inputs, they lack explicit integration of geometric cues when controlling scene lighting and visual appearance across frames. To address this limitation, we propose IllumiCraft, an end-to-end diffusion framework accepting three complementary inputs: (1) high-dynamic-range (HDR) video maps for detailed lighting control; (2) synthetically relit frames with randomized illumination changes (optionally paired with a static background reference image) to provide appearance cues; and (3) 3D point tracks that capture precise 3D geometry information. By integrating the lighting, appearance, and geometry cues within a unified diffusion architecture, IllumiCraft generates temporally coherent videos aligned with user-defined prompts. It supports background-conditioned and text-conditioned video relighting and provides better fidelity than existing controllable video generation methods. Project Page: https://yuanze-lin.me/IllumiCraft_page
Abstract（参考訳）: 拡散ベースモデルはテキスト入力や画像入力から高品質で高解像度のビデオシーケンスを生成することができるが、フレーム間のシーンライティングや視覚的外観を制御する際には幾何学的手がかりの明示的な統合が欠如している。この制限に対処するために、(1)細かな照明制御のための高ダイナミックレンジ(HDR)ビデオマップ、(2)ランダムな照明変化(オプションで静的な背景参照画像と組み合わせる)を生かしたフレーム、(3)正確な3D幾何情報をキャプチャする3Dポイントトラックの3つの補完的な入力を受信するエンドツーエンド拡散フレームワークであるIllumiCraftを提案する。 IllumiCraftは、照明、外観、幾何学を統合拡散アーキテクチャに統合することにより、ユーザ定義のプロンプトに整合した時間的コヒーレントなビデオを生成する。背景条件付きおよびテキスト条件付きビデオリライトをサポートし、既存の制御可能なビデオ生成方法よりも忠実である。 Project Page: https://yuanze-lin.me/IllumiCraft_page

関連論文リスト

GR3EN: Generative Relighting for 3D Environments [52.77521698841744]
本研究では,大規模な室内環境の3次元再構成をリライトする手法を提案する。提案手法は,映像間リライト拡散モデルの出力を3次元再構成に蒸留することにより,室内空間の3次元リライト化を可能にする。これにより、複雑な現実世界のシーンの3D再構成をリライトできるフレキシブルなシステムを実現することができる。
論文参考訳（メタデータ） (2026-01-22T19:10:05Z)
Light-X: Generative 4D Video Rendering with Camera and Illumination Control [52.87059646145144]
Light-Xは、視点制御と照明制御の両方でモノクロビデオから制御可能なレンダリングを可能にする、ビデオ生成フレームワークである。マルチビューとマルチイルミネーションのペアビデオの欠如に対処するために,逆マッピングを備えた劣化ベースのパイプラインであるLight-Synを導入する。
論文参考訳（メタデータ） (2025-12-04T18:59:57Z)
ReLumix: Extending Image Relighting to Video via Video Diffusion Models [5.890782804843724]
ビデオのポストプロダクション中に照明を制御することは、計算写真において重要な目標である。本稿では、時間合成からリライトを分離する新しいフレームワークであるReLumixを紹介する。 ReLumixは、合成データに基づいて訓練されているが、実世界のビデオに対する競争上の一般化を示している。
論文参考訳（メタデータ） (2025-09-28T09:35:33Z)
Lumen: Consistent Video Relighting and Harmonious Background Replacement with Video Generative Models [18.008901495139717]
本稿では,大規模ビデオ生成モデルを用いたエンドツーエンドのビデオリライトフレームワークであるLumenを提案する。合成ドメインでは、高度な3Dレンダリングエンジンを活用し、多様な環境でビデオペアをキュレートする。現実的な領域では、HDRベースの照明シミュレーションを適用して、ペアの内蔵ビデオの欠如を補う。
論文参考訳（メタデータ） (2025-08-18T14:21:22Z)
Light-A-Video: Training-free Video Relighting via Progressive Light Fusion [52.420894727186216]
Light-A-Videoは、時間的にスムーズなビデオリライティングを実現するためのトレーニング不要のアプローチである。 Light-A-Videoは、画像のリライティングモデルに適応して、照明の一貫性を高める2つの重要な技術を導入している。
論文参考訳（メタデータ） (2025-02-12T17:24:19Z)
VidCRAFT3: Camera, Object, and Lighting Control for Image-to-Video Generation [62.64811405314847]
VidCRAFT3は、画像とビデオの正確な生成のための新しいフレームワークである。カメラの動き、物体の動き、照明方向を同時に制御できる。高品質なビデオコンテンツを生成し、粒度と視覚的コヒーレンスを制御する最先端の手法より優れている。
論文参考訳（メタデータ） (2025-02-11T13:11:59Z)
Real-time 3D-aware Portrait Video Relighting [89.41078798641732]
ニューラル・ラジアンス・フィールド(NeRF)を応用した3次元映像の映像再生のための3D認識方式を提案する。我々は、高速なデュアルエンコーダを備えたビデオフレーム毎に所望の照明条件に基づいて、アルベド三面体とシェーディング三面体を推定する。本手法は, 消費者レベルのハードウェア上で32.98fpsで動作し, 再現性, 照明誤差, 照明不安定性, 時間的整合性, 推論速度の両面から最新の結果が得られる。
論文参考訳（メタデータ） (2024-10-24T01:34:11Z)
SyncNoise: Geometrically Consistent Noise Prediction for Text-based 3D Scene Editing [58.22339174221563]
高忠実度3Dシーン編集のための新しい幾何誘導型マルチビュー一貫したノイズ編集手法SyncNoiseを提案する。 SyncNoiseは2次元拡散モデルで複数のビューを同期的に編集し、幾何的に一貫した多視点ノイズ予測を行う。本手法は,特に複雑なテクスチャを持つシーンにおいて,テキストの指示に配慮した高品質な3D編集結果を実現する。
論文参考訳（メタデータ） (2024-06-25T09:17:35Z)
MoVideo: Motion-Aware Video Generation with Diffusion Models [97.03352319694795]
本稿では,映像深度と光フローの2つの側面から動きを考慮に入れたモーションアウェア・ジェネレーション(MoVideo)フレームワークを提案する。 MoVideoは、テキスト・トゥ・ビデオと画像・トゥ・ビデオ生成の両方で最先端の結果を達成し、期待できる即時一貫性、フレームの整合性、視覚的品質を示す。
論文参考訳（メタデータ） (2023-11-19T13:36:03Z)
Relightable 3D Head Portraits from a Smartphone Video [15.639140551193073]
本稿では,人間の頭部の3D像を再現するシステムを提案する。私たちのニューラルパイプラインは、スマートフォンのカメラがフラッシュ点滅で撮影したフレームのシーケンスで動作します。ディープレンダリングネットワークは、任意の新しい視点のために密なアルベド、ノーマル、環境照明マップを後退させるように訓練される。
論文参考訳（メタデータ） (2020-12-17T22:49:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。