論文の概要: Factorized Video Generation: Decoupling Scene Construction and Temporal Synthesis in Text-to-Video Diffusion Models
- arxiv url: http://arxiv.org/abs/2512.16371v1
- Date: Thu, 18 Dec 2025 10:10:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.007113
- Title: Factorized Video Generation: Decoupling Scene Construction and Temporal Synthesis in Text-to-Video Diffusion Models
- Title(参考訳): 因子化映像生成:テキスト・ビデオ拡散モデルにおけるシーン構築と時間合成の分離
- Authors: Mariam Hassan, Bastien Van Delft, Wuyang Li, Alexandre Alahi,
- Abstract要約: State-of-the-the-art Text-to-Video (T2V)拡散モデルは視覚的に印象的な結果を生成することができるが、複雑なシーンを作成したり、論理的時間的指示に従うのに失敗することが多い。
テキスト・ツー・ビデオ・ジェネレーションを3つの特殊ステージに分解することでこれらのタスクを分離するパイプラインであるFVGを紹介した。
提案手法は,T2V CompBench ベンチマークに新たな最先端技術を導入し,VBench2 上でのテストモデルすべてを大幅に改善する。
- 参考スコア(独自算出の注目度): 76.7535001311919
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art Text-to-Video (T2V) diffusion models can generate visually impressive results, yet they still frequently fail to compose complex scenes or follow logical temporal instructions. In this paper, we argue that many errors, including apparent motion failures, originate from the model's inability to construct a semantically correct or logically consistent initial frame. We introduce Factorized Video Generation (FVG), a pipeline that decouples these tasks by decomposing the Text-to-Video generation into three specialized stages: (1) Reasoning, where a Large Language Model (LLM) rewrites the video prompt to describe only the initial scene, resolving temporal ambiguities; (2) Composition, where a Text-to-Image (T2I) model synthesizes a high-quality, compositionally-correct anchor frame from this new prompt; and (3) Temporal Synthesis, where a video model, finetuned to understand this anchor, focuses its entire capacity on animating the scene and following the prompt. Our decomposed approach sets a new state-of-the-art on the T2V CompBench benchmark and significantly improves all tested models on VBench2. Furthermore, we show that visual anchoring allows us to cut the number of sampling steps by 70% without any loss in performance, leading to a substantial speed-up in sampling. Factorized Video Generation offers a simple yet practical path toward more efficient, robust, and controllable video synthesis
- Abstract(参考訳): State-of-the-the-art Text-to-Video (T2V)拡散モデルは視覚的に印象的な結果を生成することができるが、複雑なシーンを作成したり、論理的時間的指示に従うのに失敗することが多い。
本稿では,動作障害を含む多くのエラーは,意味論的に正しい,論理的に整合した初期フレームを構築することができないことから生じると論じる。
1)大規模言語モデル(LLM)がビデオプロンプトを書き換えて初期シーンのみを記述し、時間的曖昧さを解消する、(2)テキスト・トゥ・イメージ(T2I)モデルが高品質で構成的に正確なアンカーフレームをこの新しいプロンプトから合成する、(3)映像モデルを微調整し、このアンカーをアニメーションし、プロンプトを追従する、という3つの特殊なステージに分解してこれらのタスクを分解するパイプラインであるFVGを紹介する。
我々の分解されたアプローチは、T2V CompBenchベンチマークに新しい最先端のモデルを設定し、VBench2の全てのテストモデルを大幅に改善する。
さらに,視覚的アンカーにより,性能の低下を伴わずにサンプリングステップ数を70%削減できることが示され,サンプリングの大幅な高速化がもたらされた。
Factorized Video Generationは、より効率的で堅牢で制御可能なビデオ合成へのシンプルかつ実践的な道を提供する
関連論文リスト
- Video Text Preservation with Synthetic Text-Rich Videos [5.03317364227682]
テキスト・トゥ・ビデオ(T2V)モデルは、ビデオ内で正当で一貫性のあるテキストを生成するのに苦労する。
本研究では,T2V拡散モデルを改善するための軽量な手法について,合成監督法を用いて検討する。
論文 参考訳(メタデータ) (2025-11-04T16:20:38Z) - We'll Fix it in Post: Improving Text-to-Video Generation with Neuro-Symbolic Feedback [5.743225523680124]
現在のテキスト・ツー・ビデオ(T2V)生成モデルは、より長く複雑なプロンプトを扱う際に意味的かつ時間的に一貫したビデオを生成するのに苦労している。
ニューロS-Eは、ニューロシンボリックフィードバックを利用してビデオ生成を自動的に強化する、新しいゼロトレーニングビデオリファインメントパイプラインである。
提案手法は,まず,形式的ビデオ表現と意味的に一貫性のないイベント,オブジェクト,およびそれに対応するフレームをピンポイントで解析することにより,ニューロシンボリックフィードバックを導出する。
論文 参考訳(メタデータ) (2025-04-24T01:34:12Z) - xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations [120.52120919834988]
xGen-SynVideo-1(xGen-SynVideo-1)は、テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルである。
VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さを大幅に削減する。
DiTモデルは、空間的および時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比をまたいだ堅牢な一般化を可能にする。
論文 参考訳(メタデータ) (2024-08-22T17:55:22Z) - FancyVideo: Towards Dynamic and Consistent Video Generation via Cross-frame Textual Guidance [3.6519202494141125]
我々は、既存のテキスト制御機構を改善する革新的なビデオジェネレータであるFancyVideoを紹介した。
CTGMは、TII(Temporal Information)とTAR(Temporal Affinity Refiner)をクロスアテンションの開始と終了に組み込んでいる。
提案手法は,EvalCrafterベンチマークを用いて,最先端のT2V生成結果を実現する。
論文 参考訳(メタデータ) (2024-08-15T14:47:44Z) - TC-Bench: Benchmarking Temporal Compositionality in Text-to-Video and Image-to-Video Generation [97.96178992465511]
生成したビデオは、新しい概念の出現と、時間経過とともに現実の動画のようにそれらの関係の遷移を取り入れるべきである、と我々は主張する。
ビデオ生成モデルの時間構成性を評価するため,細部まで作り上げたテキストプロンプトのベンチマークであるTC-Benchと,それに対応する地上の真理ビデオ,ロバストな評価指標を提案する。
論文 参考訳(メタデータ) (2024-06-12T21:41:32Z) - Control-A-Video: Controllable Text-to-Video Diffusion Models with Motion Prior and Reward Feedback Learning [50.60891619269651]
Control-A-Videoは制御可能なT2V拡散モデルであり、テキストプロンプトやエッジや奥行きマップのような参照制御マップに条件付のビデオを生成することができる。
本稿では,拡散に基づく生成プロセスに,コンテンツの事前と動作を組み込む新しい手法を提案する。
我々のフレームワークは、制御可能なテキスト・ツー・ビデオ生成における既存の最先端手法と比較して、高品質で一貫性のあるビデオを生成する。
論文 参考訳(メタデータ) (2023-05-23T09:03:19Z) - Make-A-Video: Text-to-Video Generation without Text-Video Data [69.20996352229422]
Make-A-Videoは、テキスト・トゥ・イメージ(T2I)生成における最新の進歩をテキスト・トゥ・ビデオ(T2V)に変換するアプローチである。
我々は,新しい空間時空間モジュールを用いたT2Iモデル上に構築する,シンプルで効果的な手法を設計する。
空間的および時間的解像度、テキストへの忠実さ、品質など、あらゆる面で、Make-A-Videoは、テキスト・ビデオ生成における新しい最先端を定めている。
論文 参考訳(メタデータ) (2022-09-29T13:59:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。