論文の概要: DyST-XL: Dynamic Layout Planning and Content Control for Compositional Text-to-Video Generation
- arxiv url: http://arxiv.org/abs/2504.15032v2
- Date: Wed, 30 Apr 2025 01:00:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:52.73936
- Title: DyST-XL: Dynamic Layout Planning and Content Control for Compositional Text-to-Video Generation
- Title(参考訳): DyST-XL: テキスト・ビデオ合成のための動的レイアウト計画とコンテンツ制御
- Authors: Weijie He, Mushui Liu, Yunlong Yu, Zhao Wang, Chao Wu,
- Abstract要約: DyST-XLは、フレーム認識制御により、既製のテキスト・ビデオモデルを強化するフレームワークである。
コードはhttps://github.com/XiaoBuL/DyST-XLで公開されている。
- 参考スコア(独自算出の注目度): 14.34140569565309
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Compositional text-to-video generation, which requires synthesizing dynamic scenes with multiple interacting entities and precise spatial-temporal relationships, remains a critical challenge for diffusion-based models. Existing methods struggle with layout discontinuity, entity identity drift, and implausible interaction dynamics due to unconstrained cross-attention mechanisms and inadequate physics-aware reasoning. To address these limitations, we propose DyST-XL, a \textbf{training-free} framework that enhances off-the-shelf text-to-video models (e.g., CogVideoX-5B) through frame-aware control. DyST-XL integrates three key innovations: (1) A Dynamic Layout Planner that leverages large language models (LLMs) to parse input prompts into entity-attribute graphs and generates physics-aware keyframe layouts, with intermediate frames interpolated via trajectory optimization; (2) A Dual-Prompt Controlled Attention Mechanism that enforces localized text-video alignment through frame-aware attention masking, achieving precise control over individual entities; and (3) An Entity-Consistency Constraint strategy that propagates first-frame feature embeddings to subsequent frames during denoising, preserving object identity without manual annotation. Experiments demonstrate that DyST-XL excels in compositional text-to-video generation, significantly improving performance on complex prompts and bridging a crucial gap in training-free video synthesis. The code is released in https://github.com/XiaoBuL/DyST-XL.
- Abstract(参考訳): 複数の相互作用する実体と正確な時空間関係を持つ動的シーンの合成を必要とする合成テキスト・ビデオ生成は、拡散モデルにとって重要な課題である。
既存の手法は、レイアウトの不連続性、エンティティアイデンティティのドリフト、制約のないクロスアテンション機構と不適切な物理認識推論による不確実な相互作用のダイナミクスに苦慮している。
このような制約に対処するため、フレーム認識制御によるオフザシェルフテキスト・ツー・ビデオモデル(例えば、CogVideoX-5B)を強化する、textbf{training-free}フレームワークであるDyST-XLを提案する。
DyST-XLは3つの重要なイノベーションを統合している。(1) 大規模言語モデル(LLM)を活用して入力プロンプトをエンティティ属性グラフに解析し、物理を意識したキーフレームレイアウトを生成する動的レイアウトプランナ、(2) 軌道最適化によって補間された中間フレーム、(2) フレーム認識による局所的なテキスト音声アライメントを強制し、個々のエンティティを正確に制御するDyST-XL、(3) エンティティ・一貫性制約戦略。
実験により、DyST-XLは合成テキスト・ビデオ生成に優れ、複雑なプロンプトの性能を大幅に向上し、トレーニング不要のビデオ合成において重要なギャップを埋めることを示した。
コードはhttps://github.com/XiaoBuL/DyST-XLで公開されている。
関連論文リスト
- DynamiCtrl: Rethinking the Basic Structure and the Role of Text for High-quality Human Image Animation [63.781450025764904]
DynamiCtrlはMM-DiTで異なるポーズ誘導構造を探索する新しいフレームワークである。
適応層正規化を利用してスパースポーズ特徴を符号化するPose-Adaptive Layer Norm (PadaLN)を提案する。
テキストを活用することで、生成したコンテンツのきめ細かい制御を可能にするだけでなく、初めて背景と動きの同時制御を実現する。
論文 参考訳(メタデータ) (2025-03-27T08:07:45Z) - SuperFlow++: Enhanced Spatiotemporal Consistency for Cross-Modal Data Pretraining [62.433137130087445]
SuperFlow++は、連続するカメラペアを使用して事前トレーニングと下流タスクを統合する新しいフレームワークである。
SuperFlow++は様々なタスクや運転条件で最先端のメソッドよりも優れています。
強力な一般化性と計算効率により、SuperFlow++は、自動運転におけるデータ効率の高いLiDARベースの認識のための新しいベンチマークを確立する。
論文 参考訳(メタデータ) (2025-03-25T17:59:57Z) - MagicComp: Training-free Dual-Phase Refinement for Compositional Video Generation [19.340437669928814]
MagicCompは、T2V生成を2相精製により強化するトレーニングフリーの手法である。
MagicCompはモデルに依存しない汎用的なアプローチであり、既存のT2Vアーキテクチャにシームレスに統合することができる。
論文 参考訳(メタデータ) (2025-03-18T17:02:14Z) - Enhancing Low-Cost Video Editing with Lightweight Adaptors and Temporal-Aware Inversion [26.631402993971722]
本稿では,時間空間的・意味的一貫性をBaliteral DDIMインバージョンと統合するフレームワークを提案する。
MSR-VTTデータセットで示すように,本手法は知覚品質,テキスト画像アライメント,時間的コヒーレンスを大幅に改善する。
論文 参考訳(メタデータ) (2025-01-08T16:41:31Z) - FancyVideo: Towards Dynamic and Consistent Video Generation via Cross-frame Textual Guidance [47.88160253507823]
我々は、既存のテキスト制御機構を改善する革新的なビデオジェネレータであるFancyVideoを紹介した。
CTGMは、TII(Temporal Information)、TAR(Temporal Affinity Refiner)、TFB(Temporal Feature Booster)をクロスアテンションの開始、中、末に組み込んでいる。
論文 参考訳(メタデータ) (2024-08-15T14:47:44Z) - Dysen-VDM: Empowering Dynamics-aware Text-to-Video Diffusion with LLMs [112.39389727164594]
テキスト・ツー・ビデオ(T2V)合成は,最近出現した拡散モデル (DM) が,過去のアプローチよりも有望な性能を示したコミュニティで注目を集めている。
既存の最先端のDMは高精細なビデオ生成を実現する能力があるが、ビデオ合成の要点である時間力学モデリングに関して重要な制限(例えば、アクション発生障害、粗雑なビデオ運動)に悩まされる。
本研究では,高品位T2V生成のためのDMの映像ダイナミックスに対する意識向上について検討する。
論文 参考訳(メタデータ) (2023-08-26T08:31:48Z) - DirecT2V: Large Language Models are Frame-Level Directors for Zero-Shot
Text-to-Video Generation [37.25815760042241]
本稿では,テキスト・ツー・ビデオ(T2V)ビデオを生成するための新しいフレームワークであるDirecT2Vを紹介する。
拡散モデルに新しい値マッピング法とデュアルソフトマックスフィルタリングを適用し、追加のトレーニングを必要としない。
実験により,視覚的コヒーレントかつストーリーフルなビデオ制作におけるフレームワークの有効性が検証された。
論文 参考訳(メタデータ) (2023-05-23T17:57:09Z) - ControlVideo: Training-free Controllable Text-to-Video Generation [117.06302461557044]
ControlVideoは、自然で効率的なテキスト・ビデオ生成を可能にするフレームワークである。
NVIDIA 2080Tiを使って、ショートビデオとロングビデオの両方を数分で生成する。
論文 参考訳(メタデータ) (2023-05-22T14:48:53Z) - Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation [55.36617538438858]
本研究では,空間的知覚と時間的知覚の相互作用を強化する新しいアプローチを提案する。
我々はHD-VG-130Mという大規模かつオープンソースのビデオデータセットをキュレートする。
論文 参考訳(メタデータ) (2023-05-18T11:06:15Z) - Text-driven Video Prediction [83.04845684117835]
テキスト駆動型ビデオ予測(TVP)と呼ばれる新しいタスクを提案する。
本課題は,最初のフレームとテキストキャプションを入力として,以下のフレームを合成することを目的とする。
進行動作情報に対する因果推論におけるテキストの能力を調べるため、我々のTVPフレームワークはテキスト推論モジュール(TIM)を含む。
論文 参考訳(メタデータ) (2022-10-06T12:43:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。