論文の概要: AI Powered High Quality Text to Video Generation with Enhanced Temporal Consistency
- arxiv url: http://arxiv.org/abs/2511.00107v1
- Date: Thu, 30 Oct 2025 18:46:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.603959
- Title: AI Powered High Quality Text to Video Generation with Enhanced Temporal Consistency
- Title(参考訳): テンポラル一貫性を向上したAIによる高品質テキストの映像生成
- Authors: Piyushkumar Patel,
- Abstract要約: 我々は,高忠実度テキストとビデオ合成のための時間的拡散認識モデルと合成シーン理解を統合した,新しい階層型フレームワークMOVAIを提案する。
標準ベンチマークの実験では、MOVAIの最先端性能、LPIPSの15.3%、FVDの12.7%、既存手法の18.9%の改善が示されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text to video generation has emerged as a critical frontier in generative artificial intelligence, yet existing approaches struggle with maintaining temporal consistency, compositional understanding, and fine grained control over visual narratives. We present MOVAI (Multimodal Original Video AI), a novel hierarchical framework that integrates compositional scene understanding with temporal aware diffusion models for high fidelity text to video synthesis. Our approach introduces three key innovations: (1) a Compositional Scene Parser (CSP) that decomposes textual descriptions into hierarchical scene graphs with temporal annotations, (2) a Temporal-Spatial Attention Mechanism (TSAM) that ensures coherent motion dynamics across frames while preserving spatial details, and (3) a Progressive Video Refinement (PVR) module that iteratively enhances video quality through multi-scale temporal reasoning. Extensive experiments on standard benchmarks demonstrate that MOVAI achieves state-of-the-art performance, improving video quality metrics by 15.3% in LPIPS, 12.7% in FVD, and 18.9% in user preference studies compared to existing methods. Our framework shows particular strength in generating complex multi-object scenes with realistic temporal dynamics and fine-grained semantic control.
- Abstract(参考訳): テキストからビデオ生成は、生成的人工知能において重要なフロンティアとして現れてきたが、既存のアプローチは、時間的一貫性、構成的理解、そして視覚的物語に対するきめ細かい制御の維持に苦慮している。
合成シーン理解と時間認識拡散モデルを統合し,高忠実度テキストからビデオ合成を行う新しい階層型フレームワークであるMOVAI(Multimodal Original Video AI)を提案する。
提案手法では,(1)テキスト記述を時間的アノテーションで階層的なシーングラフに分解するコンポジション・シーン・パーザ(CSP),(2)空間的詳細を保存しながらフレーム間のコヒーレントな動きを確実にするテンポラル・空間的注意機構(TSAM),(3)マルチスケールの時間的推論により映像品質を反復的に向上するプログレッシブ・ビデオ・リファインメント(PVR)モジュールの3つの重要なイノベーションを紹介する。
標準ベンチマークでの大規模な実験により、MOVAIは最先端のパフォーマンスを達成し、LPIPSの15.3%、FVDの12.7%、既存手法の18.9%でビデオ品質の指標を改善した。
本フレームワークは,現実的な時間的ダイナミックスと微粒なセマンティック制御を備えた複雑な多目的シーンを生成する上で,特に強みを示す。
関連論文リスト
- Identity-Preserving Text-to-Video Generation Guided by Simple yet Effective Spatial-Temporal Decoupled Representations [131.33758144860988]
アイデンティティ保存型テキスト・ツー・ビデオ(IPT2V)生成は、一貫した人間のアイデンティティを持つ高忠実度ビデオを作成することを目的としている。
現在のエンドツーエンドフレームワークは、重要な空間的・時間的トレードオフを被る。
本稿では,表現をレイアウトの空間的特徴と運動力学の時間的特徴に分解する,シンプルで効果的な空間時空間分離フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-07T06:54:44Z) - Bridging Vision and Language: Modeling Causality and Temporality in Video Narratives [0.0]
本稿では,Causal-Temporal Reasoning Moduleを最先端のLVLMに統合する拡張フレームワークを提案する。
CTRMはCausal Dynamics(CDE)とTemporal Learner(TRL)の2つの重要なコンポーネントから構成される。
大規模ビデオテキストデータセットの事前学習を併用して,モデル最適化のための多段階学習戦略を設計する。
論文 参考訳(メタデータ) (2024-12-14T07:28:38Z) - FancyVideo: Towards Dynamic and Consistent Video Generation via Cross-frame Textual Guidance [3.6519202494141125]
我々は、既存のテキスト制御機構を改善する革新的なビデオジェネレータであるFancyVideoを紹介した。
CTGMは、TII(Temporal Information)とTAR(Temporal Affinity Refiner)をクロスアテンションの開始と終了に組み込んでいる。
提案手法は,EvalCrafterベンチマークを用いて,最先端のT2V生成結果を実現する。
論文 参考訳(メタデータ) (2024-08-15T14:47:44Z) - Hierarchical Spatio-temporal Decoupling for Text-to-Video Generation [49.298187741014345]
テクスト・ツー・ビデオ生成(T2V)の複雑さの増大につながる空間的内容と時間的ダイナミクスを相互に結合する現在の方法
ビデオの空間的要因と時間的要因を2つの視点から分離することで性能を向上する拡散モデルに基づくHiGenを提案する。
論文 参考訳(メタデータ) (2023-12-07T17:59:07Z) - Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation [55.36617538438858]
本研究では,空間的知覚と時間的知覚の相互作用を強化する新しいアプローチを提案する。
我々はHD-VG-130Mという大規模かつオープンソースのビデオデータセットをキュレートする。
論文 参考訳(メタデータ) (2023-05-18T11:06:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。