論文の概要: Dysen-VDM: Empowering Dynamics-aware Text-to-Video Diffusion with LLMs
- arxiv url: http://arxiv.org/abs/2308.13812v2
- Date: Tue, 19 Mar 2024 12:29:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-21 00:50:27.557977
- Title: Dysen-VDM: Empowering Dynamics-aware Text-to-Video Diffusion with LLMs
- Title(参考訳): Dysen-VDM: LLMを用いたダイナミクス対応テキスト・ビデオ拡散
- Authors: Hao Fei, Shengqiong Wu, Wei Ji, Hanwang Zhang, Tat-Seng Chua,
- Abstract要約: テキスト・ツー・ビデオ(T2V)合成は,最近出現した拡散モデル (DM) が,過去のアプローチよりも有望な性能を示したコミュニティで注目を集めている。
既存の最先端のDMは高精細なビデオ生成を実現する能力があるが、ビデオ合成の要点である時間力学モデリングに関して重要な制限(例えば、アクション発生障害、粗雑なビデオ運動)に悩まされる。
本研究では,高品位T2V生成のためのDMの映像ダイナミックスに対する意識向上について検討する。
- 参考スコア(独自算出の注目度): 112.39389727164594
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Text-to-video (T2V) synthesis has gained increasing attention in the community, in which the recently emerged diffusion models (DMs) have promisingly shown stronger performance than the past approaches. While existing state-of-the-art DMs are competent to achieve high-resolution video generation, they may largely suffer from key limitations (e.g., action occurrence disorders, crude video motions) with respect to the intricate temporal dynamics modeling, one of the crux of video synthesis. In this work, we investigate strengthening the awareness of video dynamics for DMs, for high-quality T2V generation. Inspired by human intuition, we design an innovative dynamic scene manager (dubbed as Dysen) module, which includes (step-1) extracting from input text the key actions with proper time-order arrangement, (step-2) transforming the action schedules into the dynamic scene graph (DSG) representations, and (step-3) enriching the scenes in the DSG with sufficient and reasonable details. Taking advantage of the existing powerful LLMs (e.g., ChatGPT) via in-context learning, Dysen realizes (nearly) human-level temporal dynamics understanding. Finally, the resulting video DSG with rich action scene details is encoded as fine-grained spatio-temporal features, integrated into the backbone T2V DM for video generating. Experiments on popular T2V datasets suggest that our Dysen-VDM consistently outperforms prior arts with significant margins, especially in scenarios with complex actions. Codes at https://haofei.vip/Dysen-VDM
- Abstract(参考訳): テキスト・ツー・ビデオ(T2V)合成は,最近出現した拡散モデル (DM) が,過去のアプローチよりも有望な性能を示したコミュニティで注目を集めている。
既存の最先端のDMは高精細なビデオ生成を実現する能力があるが、ビデオ合成の要点である複雑な時間ダイナミクスモデリングに関して重要な限界(例えば、アクション発生障害、粗雑なビデオ運動)に悩まされる。
本研究では,高品質なT2V生成のためのDMの映像力学の認知度向上について検討する。
人間の直感に触発されて、入力テキストからキーアクションを適切な時間順アレンジで抽出する(ステップ-1)、アクションスケジュールを動的シーングラフ(DSG)表現に変換する(ステップ-2)、そして(ステップ-3)DSG内のシーンを十分かつ合理的にリッチにする(ステップ-3)、革新的な動的シーンマネージャ(Dysen)モジュールを設計する。
既存の強力なLLM(例えばChatGPT)をコンテキスト内学習を通じて活用することで、Dysenは(ほぼ)人間レベルの時間的ダイナミックス理解を実現する。
最後に、アクションシーンの詳細が豊富な映像DSGを微細な時空間特徴として符号化し、ビデオ生成用バックボーンT2V DMに統合する。
一般的なT2Vデータセットの実験から、私たちのDysen-VDMは、特に複雑なアクションのシナリオにおいて、大きなマージンを持つ先行技術よりも一貫して優れています。
https://haofei.vip/Dysen-VDM
関連論文リスト
- DSV: Exploiting Dynamic Sparsity to Accelerate Large-Scale Video DiT Training [85.04885553561164]
拡散変換器(DiT)は、高品質なビデオのモデリングと生成において顕著な性能を示した。
本稿では,ビデオDiTのトレーニングを加速し,拡張するための新しいフレームワークであるDSVを紹介する。
論文 参考訳(メタデータ) (2025-02-11T14:39:59Z) - Bridging Vision and Language: Modeling Causality and Temporality in Video Narratives [0.0]
本稿では,Causal-Temporal Reasoning Moduleを最先端のLVLMに統合する拡張フレームワークを提案する。
CTRMはCausal Dynamics(CDE)とTemporal Learner(TRL)の2つの重要なコンポーネントから構成される。
大規模ビデオテキストデータセットの事前学習を併用して,モデル最適化のための多段階学習戦略を設計する。
論文 参考訳(メタデータ) (2024-12-14T07:28:38Z) - Dynamic Try-On: Taming Video Virtual Try-on with Dynamic Attention Mechanism [52.9091817868613]
ビデオの試用は、その膨大な現実世界の潜在能力にとって有望な分野だ。
これまでの研究は主に、製品服のイメージを単純な人間のポーズでビデオに移すことに重点を置いてきた。
本稿では,Diffusion Transformer(DiT)に基づく新しいビデオトライオンフレームワークであるDynamic Try-Onを提案する。
論文 参考訳(メタデータ) (2024-12-13T03:20:53Z) - VideoLights: Feature Refinement and Cross-Task Alignment Transformer for Joint Video Highlight Detection and Moment Retrieval [8.908777234657046]
大規模言語モデルと視覚言語モデル(LLM/LVLM)は、様々な領域で広く普及している。
ここでは、(i)Convolutional ProjectionとFeature Refinementモジュールを通してこれらの制限に対処する新しいHD/MRフレームワークであるVideoLightsを提案する。
QVHighlights、TVSum、Charades-STAベンチマークに関する総合的な実験は、最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-12-02T14:45:53Z) - Individual Content and Motion Dynamics Preserved Pruning for Video Diffusion Models [26.556159722909715]
ビデオ拡散モデル(VDM)を実用化するためには,高い計算コストと遅延推論時間が大きな障害となる。
個別のコンテンツと動作動態を保存したプルーニングと整合性損失を用いた新しいビデオ拡散モデル圧縮手法を提案する。
論文 参考訳(メタデータ) (2024-11-27T14:22:13Z) - Enhancing Video-Language Representations with Structural Spatio-Temporal Alignment [130.15775113897553]
フィンスタは微細な構造的時間的アライメント学習法である。
既存の13の強化されたビデオ言語モデルも一貫して改善されている。
論文 参考訳(メタデータ) (2024-06-27T15:23:36Z) - VSTAR: Generative Temporal Nursing for Longer Dynamic Video Synthesis [18.806249040835624]
本稿では,時間的ダイナミクスの制御を改善するために,時間的時間的看護(GTN, Generative Temporal Nursing, GTN)の概念を導入する。
提案手法が既存のオープンソースT2Vモデルよりも長めで視覚的に魅力的なビデオを生成する場合の優位性を実験的に示す。
論文 参考訳(メタデータ) (2024-03-20T10:58:58Z) - Hierarchical Spatio-temporal Decoupling for Text-to-Video Generation [49.298187741014345]
テクスト・ツー・ビデオ生成(T2V)の複雑さの増大につながる空間的内容と時間的ダイナミクスを相互に結合する現在の方法
ビデオの空間的要因と時間的要因を2つの視点から分離することで性能を向上する拡散モデルに基づくHiGenを提案する。
論文 参考訳(メタデータ) (2023-12-07T17:59:07Z) - Align your Latents: High-Resolution Video Synthesis with Latent
Diffusion Models [71.11425812806431]
遅延拡散モデル(LDM)は、過剰な計算要求を回避しながら高品質な画像合成を可能にする。
本稿では, LDMパラダイムを高分解能な生成, 特に資源集約的なタスクに適用する。
そこで本研究では,テキスト・ツー・ビデオ・モデリングによる実世界のシミュレーションとクリエイティブ・コンテンツ作成の2つの応用に焦点をあてる。
論文 参考訳(メタデータ) (2023-04-18T08:30:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。