論文の概要: Empowering Dynamics-aware Text-to-Video Diffusion with Large Language
Models
- arxiv url: http://arxiv.org/abs/2308.13812v1
- Date: Sat, 26 Aug 2023 08:31:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 18:58:55.883433
- Title: Empowering Dynamics-aware Text-to-Video Diffusion with Large Language
Models
- Title(参考訳): 大規模言語モデルを用いたダイナミクス対応テキスト・ビデオ拡散
- Authors: Hao Fei, Shengqiong Wu, Wei Ji, Hanwang Zhang, Tat-Seng Chua
- Abstract要約: テキスト・トゥ・ビデオ (T2V) は、最近出現した拡散モデル (DM) が、過去のアプローチよりも有望なパフォーマンスを示したコミュニティで注目を集めている。
本研究では,T2V生成における映像力学の認識の強化について検討する。
人間の直感にインスパイアされた我々は、革新的な動的シーンマネージャ(Dysen)モジュールを設計する。
- 参考スコア(独自算出の注目度): 120.58133795493536
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Text-to-video (T2V) synthesis has gained increasing attention in the
community, in which the recently emerged diffusion models (DMs) have
promisingly shown stronger performance than the past approaches. While existing
state-of-the-art DMs are competent to achieve high-resolution video generation,
they may largely suffer from key limitations (e.g., action occurrence
disorders, crude video motions) with respect to the intricate temporal dynamics
modeling, one of the crux of video synthesis. In this work, we investigate
strengthening the awareness of video dynamics for DMs, for high-quality T2V
generation. Inspired by human intuition, we design an innovative dynamic scene
manager (dubbed as Dysen) module, which includes (step-1) extracting from input
text the key actions with proper time-order arrangement, (step-2) transforming
the action schedules into the dynamic scene graph (DSG) representations, and
(step-3) enriching the scenes in the DSG with sufficient and reasonable
details. Taking advantage of the existing powerful LLMs (e.g., ChatGPT) via
in-context learning, Dysen realizes (nearly) human-level temporal dynamics
understanding. Finally, the resulting video DSG with rich action scene details
is encoded as fine-grained spatio-temporal features, integrated into the
backbone T2V DM for video generating. Experiments on popular T2V datasets
suggest that our framework consistently outperforms prior arts with significant
margins, especially in the scenario with complex actions. Project page at
https://haofei.vip/Dysen-VDM
- Abstract(参考訳): テキスト・ツー・ビデオ(T2V)合成は,最近出現した拡散モデル (DM) が,過去のアプローチよりも有望な性能を示したコミュニティで注目を集めている。
既存の最先端のDMは高精細なビデオ生成を実現する能力があるが、ビデオ合成の要点である複雑な時間力学モデリングに関して重要な限界(例えばアクション発生障害、粗雑なビデオ運動)に悩まされる。
本研究では,高品質なT2V生成のためのDMの映像力学の認識を強化することを検討する。
人間の直感に触発されて,入力テキストからキーアクションを適切な時間順に抽出する(ステップ1),アクションスケジュールを動的シーングラフ(dsg)表現に変換する(ステップ2),dsg内のシーンを十分に合理的な詳細情報で豊かにする(ステップ3)など,革新的な動的シーンマネージャ(dysen)モジュールを設計した。
コンテキスト内学習を通じて既存の強力なllm(例えばchatgpt)を活用することで、dysenは(ほぼ)人間レベルの時間的ダイナミクス理解を実現する。
最後に、アクションシーンの詳細が豊富な映像DSGを微細な時空間特徴として符号化し、ビデオ生成用バックボーンT2V DMに統合する。
一般的なt2vデータセットに関する実験は、特に複雑なアクションのシナリオにおいて、我々のフレームワークが、かなりマージンの先行技術を上回ることを示唆しています。
プロジェクトページ: https://haofei.vip/dysen-vdm
関連論文リスト
- DSV: Exploiting Dynamic Sparsity to Accelerate Large-Scale Video DiT Training [85.04885553561164]
拡散変換器(DiT)は、高品質なビデオのモデリングと生成において顕著な性能を示した。
本稿では,ビデオDiTのトレーニングを加速し,拡張するための新しいフレームワークであるDSVを紹介する。
論文 参考訳(メタデータ) (2025-02-11T14:39:59Z) - Bridging Vision and Language: Modeling Causality and Temporality in Video Narratives [0.0]
本稿では,Causal-Temporal Reasoning Moduleを最先端のLVLMに統合する拡張フレームワークを提案する。
CTRMはCausal Dynamics(CDE)とTemporal Learner(TRL)の2つの重要なコンポーネントから構成される。
大規模ビデオテキストデータセットの事前学習を併用して,モデル最適化のための多段階学習戦略を設計する。
論文 参考訳(メタデータ) (2024-12-14T07:28:38Z) - Dynamic Try-On: Taming Video Virtual Try-on with Dynamic Attention Mechanism [52.9091817868613]
ビデオの試用は、その膨大な現実世界の潜在能力にとって有望な分野だ。
これまでの研究は主に、製品服のイメージを単純な人間のポーズでビデオに移すことに重点を置いてきた。
本稿では,Diffusion Transformer(DiT)に基づく新しいビデオトライオンフレームワークであるDynamic Try-Onを提案する。
論文 参考訳(メタデータ) (2024-12-13T03:20:53Z) - VideoLights: Feature Refinement and Cross-Task Alignment Transformer for Joint Video Highlight Detection and Moment Retrieval [8.908777234657046]
大規模言語モデルと視覚言語モデル(LLM/LVLM)は、様々な領域で広く普及している。
ここでは、(i)Convolutional ProjectionとFeature Refinementモジュールを通してこれらの制限に対処する新しいHD/MRフレームワークであるVideoLightsを提案する。
QVHighlights、TVSum、Charades-STAベンチマークに関する総合的な実験は、最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-12-02T14:45:53Z) - Individual Content and Motion Dynamics Preserved Pruning for Video Diffusion Models [26.556159722909715]
ビデオ拡散モデル(VDM)を実用化するためには,高い計算コストと遅延推論時間が大きな障害となる。
個別のコンテンツと動作動態を保存したプルーニングと整合性損失を用いた新しいビデオ拡散モデル圧縮手法を提案する。
論文 参考訳(メタデータ) (2024-11-27T14:22:13Z) - Enhancing Video-Language Representations with Structural Spatio-Temporal Alignment [130.15775113897553]
フィンスタは微細な構造的時間的アライメント学習法である。
既存の13の強化されたビデオ言語モデルも一貫して改善されている。
論文 参考訳(メタデータ) (2024-06-27T15:23:36Z) - VSTAR: Generative Temporal Nursing for Longer Dynamic Video Synthesis [18.806249040835624]
本稿では,時間的ダイナミクスの制御を改善するために,時間的時間的看護(GTN, Generative Temporal Nursing, GTN)の概念を導入する。
提案手法が既存のオープンソースT2Vモデルよりも長めで視覚的に魅力的なビデオを生成する場合の優位性を実験的に示す。
論文 参考訳(メタデータ) (2024-03-20T10:58:58Z) - Hierarchical Spatio-temporal Decoupling for Text-to-Video Generation [49.298187741014345]
テクスト・ツー・ビデオ生成(T2V)の複雑さの増大につながる空間的内容と時間的ダイナミクスを相互に結合する現在の方法
ビデオの空間的要因と時間的要因を2つの視点から分離することで性能を向上する拡散モデルに基づくHiGenを提案する。
論文 参考訳(メタデータ) (2023-12-07T17:59:07Z) - Align your Latents: High-Resolution Video Synthesis with Latent
Diffusion Models [71.11425812806431]
遅延拡散モデル(LDM)は、過剰な計算要求を回避しながら高品質な画像合成を可能にする。
本稿では, LDMパラダイムを高分解能な生成, 特に資源集約的なタスクに適用する。
そこで本研究では,テキスト・ツー・ビデオ・モデリングによる実世界のシミュレーションとクリエイティブ・コンテンツ作成の2つの応用に焦点をあてる。
論文 参考訳(メタデータ) (2023-04-18T08:30:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。