論文の概要: Empowering Dynamics-aware Text-to-Video Diffusion with Large Language
Models
- arxiv url: http://arxiv.org/abs/2308.13812v1
- Date: Sat, 26 Aug 2023 08:31:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 18:58:55.883433
- Title: Empowering Dynamics-aware Text-to-Video Diffusion with Large Language
Models
- Title(参考訳): 大規模言語モデルを用いたダイナミクス対応テキスト・ビデオ拡散
- Authors: Hao Fei, Shengqiong Wu, Wei Ji, Hanwang Zhang, Tat-Seng Chua
- Abstract要約: テキスト・トゥ・ビデオ (T2V) は、最近出現した拡散モデル (DM) が、過去のアプローチよりも有望なパフォーマンスを示したコミュニティで注目を集めている。
本研究では,T2V生成における映像力学の認識の強化について検討する。
人間の直感にインスパイアされた我々は、革新的な動的シーンマネージャ(Dysen)モジュールを設計する。
- 参考スコア(独自算出の注目度): 120.58133795493536
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Text-to-video (T2V) synthesis has gained increasing attention in the
community, in which the recently emerged diffusion models (DMs) have
promisingly shown stronger performance than the past approaches. While existing
state-of-the-art DMs are competent to achieve high-resolution video generation,
they may largely suffer from key limitations (e.g., action occurrence
disorders, crude video motions) with respect to the intricate temporal dynamics
modeling, one of the crux of video synthesis. In this work, we investigate
strengthening the awareness of video dynamics for DMs, for high-quality T2V
generation. Inspired by human intuition, we design an innovative dynamic scene
manager (dubbed as Dysen) module, which includes (step-1) extracting from input
text the key actions with proper time-order arrangement, (step-2) transforming
the action schedules into the dynamic scene graph (DSG) representations, and
(step-3) enriching the scenes in the DSG with sufficient and reasonable
details. Taking advantage of the existing powerful LLMs (e.g., ChatGPT) via
in-context learning, Dysen realizes (nearly) human-level temporal dynamics
understanding. Finally, the resulting video DSG with rich action scene details
is encoded as fine-grained spatio-temporal features, integrated into the
backbone T2V DM for video generating. Experiments on popular T2V datasets
suggest that our framework consistently outperforms prior arts with significant
margins, especially in the scenario with complex actions. Project page at
https://haofei.vip/Dysen-VDM
- Abstract(参考訳): テキスト・ツー・ビデオ(T2V)合成は,最近出現した拡散モデル (DM) が,過去のアプローチよりも有望な性能を示したコミュニティで注目を集めている。
既存の最先端のDMは高精細なビデオ生成を実現する能力があるが、ビデオ合成の要点である複雑な時間力学モデリングに関して重要な限界(例えばアクション発生障害、粗雑なビデオ運動)に悩まされる。
本研究では,高品質なT2V生成のためのDMの映像力学の認識を強化することを検討する。
人間の直感に触発されて,入力テキストからキーアクションを適切な時間順に抽出する(ステップ1),アクションスケジュールを動的シーングラフ(dsg)表現に変換する(ステップ2),dsg内のシーンを十分に合理的な詳細情報で豊かにする(ステップ3)など,革新的な動的シーンマネージャ(dysen)モジュールを設計した。
コンテキスト内学習を通じて既存の強力なllm(例えばchatgpt)を活用することで、dysenは(ほぼ)人間レベルの時間的ダイナミクス理解を実現する。
最後に、アクションシーンの詳細が豊富な映像DSGを微細な時空間特徴として符号化し、ビデオ生成用バックボーンT2V DMに統合する。
一般的なt2vデータセットに関する実験は、特に複雑なアクションのシナリオにおいて、我々のフレームワークが、かなりマージンの先行技術を上回ることを示唆しています。
プロジェクトページ: https://haofei.vip/dysen-vdm
関連論文リスト
- Enhancing Motion in Text-to-Video Generation with Decomposed Encoding and Conditioning [26.44634685830323]
本稿では,テキスト・トゥ・ビデオ(T2V)生成における動き合成を強化するためのDecomposed Motion (DEMO) という新しいフレームワークを提案する。
本手法は,静的要素のためのコンテンツエンコーダと,時間的ダイナミクスのためのモーションエンコーダと,コンテンツと動作条件の分離機構を含む。
視覚的品質を保ちながら、モーションダイナミクスを向上した動画を制作するDEMOの優れた能力を実証する。
論文 参考訳(メタデータ) (2024-10-31T17:59:53Z) - Enhancing Video-Language Representations with Structural Spatio-Temporal Alignment [130.15775113897553]
フィンスタは微細な構造的時間的アライメント学習法である。
既存の13の強化されたビデオ言語モデルも一貫して改善されている。
論文 参考訳(メタデータ) (2024-06-27T15:23:36Z) - VideoTetris: Towards Compositional Text-to-Video Generation [45.395598467837374]
VideoTetrisは、合成T2V生成を可能にするフレームワークである。
我々は, VideoTetrisがT2V生成において, 印象的な質的, 定量的な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2024-06-06T17:25:33Z) - VSTAR: Generative Temporal Nursing for Longer Dynamic Video Synthesis [18.806249040835624]
本稿では,時間的ダイナミクスの制御を改善するために,時間的時間的看護(GTN, Generative Temporal Nursing, GTN)の概念を導入する。
提案手法が既存のオープンソースT2Vモデルよりも長めで視覚的に魅力的なビデオを生成する場合の優位性を実験的に示す。
論文 参考訳(メタデータ) (2024-03-20T10:58:58Z) - Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。
固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。
我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文 参考訳(メタデータ) (2024-03-18T17:59:58Z) - Hierarchical Spatio-temporal Decoupling for Text-to-Video Generation [49.298187741014345]
テクスト・ツー・ビデオ生成(T2V)の複雑さの増大につながる空間的内容と時間的ダイナミクスを相互に結合する現在の方法
ビデオの空間的要因と時間的要因を2つの視点から分離することで性能を向上する拡散モデルに基づくHiGenを提案する。
論文 参考訳(メタデータ) (2023-12-07T17:59:07Z) - GD-VDM: Generated Depth for better Diffusion-based Video Generation [18.039417502897486]
本稿では,映像生成のための新しい拡散モデルGD-VDMを提案する。
また,GD-VDMをCityscapesデータセット上で評価した結果,自然ベースラインよりも多様で複雑なシーンが生成されることがわかった。
論文 参考訳(メタデータ) (2023-06-19T21:32:10Z) - Align your Latents: High-Resolution Video Synthesis with Latent
Diffusion Models [71.11425812806431]
遅延拡散モデル(LDM)は、過剰な計算要求を回避しながら高品質な画像合成を可能にする。
本稿では, LDMパラダイムを高分解能な生成, 特に資源集約的なタスクに適用する。
そこで本研究では,テキスト・ツー・ビデオ・モデリングによる実世界のシミュレーションとクリエイティブ・コンテンツ作成の2つの応用に焦点をあてる。
論文 参考訳(メタデータ) (2023-04-18T08:30:32Z) - Slow-Fast Visual Tempo Learning for Video-based Action Recognition [78.3820439082979]
アクション・ビジュアル・テンポ(Action visual tempo)は、アクションのダイナミクスと時間スケールを特徴付ける。
以前の方法は、複数のレートで生のビデオをサンプリングするか、階層的にバックボーンの特徴をサンプリングすることによって、視覚的テンポをキャプチャする。
単一層における低レベルバックボーン特徴からアクション・テンポを抽出するための時間相関モジュール(TCM)を提案する。
論文 参考訳(メタデータ) (2022-02-24T14:20:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。