Fugu-MT 論文翻訳(概要): Empowering Dynamics-aware Text-to-Video Diffusion with Large Language Models

論文の概要: Empowering Dynamics-aware Text-to-Video Diffusion with Large Language Models

arxiv url: http://arxiv.org/abs/2308.13812v1
Date: Sat, 26 Aug 2023 08:31:48 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-29 18:58:55.883433
Title: Empowering Dynamics-aware Text-to-Video Diffusion with Large Language Models
Title（参考訳）: 大規模言語モデルを用いたダイナミクス対応テキスト・ビデオ拡散
Authors: Hao Fei, Shengqiong Wu, Wei Ji, Hanwang Zhang, Tat-Seng Chua
Abstract要約: テキスト・トゥ・ビデオ (T2V) は、最近出現した拡散モデル (DM) が、過去のアプローチよりも有望なパフォーマンスを示したコミュニティで注目を集めている。本研究では,T2V生成における映像力学の認識の強化について検討する。人間の直感にインスパイアされた我々は、革新的な動的シーンマネージャ(Dysen)モジュールを設計する。
参考スコア（独自算出の注目度）: 120.58133795493536
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Text-to-video (T2V) synthesis has gained increasing attention in the community, in which the recently emerged diffusion models (DMs) have promisingly shown stronger performance than the past approaches. While existing state-of-the-art DMs are competent to achieve high-resolution video generation, they may largely suffer from key limitations (e.g., action occurrence disorders, crude video motions) with respect to the intricate temporal dynamics modeling, one of the crux of video synthesis. In this work, we investigate strengthening the awareness of video dynamics for DMs, for high-quality T2V generation. Inspired by human intuition, we design an innovative dynamic scene manager (dubbed as Dysen) module, which includes (step-1) extracting from input text the key actions with proper time-order arrangement, (step-2) transforming the action schedules into the dynamic scene graph (DSG) representations, and (step-3) enriching the scenes in the DSG with sufficient and reasonable details. Taking advantage of the existing powerful LLMs (e.g., ChatGPT) via in-context learning, Dysen realizes (nearly) human-level temporal dynamics understanding. Finally, the resulting video DSG with rich action scene details is encoded as fine-grained spatio-temporal features, integrated into the backbone T2V DM for video generating. Experiments on popular T2V datasets suggest that our framework consistently outperforms prior arts with significant margins, especially in the scenario with complex actions. Project page at https://haofei.vip/Dysen-VDM
Abstract（参考訳）: テキスト・ツー・ビデオ(T2V)合成は,最近出現した拡散モデル (DM) が,過去のアプローチよりも有望な性能を示したコミュニティで注目を集めている。既存の最先端のDMは高精細なビデオ生成を実現する能力があるが、ビデオ合成の要点である複雑な時間力学モデリングに関して重要な限界(例えばアクション発生障害、粗雑なビデオ運動)に悩まされる。本研究では,高品質なT2V生成のためのDMの映像力学の認識を強化することを検討する。人間の直感に触発されて,入力テキストからキーアクションを適切な時間順に抽出する(ステップ1),アクションスケジュールを動的シーングラフ(dsg)表現に変換する(ステップ2),dsg内のシーンを十分に合理的な詳細情報で豊かにする(ステップ3)など,革新的な動的シーンマネージャ(dysen)モジュールを設計した。コンテキスト内学習を通じて既存の強力なllm(例えばchatgpt)を活用することで、dysenは(ほぼ)人間レベルの時間的ダイナミクス理解を実現する。最後に、アクションシーンの詳細が豊富な映像DSGを微細な時空間特徴として符号化し、ビデオ生成用バックボーンT2V DMに統合する。一般的なt2vデータセットに関する実験は、特に複雑なアクションのシナリオにおいて、我々のフレームワークが、かなりマージンの先行技術を上回ることを示唆しています。プロジェクトページ: https://haofei.vip/dysen-vdm

関連論文リスト

Toward Rich Video Human-Motion2D Generation [16.58311138197227]
本稿では,15万本のビデオシーケンスからなる大規模リッチビデオモーション2Dデータセット(Motion2D-Video-150K)を紹介する。 Motion2D-Video-150Kは多様な単一文字のバランスの取れた分布を特徴としている。拡散型リッチビデオモーション2D生成モデル(RVHM2D)を提案する。
論文参考訳（メタデータ） (2025-06-17T11:45:33Z)
From Generation to Generalization: Emergent Few-Shot Learning in Video Diffusion Models [65.0487600936788]
ビデオ拡散モデル(VDM)は高品質なコンテンツを合成できる強力な生成ツールとして登場した。我々は、VDMが自然に構造化された表現を探索し、視覚世界を暗黙的に理解することを主張する。提案手法は,各タスクを視覚遷移に変換し,短い入力シーケンス上でLoRA重みのトレーニングを可能にする。
論文参考訳（メタデータ） (2025-06-08T20:52:34Z)
SkyReels-V2: Infinite-length Film Generative Model [35.00453687783287]
Infinite-length Film Generative Model である SkyReels-V2 を提案し,マルチモーダル大言語モデル(MLLM),マルチステージ事前学習,強化学習,拡散強制フレームワークを提案する。我々は,基本映像生成のためのプログレッシブ・レゾリューション・プレトレーニングを確立し,その後4段階のポストトレーニング強化を行った。
論文参考訳（メタデータ） (2025-04-17T16:37:27Z)
VLIPP: Towards Physically Plausible Video Generation with Vision and Language Informed Physical Prior [88.51778468222766]
近年,映像拡散モデル (VDM) が大幅に進歩し,映像のリアル化が進んでいる。 VDMは物理の理解の欠如のため、物理的にもっともらしいビデオを作ることができないことが多い。本稿では,物理を視覚と言語に明示的に組み込んだ新しい2段階画像・映像生成フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-30T09:03:09Z)
Bridging Vision and Language: Modeling Causality and Temporality in Video Narratives [0.0]
本稿では,Causal-Temporal Reasoning Moduleを最先端のLVLMに統合する拡張フレームワークを提案する。 CTRMはCausal Dynamics(CDE)とTemporal Learner(TRL)の2つの重要なコンポーネントから構成される。大規模ビデオテキストデータセットの事前学習を併用して,モデル最適化のための多段階学習戦略を設計する。
論文参考訳（メタデータ） (2024-12-14T07:28:38Z)
Dynamic Try-On: Taming Video Virtual Try-on with Dynamic Attention Mechanism [52.9091817868613]
ビデオの試用は、その膨大な現実世界の潜在能力にとって有望な分野だ。これまでの研究は主に、製品服のイメージを単純な人間のポーズでビデオに移すことに重点を置いてきた。本稿では,Diffusion Transformer(DiT)に基づく新しいビデオトライオンフレームワークであるDynamic Try-Onを提案する。
論文参考訳（メタデータ） (2024-12-13T03:20:53Z)
Individual Content and Motion Dynamics Preserved Pruning for Video Diffusion Models [26.556159722909715]
ビデオ拡散モデル(VDM)を実用化するためには,高い計算コストと遅延推論時間が大きな障害となる。個別のコンテンツと動作動態を保存したプルーニングと整合性損失を用いた新しいビデオ拡散モデル圧縮手法を提案する。
論文参考訳（メタデータ） (2024-11-27T14:22:13Z)
Enhancing Motion in Text-to-Video Generation with Decomposed Encoding and Conditioning [26.44634685830323]
本稿では,テキスト・トゥ・ビデオ(T2V)生成における動き合成を強化するためのDecomposed Motion (DEMO) という新しいフレームワークを提案する。本手法は,静的要素のためのコンテンツエンコーダと,時間的ダイナミクスのためのモーションエンコーダと,コンテンツと動作条件の分離機構を含む。視覚的品質を保ちながら、モーションダイナミクスを向上した動画を制作するDEMOの優れた能力を実証する。
論文参考訳（メタデータ） (2024-10-31T17:59:53Z)
Enhancing Video-Language Representations with Structural Spatio-Temporal Alignment [130.15775113897553]
フィンスタは微細な構造的時間的アライメント学習法である。既存の13の強化されたビデオ言語モデルも一貫して改善されている。
論文参考訳（メタデータ） (2024-06-27T15:23:36Z)
VideoTetris: Towards Compositional Text-to-Video Generation [45.395598467837374]
VideoTetrisは、合成T2V生成を可能にするフレームワークである。我々は, VideoTetrisがT2V生成において, 印象的な質的, 定量的な結果をもたらすことを示す。
論文参考訳（メタデータ） (2024-06-06T17:25:33Z)
VSTAR: Generative Temporal Nursing for Longer Dynamic Video Synthesis [18.806249040835624]
本稿では,時間的ダイナミクスの制御を改善するために,時間的時間的看護(GTN, Generative Temporal Nursing, GTN)の概念を導入する。提案手法が既存のオープンソースT2Vモデルよりも長めで視覚的に魅力的なビデオを生成する場合の優位性を実験的に示す。
論文参考訳（メタデータ） (2024-03-20T10:58:58Z)
Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文参考訳（メタデータ） (2024-03-18T17:59:58Z)
Hierarchical Spatio-temporal Decoupling for Text-to-Video Generation [49.298187741014345]
テクスト・ツー・ビデオ生成(T2V)の複雑さの増大につながる空間的内容と時間的ダイナミクスを相互に結合する現在の方法ビデオの空間的要因と時間的要因を2つの視点から分離することで性能を向上する拡散モデルに基づくHiGenを提案する。
論文参考訳（メタデータ） (2023-12-07T17:59:07Z)
GD-VDM: Generated Depth for better Diffusion-based Video Generation [18.039417502897486]
本稿では,映像生成のための新しい拡散モデルGD-VDMを提案する。また,GD-VDMをCityscapesデータセット上で評価した結果,自然ベースラインよりも多様で複雑なシーンが生成されることがわかった。
論文参考訳（メタデータ） (2023-06-19T21:32:10Z)
Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models [71.11425812806431]
遅延拡散モデル(LDM)は、過剰な計算要求を回避しながら高品質な画像合成を可能にする。本稿では, LDMパラダイムを高分解能な生成, 特に資源集約的なタスクに適用する。そこで本研究では,テキスト・ツー・ビデオ・モデリングによる実世界のシミュレーションとクリエイティブ・コンテンツ作成の2つの応用に焦点をあてる。
論文参考訳（メタデータ） (2023-04-18T08:30:32Z)
Slow-Fast Visual Tempo Learning for Video-based Action Recognition [78.3820439082979]
アクション・ビジュアル・テンポ(Action visual tempo)は、アクションのダイナミクスと時間スケールを特徴付ける。以前の方法は、複数のレートで生のビデオをサンプリングするか、階層的にバックボーンの特徴をサンプリングすることによって、視覚的テンポをキャプチャする。単一層における低レベルバックボーン特徴からアクション・テンポを抽出するための時間相関モジュール(TCM)を提案する。
論文参考訳（メタデータ） (2022-02-24T14:20:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。