論文の概要: Large Language Models are Frame-level Directors for Zero-shot
Text-to-Video Generation
- arxiv url: http://arxiv.org/abs/2305.14330v2
- Date: Thu, 1 Jun 2023 04:14:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 21:36:23.395071
- Title: Large Language Models are Frame-level Directors for Zero-shot
Text-to-Video Generation
- Title(参考訳): 大言語モデルはゼロショットテキスト・ビデオ生成のためのフレームレベルディレクトリである
- Authors: Susung Hong, Junyoung Seo, Sunghwan Hong, Heeseong Shin, Seungryong
Kim
- Abstract要約: 本稿では,単一のユーザプロンプトからフレーム単位の記述を生成するDirecT2Vという新しいフレームワークを提案する。
時間的一貫性を維持し,オブジェクトの崩壊を防止するために,新しい値マッピング法とデュアルソフトマックスフィルタを提案する。
- 参考スコア(独自算出の注目度): 25.431558223213116
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the paradigm of AI-generated content (AIGC), there has been increasing
attention in extending pre-trained text-to-image (T2I) models to text-to-video
(T2V) generation. Despite their effectiveness, these frameworks face challenges
in maintaining consistent narratives and handling rapid shifts in scene
composition or object placement from a single user prompt. This paper
introduces a new framework, dubbed DirecT2V, which leverages instruction-tuned
large language models (LLMs) to generate frame-by-frame descriptions from a
single abstract user prompt. DirecT2V utilizes LLM directors to divide user
inputs into separate prompts for each frame, enabling the inclusion of
time-varying content and facilitating consistent video generation. To maintain
temporal consistency and prevent object collapse, we propose a novel value
mapping method and dual-softmax filtering. Extensive experimental results
validate the effectiveness of the DirecT2V framework in producing visually
coherent and consistent videos from abstract user prompts, addressing the
challenges of zero-shot video generation.
- Abstract(参考訳): AI生成コンテンツ(AIGC)のパラダイムでは、事前訓練されたテキスト・ツー・イメージ(T2I)モデルからテキスト・ツー・ビデオ(T2V)生成への拡張に注目が集まっている。
その効果にもかかわらず、これらのフレームワークは、一貫性のある物語の維持と、1人のユーザープロンプトからのシーン構成またはオブジェクト配置の迅速なシフトを扱う上での課題に直面している。
本稿では,1つの抽象ユーザプロンプトからフレーム・バイ・フレーム記述を生成するために,命令調整型大規模言語モデル(LLM)を利用するDirecT2Vという新しいフレームワークを提案する。
DirecT2VはLDMディレクトリを使用して、ユーザ入力を各フレーム毎に別々のプロンプトに分割し、時間変化のあるコンテンツを含め、一貫したビデオ生成を容易にする。
時間的一貫性を維持し,オブジェクトの崩壊を防止するため,新しい値マッピング法とデュアルソフトマックスフィルタを提案する。
広範にわたる実験結果は、ゼロショットビデオ生成の課題に対処するため、抽象ユーザプロンプトから視覚的に一貫性のある一貫したビデオを生成する上で、DirecT2Vフレームワークの有効性を検証する。
関連論文リスト
- VideoTetris: Towards Compositional Text-to-Video Generation [45.395598467837374]
VideoTetrisは、合成T2V生成を可能にするフレームワークである。
我々は, VideoTetrisがT2V生成において, 印象的な質的, 定量的な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2024-06-06T17:25:33Z) - Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。
固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。
我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文 参考訳(メタデータ) (2024-03-18T17:59:58Z) - Video-Teller: Enhancing Cross-Modal Generation with Fusion and
Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。
Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。
大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文 参考訳(メタデータ) (2023-10-08T03:35:27Z) - Free-Bloom: Zero-Shot Text-to-Video Generator with LLM Director and LDM
Animator [59.589919015669274]
本研究では,データ・コスト効率を考慮したゼロショットテキスト・ビデオ生成に焦点を当てた。
本稿では,大規模言語モデル (LLM) をディレクタとして活用し,セマンティック・コヒーレンス・プロンプト・シーケンスを生成する新しいフリーブルームパイプラインを提案する。
また,共同ノイズサンプリング,ステップ・アウェア・アテンション・シフト,デュアルパスなど,逆処理におけるLCMの適応に対する注釈修正も提案する。
論文 参考訳(メタデータ) (2023-09-25T19:42:16Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - Make-A-Video: Text-to-Video Generation without Text-Video Data [69.20996352229422]
Make-A-Videoは、テキスト・トゥ・イメージ(T2I)生成における最新の進歩をテキスト・トゥ・ビデオ(T2V)に変換するアプローチである。
我々は,新しい空間時空間モジュールを用いたT2Iモデル上に構築する,シンプルで効果的な手法を設計する。
空間的および時間的解像度、テキストへの忠実さ、品質など、あらゆる面で、Make-A-Videoは、テキスト・ビデオ生成における新しい最先端を定めている。
論文 参考訳(メタデータ) (2022-09-29T13:59:46Z) - Self-supervised Learning for Semi-supervised Temporal Language Grounding [84.11582376377471]
時間的言語接地(TLG)は、ビデオ中の特定の意味を含むセグメントの時間的境界をローカライズすることを目的としている。
以前の作業では、大量の手動アノテーションを必要とする完全に教師された設定や、満足のいくパフォーマンスを達成できない弱監督された設定で、このタスクに取り組みました。
アノテーションを限定して高い性能を達成するため,この課題を半教師付き方法で解決し,半教師付きテンポラル言語グラウンドディング(STLG)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-23T16:29:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。