論文の概要: DirecT2V: Large Language Models are Frame-Level Directors for Zero-Shot
Text-to-Video Generation
- arxiv url: http://arxiv.org/abs/2305.14330v3
- Date: Tue, 6 Feb 2024 18:44:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 20:50:25.351192
- Title: DirecT2V: Large Language Models are Frame-Level Directors for Zero-Shot
Text-to-Video Generation
- Title(参考訳): DirecT2V:大言語モデルはゼロショットテキスト・ビデオ生成のためのフレームレベルディレクトリである
- Authors: Susung Hong, Junyoung Seo, Heeseong Shin, Sunghwan Hong, Seungryong
Kim
- Abstract要約: 本稿では,テキスト・ツー・ビデオ(T2V)ビデオを生成するための新しいフレームワークであるDirecT2Vを紹介する。
拡散モデルに新しい値マッピング法とデュアルソフトマックスフィルタリングを適用し、追加のトレーニングを必要としない。
実験により,視覚的コヒーレントかつストーリーフルなビデオ制作におけるフレームワークの有効性が検証された。
- 参考スコア(独自算出の注目度): 37.25815760042241
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the paradigm of AI-generated content (AIGC), there has been increasing
attention to transferring knowledge from pre-trained text-to-image (T2I) models
to text-to-video (T2V) generation. Despite their effectiveness, these
frameworks face challenges in maintaining consistent narratives and handling
shifts in scene composition or object placement from a single abstract user
prompt. Exploring the ability of large language models (LLMs) to generate
time-dependent, frame-by-frame prompts, this paper introduces a new framework,
dubbed DirecT2V. DirecT2V leverages instruction-tuned LLMs as directors,
enabling the inclusion of time-varying content and facilitating consistent
video generation. To maintain temporal consistency and prevent mapping the
value to a different object, we equip a diffusion model with a novel value
mapping method and dual-softmax filtering, which do not require any additional
training. The experimental results validate the effectiveness of our framework
in producing visually coherent and storyful videos from abstract user prompts,
successfully addressing the challenges of zero-shot video generation.
- Abstract(参考訳): AIGC(AIGC)のパラダイムでは、事前訓練されたテキスト・トゥ・イメージ(T2I)モデルからテキスト・トゥ・ビデオ(T2V)生成への知識の移行に注目が集まっている。
その効果にもかかわらず、これらのフレームワークは、一貫性のある物語を維持し、単一の抽象ユーザプロンプトからシーン構成やオブジェクト配置のシフトを処理する上での課題に直面している。
大規模言語モデル(LLM)が時間依存のフレーム単位のプロンプトを生成する能力について検討し,新しいフレームワークであるDirecT2Vを提案する。
DirecT2Vは命令で調整されたLCMをディレクターとして利用し、時間変化のあるコンテンツを含め、一貫したビデオ生成を容易にする。
時間的一貫性を保ち、異なるオブジェクトへの値のマッピングを防止するため、新たな値マッピング法と、追加のトレーニングを必要としないデュアルソフトマックスフィルタリングを拡散モデルに装備する。
実験結果は,抽象的ユーザのプロンプトから視覚的にコヒーレントかつストーリーフルな映像を生成できるフレームワークの有効性を検証し,ゼロショットビデオ生成の課題への対処に成功した。
関連論文リスト
- VideoTetris: Towards Compositional Text-to-Video Generation [45.395598467837374]
VideoTetrisは、合成T2V生成を可能にするフレームワークである。
我々は, VideoTetrisがT2V生成において, 印象的な質的, 定量的な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2024-06-06T17:25:33Z) - Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。
固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。
我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文 参考訳(メタデータ) (2024-03-18T17:59:58Z) - Video-Teller: Enhancing Cross-Modal Generation with Fusion and
Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。
Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。
大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文 参考訳(メタデータ) (2023-10-08T03:35:27Z) - Free-Bloom: Zero-Shot Text-to-Video Generator with LLM Director and LDM
Animator [59.589919015669274]
本研究では,データ・コスト効率を考慮したゼロショットテキスト・ビデオ生成に焦点を当てた。
本稿では,大規模言語モデル (LLM) をディレクタとして活用し,セマンティック・コヒーレンス・プロンプト・シーケンスを生成する新しいフリーブルームパイプラインを提案する。
また,共同ノイズサンプリング,ステップ・アウェア・アテンション・シフト,デュアルパスなど,逆処理におけるLCMの適応に対する注釈修正も提案する。
論文 参考訳(メタデータ) (2023-09-25T19:42:16Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - Make-A-Video: Text-to-Video Generation without Text-Video Data [69.20996352229422]
Make-A-Videoは、テキスト・トゥ・イメージ(T2I)生成における最新の進歩をテキスト・トゥ・ビデオ(T2V)に変換するアプローチである。
我々は,新しい空間時空間モジュールを用いたT2Iモデル上に構築する,シンプルで効果的な手法を設計する。
空間的および時間的解像度、テキストへの忠実さ、品質など、あらゆる面で、Make-A-Videoは、テキスト・ビデオ生成における新しい最先端を定めている。
論文 参考訳(メタデータ) (2022-09-29T13:59:46Z) - Self-supervised Learning for Semi-supervised Temporal Language Grounding [84.11582376377471]
時間的言語接地(TLG)は、ビデオ中の特定の意味を含むセグメントの時間的境界をローカライズすることを目的としている。
以前の作業では、大量の手動アノテーションを必要とする完全に教師された設定や、満足のいくパフォーマンスを達成できない弱監督された設定で、このタスクに取り組みました。
アノテーションを限定して高い性能を達成するため,この課題を半教師付き方法で解決し,半教師付きテンポラル言語グラウンドディング(STLG)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-23T16:29:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。