論文の概要: TALC: Time-Aligned Captions for Multi-Scene Text-to-Video Generation
- arxiv url: http://arxiv.org/abs/2405.04682v3
- Date: Sat, 25 May 2024 01:13:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 05:27:58.092306
- Title: TALC: Time-Aligned Captions for Multi-Scene Text-to-Video Generation
- Title(参考訳): TALC:マルチシーンテキスト・ビデオ・ジェネレーションのためのタイムアライズド・キャプション
- Authors: Hritik Bansal, Yonatan Bitton, Michal Yarom, Idan Szpektor, Aditya Grover, Kai-Wei Chang,
- Abstract要約: マルチシーンビデオを生成するために,タイムアラインド・キャプション(TALC)フレームワークを導入する。
具体的には、T2Vアーキテクチャのテキストコンディショニング機構を強化し、映像シーンとシーン記述の時間的アライメントを認識する。
talC-finetuned modelは,多場面ビデオテキストデータにおけるベースライン法を集計スコアで15.5ポイント上回る性能を示した。
- 参考スコア(独自算出の注目度): 72.25642183446102
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in diffusion-based generative modeling have led to the development of text-to-video (T2V) models that can generate high-quality videos conditioned on a text prompt. Most of these T2V models often produce single-scene video clips that depict an entity performing a particular action (e.g., 'a red panda climbing a tree'). However, it is pertinent to generate multi-scene videos since they are ubiquitous in the real-world (e.g., 'a red panda climbing a tree' followed by 'the red panda sleeps on the top of the tree'). To generate multi-scene videos from a pretrained T2V model, we introduce Time-Aligned Captions (TALC) framework. Specifically, we enhance the text-conditioning mechanism in the T2V architecture to recognize the temporal alignment between the video scenes and scene descriptions. As a result, we show that the pretrained T2V model can generate multi-scene videos that adhere to the multi-scene text descriptions and be visually consistent (e.g., w.r.t entity and background). Our TALC-finetuned model outperforms the baseline methods on multi-scene video-text data by 15.5 points on aggregated score, averaging visual consistency and text adherence using human evaluation. The project website is https://talc-mst2v.github.io/.
- Abstract(参考訳): 拡散に基づく生成モデリングの最近の進歩は、テキストプロンプトに条件付けされた高品質なビデオを生成することができるテキスト・ツー・ビデオ(T2V)モデルの開発につながっている。
これらのT2Vモデルの多くは、特定のアクションを行うエンティティ(例:「木に登る赤いパンダ」)を描写したシングルシーンのビデオクリップを生成することが多い。
しかし、実世界では至るところで見られるため、多段映像を制作する傾向にある(例:「木に登る赤いパンダ」、続いて「木の頂上で赤いパンダが眠る」)。
事前訓練されたT2Vモデルからマルチシーン映像を生成するために,時間調整キャプション(TALC)フレームワークを導入する。
具体的には、T2Vアーキテクチャのテキストコンディショニング機構を強化し、映像シーンとシーン記述の時間的アライメントを認識する。
その結果、事前訓練されたT2Vモデルは、マルチシーンのテキスト記述に忠実で、視覚的に一貫した(例えば、w.r.tエンティティと背景)マルチシーンビデオを生成することができることを示した。
talC-finetuned model は,複数シーンのビデオテキストデータに対するベースライン法を,集計スコアで15.5ポイント向上し,人間の評価による視覚的一貫性とテキストの付着度を平均化する。
プロジェクトのWebサイトはhttps://talc-mst2v.github.io/。
関連論文リスト
- VAST 1.0: A Unified Framework for Controllable and Consistent Video Generation [48.318567065609216]
VAST(Video As Storyboard from Text)は、テキスト記述から高品質なビデオを生成するためのフレームワークである。
映像生成からテキスト理解を分離することにより、VASTは主題のダイナミクスやシーン構成を正確に制御できる。
VBenchベンチマークの実験では、VASTは視覚的品質とセマンティック表現の両方において、既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-12-21T15:59:07Z) - ViBe: A Text-to-Video Benchmark for Evaluating Hallucination in Large Multimodal Models [13.04745908368858]
本稿では,T2Vモデルによる幻覚映像の大規模テキスト・ビデオベンチマークであるViBeを紹介する。
10個のオープンソースT2Vモデルを用いて,幻覚映像の大規模データセットを開発した。
このベンチマークは、入力プロンプトとより正確に一致したビデオを生成する堅牢なT2Vモデルの開発を促進することを目的としている。
論文 参考訳(メタデータ) (2024-11-16T19:23:12Z) - Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。
固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。
我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文 参考訳(メタデータ) (2024-03-18T17:59:58Z) - TaleCrafter: Interactive Story Visualization with Multiple Characters [49.14122401339003]
本稿では,ジェネリック・インタラクティブ・ストーリー・ビジュアライゼーションシステムを提案する。
複数の新しい文字を扱うことができ、レイアウトと局所構造の編集をサポートする。
システムは、ストーリー・ツー・プロンプト・ジェネレーション(S2P)、テキスト・ツー・ジェネレーション(T2L)、制御可能なテキスト・ツー・イメージ・ジェネレーション(C-T2I)、画像・トゥ・ビデオ・アニメーション(I2V)の4つの相互接続コンポーネントからなる。
論文 参考訳(メタデータ) (2023-05-29T17:11:39Z) - DirecT2V: Large Language Models are Frame-Level Directors for Zero-Shot
Text-to-Video Generation [37.25815760042241]
本稿では,テキスト・ツー・ビデオ(T2V)ビデオを生成するための新しいフレームワークであるDirecT2Vを紹介する。
拡散モデルに新しい値マッピング法とデュアルソフトマックスフィルタリングを適用し、追加のトレーニングを必要としない。
実験により,視覚的コヒーレントかつストーリーフルなビデオ制作におけるフレームワークの有効性が検証された。
論文 参考訳(メタデータ) (2023-05-23T17:57:09Z) - Tune-A-Video: One-Shot Tuning of Image Diffusion Models for
Text-to-Video Generation [31.882356164068753]
テキスト・トゥ・イメージ(T2I)生成の成功を再現するため、最近のテキスト・トゥ・ビデオ(T2V)生成では、T2V生成のためのデータセットに大量のデータセットが使用されている。
そこで本研究では,Tune-A-Videoが様々なアプリケーション上で時間的コヒーレントなビデオを生成することを提案する。
論文 参考訳(メタデータ) (2022-12-22T09:43:36Z) - Make-A-Video: Text-to-Video Generation without Text-Video Data [69.20996352229422]
Make-A-Videoは、テキスト・トゥ・イメージ(T2I)生成における最新の進歩をテキスト・トゥ・ビデオ(T2V)に変換するアプローチである。
我々は,新しい空間時空間モジュールを用いたT2Iモデル上に構築する,シンプルで効果的な手法を設計する。
空間的および時間的解像度、テキストへの忠実さ、品質など、あらゆる面で、Make-A-Videoは、テキスト・ビデオ生成における新しい最先端を定めている。
論文 参考訳(メタデータ) (2022-09-29T13:59:46Z) - HERO: Hierarchical Encoder for Video+Language Omni-representation
Pre-training [75.55823420847759]
本稿では,大規模ビデオ+言語オムニ表現学習のための新しいフレームワークHEROを提案する。
HEROは階層構造でマルチモーダル入力を符号化し、ビデオフレームのローカルコンテキストをクロスモーダル変換器でキャプチャする。
HEROはHowTo100Mと大規模TVデータセットを共同でトレーニングし、マルチキャラクタインタラクションによる複雑な社会的ダイナミクスの理解を深める。
論文 参考訳(メタデータ) (2020-05-01T03:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。