論文の概要: TALC: Time-Aligned Captions for Multi-Scene Text-to-Video Generation
- arxiv url: http://arxiv.org/abs/2405.04682v4
- Date: Fri, 08 Nov 2024 05:45:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 18:11:28.171204
- Title: TALC: Time-Aligned Captions for Multi-Scene Text-to-Video Generation
- Title(参考訳): TALC:マルチシーンテキスト・ビデオ・ジェネレーションのためのタイムアライズド・キャプション
- Authors: Hritik Bansal, Yonatan Bitton, Michal Yarom, Idan Szpektor, Aditya Grover, Kai-Wei Chang,
- Abstract要約: マルチシーンビデオを生成するためのシンプルで効果的なタイムアラインド・キャプション(TALC)フレームワークを提案する。
本稿では,T2Vモデルを用いて,マルチシーンのテキスト記述に準拠し,視覚的に一貫したマルチシーン映像を生成可能であることを示す。
- 参考スコア(独自算出の注目度): 72.25642183446102
- License:
- Abstract: Most of these text-to-video (T2V) generative models often produce single-scene video clips that depict an entity performing a particular action (e.g., 'a red panda climbing a tree'). However, it is pertinent to generate multi-scene videos since they are ubiquitous in the real-world (e.g., 'a red panda climbing a tree' followed by 'the red panda sleeps on the top of the tree'). To generate multi-scene videos from the pretrained T2V model, we introduce a simple and effective Time-Aligned Captions (TALC) framework. Specifically, we enhance the text-conditioning mechanism in the T2V architecture to recognize the temporal alignment between the video scenes and scene descriptions. For instance, we condition the visual features of the earlier and later scenes of the generated video with the representations of the first scene description (e.g., 'a red panda climbing a tree') and second scene description (e.g., 'the red panda sleeps on the top of the tree'), respectively. As a result, we show that the T2V model can generate multi-scene videos that adhere to the multi-scene text descriptions and be visually consistent (e.g., entity and background). Further, we finetune the pretrained T2V model with multi-scene video-text data using the TALC framework. We show that the TALC-finetuned model outperforms the baseline by achieving a relative gain of 29% in the overall score, which averages visual consistency and text adherence using human evaluation.
- Abstract(参考訳): これらのテキスト・ツー・ビデオ(T2V)生成モデルの多くは、特定のアクションを行うエンティティ(例:「木に登る赤いパンダ」)を描写する単一のシーンのビデオクリップを生成することが多い。
しかし、実世界では至るところで見られるため、多段映像を制作する傾向にある(例:「木に登る赤いパンダ」、続いて「木の頂上で赤いパンダが眠る」)。
プレトレーニング済みのT2Vモデルからマルチシーン映像を生成するために,シンプルで効果的なタイムアラインド・キャプション(TALC)フレームワークを導入する。
具体的には、T2Vアーキテクチャのテキストコンディショニング機構を強化し、映像シーンとシーン記述の時間的アライメントを認識する。
例えば、生成した映像の前段と後段の視覚的特徴を、それぞれ第1のシーン記述(例:「木に登る赤いパンダ」)と第2のシーン記述(例:「木の上に赤いパンダが眠る」)の表現で表現する。
その結果、T2Vモデルはマルチシーンのテキスト記述に忠実で、視覚的に一貫した(エンティティや背景など)マルチシーンビデオを生成することができることがわかった。
さらに, TALCフレームワークを用いて, 事前学習したT2Vモデルをマルチシーンビデオテキストデータで微調整する。
talC-finetuned モデルでは,人間の評価による視覚的一貫性とテキストの付着度の平均値であるスコアの相対的な29%を達成し,ベースラインよりも優れていることを示す。
関連論文リスト
- xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations [120.52120919834988]
xGen-SynVideo-1(xGen-SynVideo-1)は、テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルである。
VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さを大幅に削減する。
DiTモデルは、空間的および時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比をまたいだ堅牢な一般化を可能にする。
論文 参考訳(メタデータ) (2024-08-22T17:55:22Z) - Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。
固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。
我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文 参考訳(メタデータ) (2024-03-18T17:59:58Z) - DirecT2V: Large Language Models are Frame-Level Directors for Zero-Shot
Text-to-Video Generation [37.25815760042241]
本稿では,テキスト・ツー・ビデオ(T2V)ビデオを生成するための新しいフレームワークであるDirecT2Vを紹介する。
拡散モデルに新しい値マッピング法とデュアルソフトマックスフィルタリングを適用し、追加のトレーニングを必要としない。
実験により,視覚的コヒーレントかつストーリーフルなビデオ制作におけるフレームワークの有効性が検証された。
論文 参考訳(メタデータ) (2023-05-23T17:57:09Z) - Tune-A-Video: One-Shot Tuning of Image Diffusion Models for
Text-to-Video Generation [31.882356164068753]
テキスト・トゥ・イメージ(T2I)生成の成功を再現するため、最近のテキスト・トゥ・ビデオ(T2V)生成では、T2V生成のためのデータセットに大量のデータセットが使用されている。
そこで本研究では,Tune-A-Videoが様々なアプリケーション上で時間的コヒーレントなビデオを生成することを提案する。
論文 参考訳(メタデータ) (2022-12-22T09:43:36Z) - Make-A-Video: Text-to-Video Generation without Text-Video Data [69.20996352229422]
Make-A-Videoは、テキスト・トゥ・イメージ(T2I)生成における最新の進歩をテキスト・トゥ・ビデオ(T2V)に変換するアプローチである。
我々は,新しい空間時空間モジュールを用いたT2Iモデル上に構築する,シンプルで効果的な手法を設計する。
空間的および時間的解像度、テキストへの忠実さ、品質など、あらゆる面で、Make-A-Videoは、テキスト・ビデオ生成における新しい最先端を定めている。
論文 参考訳(メタデータ) (2022-09-29T13:59:46Z) - Towards Fast Adaptation of Pretrained Contrastive Models for
Multi-channel Video-Language Retrieval [70.30052749168013]
マルチチャンネルビデオ言語検索は、異なるチャンネルからの情報を理解するためにモデルを必要とする。
対照的なマルチモーダルモデルは、画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されている。
これら2つの行を、限られたデータとリソースを持つマルチチャンネルビデオ言語検索に迅速に適応する方法は、明らかではない。
論文 参考訳(メタデータ) (2022-06-05T01:43:52Z) - HERO: Hierarchical Encoder for Video+Language Omni-representation
Pre-training [75.55823420847759]
本稿では,大規模ビデオ+言語オムニ表現学習のための新しいフレームワークHEROを提案する。
HEROは階層構造でマルチモーダル入力を符号化し、ビデオフレームのローカルコンテキストをクロスモーダル変換器でキャプチャする。
HEROはHowTo100Mと大規模TVデータセットを共同でトレーニングし、マルチキャラクタインタラクションによる複雑な社会的ダイナミクスの理解を深める。
論文 参考訳(メタデータ) (2020-05-01T03:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。