論文の概要: TALC: Time-Aligned Captions for Multi-Scene Text-to-Video Generation
- arxiv url: http://arxiv.org/abs/2405.04682v2
- Date: Wed, 15 May 2024 21:44:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-17 18:15:48.755710
- Title: TALC: Time-Aligned Captions for Multi-Scene Text-to-Video Generation
- Title(参考訳): TALC:マルチシーンテキスト・ビデオ・ジェネレーションのためのタイムアライズド・キャプション
- Authors: Hritik Bansal, Yonatan Bitton, Michal Yarom, Idan Szpektor, Aditya Grover, Kai-Wei Chang,
- Abstract要約: マルチシーンビデオを生成するために,タイムアラインド・キャプション(TALC)フレームワークを導入する。
生成した映像の前後のシーンの視覚的特徴を第1のシーン記述の表現で表現する。
その結果, talC-finetunedモデルでは, ベースライン法よりも15.5ポイント高い性能を示した。
- 参考スコア(独自算出の注目度): 72.25642183446102
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in diffusion-based generative modeling have led to the development of text-to-video (T2V) models that can generate high-quality videos conditioned on a text prompt. Most of these T2V models often produce single-scene video clips that depict an entity performing a particular action (e.g., `a red panda climbing a tree'). However, it is pertinent to generate multi-scene videos since they are ubiquitous in the real-world (e.g., `a red panda climbing a tree' followed by `the red panda sleeps on the top of the tree'). To generate multi-scene videos from the pretrained T2V model, we introduce Time-Aligned Captions (TALC) framework. Specifically, we enhance the text-conditioning mechanism in the T2V architecture to recognize the temporal alignment between the video scenes and scene descriptions. For instance, we condition the visual features of the earlier and later scenes of the generated video with the representations of the first scene description (e.g., `a red panda climbing a tree') and second scene description (e.g., `the red panda sleeps on the top of the tree'), respectively. As a result, we show that the T2V model can generate multi-scene videos that adhere to the multi-scene text descriptions and be visually consistent (e.g., entity and background). Further, we finetune the pretrained T2V model with multi-scene video-text data using the TALC framework. We show that the TALC-finetuned model outperforms the baseline methods by 15.5 points in the overall score, which averages visual consistency and text adherence using human evaluation. The project website is https://talc-mst2v.github.io/.
- Abstract(参考訳): 拡散に基づく生成モデリングの最近の進歩は、テキストプロンプトに条件付けされた高品質なビデオを生成することができるテキスト・ツー・ビデオ(T2V)モデルの開発につながっている。
これらのT2Vモデルのほとんどは、特定のアクションを行うエンティティ(例:「木に登る赤いパンダ」)を描写したシングルシーンのビデオクリップを生成することが多い。
しかし、実世界では至るところで見られるため、多段映像を制作する傾向にある(例:「木に登る赤いパンダ」、続いて「木の頂上で赤いパンダが眠る」)。
事前訓練されたT2Vモデルからマルチシーンビデオを生成するために,時間調整キャプション(TALC)フレームワークを導入する。
具体的には、T2Vアーキテクチャのテキストコンディショニング機構を強化し、映像シーンとシーン記述の時間的アライメントを認識する。
例えば、生成した映像の前段と後段の視覚的特徴を、第1のシーン記述(例:「木に登る赤いパンダ」)と第2のシーン記述(例:「木の上に赤いパンダが眠る」)の表現で表現する。
その結果、T2Vモデルはマルチシーンのテキスト記述に忠実で、視覚的に一貫した(エンティティや背景など)マルチシーンビデオを生成することができることがわかった。
さらに, TALCフレームワークを用いて, 事前学習したT2Vモデルをマルチシーンビデオテキストデータで微調整する。
talC-finetuned model は,人間の評価を用いて視覚的一貫性とテキストの定着度を平均するスコアにおいて,ベースライン法を15.5ポイント上回ることを示す。
プロジェクトのWebサイトはhttps://talc-mst2v.github.io/。
関連論文リスト
- Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。
固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。
我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文 参考訳(メタデータ) (2024-03-18T17:59:58Z) - DirecT2V: Large Language Models are Frame-Level Directors for Zero-Shot
Text-to-Video Generation [37.25815760042241]
本稿では,テキスト・ツー・ビデオ(T2V)ビデオを生成するための新しいフレームワークであるDirecT2Vを紹介する。
拡散モデルに新しい値マッピング法とデュアルソフトマックスフィルタリングを適用し、追加のトレーニングを必要としない。
実験により,視覚的コヒーレントかつストーリーフルなビデオ制作におけるフレームワークの有効性が検証された。
論文 参考訳(メタデータ) (2023-05-23T17:57:09Z) - Vid2Seq: Large-Scale Pretraining of a Visual Language Model for Dense
Video Captioning [93.6842670770983]
Vid2Seqは、ナレーション付きビデオで事前訓練されたマルチモーダルなシングルステージのイベントキャプションモデルである。
本研究では, 文境界を擬似事象境界として再構成することにより, ラベル付きナレーション付き動画を高密度映像キャプションに活用可能であることを示す。
YT-Temporal-1Bデータセットで事前トレーニングされた結果のVid2Seqモデルは、さまざまな高密度ビデオキャプションベンチマーク上でのテクニックの状態を改善する。
論文 参考訳(メタデータ) (2023-02-27T19:53:49Z) - Tune-A-Video: One-Shot Tuning of Image Diffusion Models for
Text-to-Video Generation [31.882356164068753]
テキスト・トゥ・イメージ(T2I)生成の成功を再現するため、最近のテキスト・トゥ・ビデオ(T2V)生成では、T2V生成のためのデータセットに大量のデータセットが使用されている。
そこで本研究では,Tune-A-Videoが様々なアプリケーション上で時間的コヒーレントなビデオを生成することを提案する。
論文 参考訳(メタデータ) (2022-12-22T09:43:36Z) - Make-A-Video: Text-to-Video Generation without Text-Video Data [69.20996352229422]
Make-A-Videoは、テキスト・トゥ・イメージ(T2I)生成における最新の進歩をテキスト・トゥ・ビデオ(T2V)に変換するアプローチである。
我々は,新しい空間時空間モジュールを用いたT2Iモデル上に構築する,シンプルで効果的な手法を設計する。
空間的および時間的解像度、テキストへの忠実さ、品質など、あらゆる面で、Make-A-Videoは、テキスト・ビデオ生成における新しい最先端を定めている。
論文 参考訳(メタデータ) (2022-09-29T13:59:46Z) - Towards Fast Adaptation of Pretrained Contrastive Models for
Multi-channel Video-Language Retrieval [70.30052749168013]
マルチチャンネルビデオ言語検索は、異なるチャンネルからの情報を理解するためにモデルを必要とする。
対照的なマルチモーダルモデルは、画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されている。
これら2つの行を、限られたデータとリソースを持つマルチチャンネルビデオ言語検索に迅速に適応する方法は、明らかではない。
論文 参考訳(メタデータ) (2022-06-05T01:43:52Z) - HERO: Hierarchical Encoder for Video+Language Omni-representation
Pre-training [75.55823420847759]
本稿では,大規模ビデオ+言語オムニ表現学習のための新しいフレームワークHEROを提案する。
HEROは階層構造でマルチモーダル入力を符号化し、ビデオフレームのローカルコンテキストをクロスモーダル変換器でキャプチャする。
HEROはHowTo100Mと大規模TVデータセットを共同でトレーニングし、マルチキャラクタインタラクションによる複雑な社会的ダイナミクスの理解を深める。
論文 参考訳(メタデータ) (2020-05-01T03:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。