論文の概要: LVD-2M: A Long-take Video Dataset with Temporally Dense Captions
- arxiv url: http://arxiv.org/abs/2410.10816v1
- Date: Mon, 14 Oct 2024 17:59:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-29 19:24:58.935387
- Title: LVD-2M: A Long-take Video Dataset with Temporally Dense Captions
- Title(参考訳): LVD-2M:テンポラリDenseキャプション付きロングテイクビデオデータセット
- Authors: Tianwei Xiong, Yuqing Wang, Daquan Zhou, Zhijie Lin, Jiashi Feng, Xihui Liu,
- Abstract要約: 高品質なロングテイクビデオを選択し、時間的に密度の高いキャプションを生成するためのパイプラインを新たに導入する。
具体的には、シーンカット、ダイナミック度、セマンティックレベルの品質を含む映像品質を定量的に評価する指標のセットを定義する。
LVD-2Mは,200万本のビデオからなり,それぞれ10秒以上をカバーし,時間的に密度の高いキャプションを付加する。
- 参考スコア(独自算出の注目度): 68.88624389174026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The efficacy of video generation models heavily depends on the quality of their training datasets. Most previous video generation models are trained on short video clips, while recently there has been increasing interest in training long video generation models directly on longer videos. However, the lack of such high-quality long videos impedes the advancement of long video generation. To promote research in long video generation, we desire a new dataset with four key features essential for training long video generation models: (1) long videos covering at least 10 seconds, (2) long-take videos without cuts, (3) large motion and diverse contents, and (4) temporally dense captions. To achieve this, we introduce a new pipeline for selecting high-quality long-take videos and generating temporally dense captions. Specifically, we define a set of metrics to quantitatively assess video quality including scene cuts, dynamic degrees, and semantic-level quality, enabling us to filter high-quality long-take videos from a large amount of source videos. Subsequently, we develop a hierarchical video captioning pipeline to annotate long videos with temporally-dense captions. With this pipeline, we curate the first long-take video dataset, LVD-2M, comprising 2 million long-take videos, each covering more than 10 seconds and annotated with temporally dense captions. We further validate the effectiveness of LVD-2M by fine-tuning video generation models to generate long videos with dynamic motions. We believe our work will significantly contribute to future research in long video generation.
- Abstract(参考訳): ビデオ生成モデルの有効性は、トレーニングデータセットの品質に大きく依存する。
従来のビデオ生成モデルは、短いビデオクリップでトレーニングされているが、最近では、長いビデオ生成モデルを直接、より長いビデオ上でトレーニングすることへの関心が高まっている。
しかし、このような高品質な長編ビデオの欠如は、長編ビデオ生成の進歩を妨げている。
長ビデオ生成における研究を促進するために,(1)10秒以上の長ビデオ,(2)カットなしの長ビデオ,(3)大きな動きと多様な内容,(4)時間的に密集したキャプションという,長ビデオ生成モデルのトレーニングに不可欠な4つの重要な特徴を持つ新たなデータセットが望まれている。
そこで本稿では,高品質なロングテイクビデオを選択し,時間的に密接なキャプションを生成するパイプラインを提案する。
具体的には、シーンカット、ダイナミック度、セマンティックレベルの品質などのビデオ品質を定量的に評価する指標を定義し、大量のソースビデオから高品質なロングテイクビデオをフィルタリングする。
その後,時間的に細かな字幕で長大なビデオに注釈を付けるための階層型ビデオキャプションパイプラインを開発した。
このパイプラインでは,200万本の長手ビデオからなる最初の長手ビデオデータセットであるLVD-2Mをキュレートし,それぞれ10秒以上をカバーし,時間的に密度の高いキャプションを付加する。
動画像を生成するための微調整ビデオ生成モデルにより,LVD-2Mの有効性をさらに検証する。
私たちの研究は、長いビデオ生成における将来の研究に大きく貢献すると考えています。
関連論文リスト
- MovieBench: A Hierarchical Movie Level Dataset for Long Video Generation [62.85764872989189]
長いビデオ生成モデルの分析、評価、トレーニングに適したデータセットは公開されていない。
The MovieBench: A Hierarchical Movie-Level dataset for Long Video Generation。
データセットは公開され、継続的に維持され、長いビデオ生成の分野を前進させることを目的としている。
論文 参考訳(メタデータ) (2024-11-22T10:25:08Z) - xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations [120.52120919834988]
xGen-SynVideo-1(xGen-SynVideo-1)は、テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルである。
VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さを大幅に削減する。
DiTモデルは、空間的および時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比をまたいだ堅牢な一般化を可能にする。
論文 参考訳(メタデータ) (2024-08-22T17:55:22Z) - Multi-sentence Video Grounding for Long Video Generation [46.363084926441466]
長大映像生成のための多文ビデオグラウンドの勇敢で新しいアイデアを提案する。
提案手法は,画像・ビデオ編集,ビデオモーフィング,パーソナライズド生成,ビデオグラウンドニングの発達を,長いビデオ生成にシームレスに拡張する。
論文 参考訳(メタデータ) (2024-07-18T07:05:05Z) - StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text [58.49820807662246]
本稿では,80,240,600,1200以上のフレームをスムーズな遷移で自動回帰的に生成するStreamingT2Vを紹介する。
私たちのコードは、https://github.com/Picsart-AI-Research/StreamingT2V.comで利用可能です。
論文 参考訳(メタデータ) (2024-03-21T18:27:29Z) - LVCHAT: Facilitating Long Video Comprehension [25.395689904747965]
本稿では,Long Video Chat (LVChat) を提案する。
LVは、長ビデオのQAデータセットと長ビデオのキャプションベンチマークにおいて、既存の手法を最大27%上回っている。
論文 参考訳(メタデータ) (2024-02-19T11:59:14Z) - A Video is Worth 10,000 Words: Training and Benchmarking with Diverse
Captions for Better Long Video Retrieval [43.58794386905177]
既存の長いビデオ検索システムは、段落から段落までの検索システムで訓練され、テストされる。
これは、ビデオのリッチさと多種多様な有効な記述を無視している。
本稿では,最先端の大規模言語モデルを利用して,多種多様な合成キャプションを注意深く生成するパイプラインを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:59:45Z) - Video Generation Beyond a Single Clip [76.5306434379088]
ビデオ生成モデルは、実際のビデオの長さと比較して比較的短いビデオクリップしか生成できない。
多様なコンテンツや複数のイベントをカバーした長いビデオを生成するために,ビデオ生成プロセスを制御するための追加のガイダンスを提案する。
提案手法は、固定時間ウィンドウ内でリアルな映像を生成することに焦点を当てた、既存の映像生成の取り組みを補完するものである。
論文 参考訳(メタデータ) (2023-04-15T06:17:30Z) - Long Video Generation with Time-Agnostic VQGAN and Time-Sensitive
Transformer [66.56167074658697]
本稿では3D-VQGANとトランスフォーマーを使って数千フレームのビデオを生成する手法を提案する。
評価の結果,16フレームのビデオクリップでトレーニングしたモデルでは,多種多様でコヒーレントで高品質な長編ビデオが生成できることがわかった。
また,テキストと音声に時間情報を組み込むことで,有意義な長ビデオを生成するための条件付き拡張についても紹介する。
論文 参考訳(メタデータ) (2022-04-07T17:59:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。