論文の概要: MiraData: A Large-Scale Video Dataset with Long Durations and Structured Captions
- arxiv url: http://arxiv.org/abs/2407.06358v1
- Date: Mon, 8 Jul 2024 19:58:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 20:04:29.796520
- Title: MiraData: A Large-Scale Video Dataset with Long Durations and Structured Captions
- Title(参考訳): MiraData: 長い期間と構造化されたキャプションを備えた大規模ビデオデータセット
- Authors: Xuan Ju, Yiming Gao, Zhaoyang Zhang, Ziyang Yuan, Xintao Wang, Ailing Zeng, Yu Xiong, Qiang Xu, Ying Shan,
- Abstract要約: MiraDataは高品質なビデオデータセットで、ビデオの長さ、キャプションの詳細、動きの強さ、視覚的品質を上回ります。
MiraBenchには150の評価プロンプトと17のメトリクスが含まれており、時間的一貫性、動きの強さ、3Dの一貫性、視覚的品質、テキストとビデオのアライメント、分布の類似性などを含んでいる。
- 参考スコア(独自算出の注目度): 61.78074231295468
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sora's high-motion intensity and long consistent videos have significantly impacted the field of video generation, attracting unprecedented attention. However, existing publicly available datasets are inadequate for generating Sora-like videos, as they mainly contain short videos with low motion intensity and brief captions. To address these issues, we propose MiraData, a high-quality video dataset that surpasses previous ones in video duration, caption detail, motion strength, and visual quality. We curate MiraData from diverse, manually selected sources and meticulously process the data to obtain semantically consistent clips. GPT-4V is employed to annotate structured captions, providing detailed descriptions from four different perspectives along with a summarized dense caption. To better assess temporal consistency and motion intensity in video generation, we introduce MiraBench, which enhances existing benchmarks by adding 3D consistency and tracking-based motion strength metrics. MiraBench includes 150 evaluation prompts and 17 metrics covering temporal consistency, motion strength, 3D consistency, visual quality, text-video alignment, and distribution similarity. To demonstrate the utility and effectiveness of MiraData, we conduct experiments using our DiT-based video generation model, MiraDiT. The experimental results on MiraBench demonstrate the superiority of MiraData, especially in motion strength.
- Abstract(参考訳): ソラのハイモーションの強さと長い一貫したビデオは、ビデオ生成の分野に大きな影響を与え、前例のない注目を集めた。
しかし、現在公開されているデータセットは、動きの強度が低い短い短いビデオと短いキャプションを含むため、Soraのようなビデオを生成するには不十分である。
これらの問題に対処するために、ビデオの長さ、キャプションの詳細、動きの強さ、視覚的品質で先行する高品質なビデオデータセットであるMiraDataを提案する。
多様な手動で選択したソースからMiraDataをキュレートし、データを精巧に処理して意味的に一貫性のあるクリップを得る。
GPT-4Vはアノテートされたキャプションに使用され、4つの異なる視点から詳細な説明と要約された高密度キャプションを提供する。
ビデオ生成における時間的一貫性と運動強度をよりよく評価するために,3次元の一貫性とトラッキングに基づく運動強度測定を追加することで,既存のベンチマークを強化するMiraBenchを導入する。
MiraBenchには150の評価プロンプトと17のメトリクスが含まれており、時間的一貫性、動きの強さ、3Dの一貫性、視覚的品質、テキストとビデオのアライメント、分布の類似性などを含んでいる。
MiraDataの有用性と有効性を示すために、我々は、DiTベースのビデオ生成モデルであるMiraDiTを用いて実験を行う。
MiraBenchの実験結果は、特に運動強度において、MiraDataの優位性を示している。
関連論文リスト
- Fréchet Video Motion Distance: A Metric for Evaluating Motion Consistency in Videos [13.368981834953981]
映像生成における動きの整合性を評価することを目的としたFr'echet Video Motion Distanceメトリックを提案する。
具体的には、キーポイント追跡に基づく明示的な動作特徴を設計し、Fr'echet距離を用いてこれらの特徴間の類似度を測定する。
我々は大規模な人間の研究を行い、我々の測定値が時間的ノイズを効果的に検出し、既存の測定値よりも生成された映像品質の人間の知覚とよく一致していることを示す。
論文 参考訳(メタデータ) (2024-07-23T02:10:50Z) - ChronoMagic-Bench: A Benchmark for Metamorphic Evaluation of Text-to-Time-lapse Video Generation [57.651809298512276]
ChronoMagic-Benchは、テキスト・トゥ・ビデオ(T2V)生成ベンチマークである。
モデルがメタモルフィックな振幅と時間的コヒーレンスを持つタイムラプスビデオを生成する能力に焦点を当てている。
10種類の代表的なT2Vモデルの手動評価を行い、その強度と弱点を明らかにした。
大規模なChronoMagic-Proデータセットを作成し、460kの高品質な720pタイムラプスビデオを含む。
論文 参考訳(メタデータ) (2024-06-26T17:50:47Z) - Vript: A Video Is Worth Thousands of Words [54.815686588378156]
Vriptは12Kの高解像度ビデオの注釈付きコーパスで、420Kのクリップで詳細な、密度の高い、スクリプトのようなキャプションを提供する。
各クリップには145ワードのキャプションがあり、ほとんどのビデオテキストデータセットの10倍以上の長さである。
Vriptは、長いビデオのための高密度で詳細なキャプションをエンドツーエンドに生成できる強力なモデルである。
論文 参考訳(メタデータ) (2024-06-10T06:17:55Z) - ShareGPT4Video: Improving Video Understanding and Generation with Better Captions [93.29360532845062]
本稿では,大容量ビデオ言語モデル(LVLM)の映像理解と,高密度かつ高精度なキャプションによるテキスト・ツー・ビデオモデル(T2VM)のビデオ生成を目的としたShareGPT4Videoシリーズを紹介する。
ShareGPT4Video, 40K GPT4V Annotated dense Casts of video with various lengths and sources, developed through carefully designed data filtering and annotating strategy。
さらに,任意の動画に対して高品質なキャプションを効率よく生成できる優れたキャプションキャプタであるShareCaptioner-Videoを開発した。
論文 参考訳(メタデータ) (2024-06-06T17:58:54Z) - PointOdyssey: A Large-Scale Synthetic Dataset for Long-Term Point
Tracking [90.29143475328506]
本稿では,大規模合成データセットとデータ生成フレームワークであるPointOdysseyを紹介する。
私たちのゴールは、自然主義的な動きを持つ長いビデオに重点を置いて、最先端の技術を推し進めることです。
実世界のモーションキャプチャーデータを用いて変形可能なキャラクタをアニメーション化し、モーションキャプチャー環境に合わせて3Dシーンを構築し、リアルビデオ上で構造から抽出したトラジェクトリを用いてカメラ視点を描画する。
論文 参考訳(メタデータ) (2023-07-27T17:58:11Z) - Long Video Generation with Time-Agnostic VQGAN and Time-Sensitive
Transformer [66.56167074658697]
本稿では3D-VQGANとトランスフォーマーを使って数千フレームのビデオを生成する手法を提案する。
評価の結果,16フレームのビデオクリップでトレーニングしたモデルでは,多種多様でコヒーレントで高品質な長編ビデオが生成できることがわかった。
また,テキストと音声に時間情報を組み込むことで,有意義な長ビデオを生成するための条件付き拡張についても紹介する。
論文 参考訳(メタデータ) (2022-04-07T17:59:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。