論文の概要: VideoUFO: A Million-Scale User-Focused Dataset for Text-to-Video Generation
- arxiv url: http://arxiv.org/abs/2503.01739v1
- Date: Mon, 03 Mar 2025 17:00:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:18:13.224478
- Title: VideoUFO: A Million-Scale User-Focused Dataset for Text-to-Video Generation
- Title(参考訳): VideoUFO:テキスト・ツー・ビデオ・ジェネレーションのための100万規模のユーザ・フォーカス付きデータセット
- Authors: Wenhao Wang, Yi Yang,
- Abstract要約: VideoUFOは、現実世界のシナリオにおけるユーザのFOcusに合わせて特別にキュレーションされたビデオデータセットである。
VideoUFOは190万ドル以上のビデオクリップで構成され、それぞれに短いキャプションと詳細なキャプションがある。
実験の結果,(1)現在の16ドルのテキスト・ツー・ビデオモデルでは,すべてのユーザ中心のトピックに対して一貫したパフォーマンスが得られず,(2)ビデオUFOで訓練された単純なモデルでは,最悪の話題に対して他者より優れていたことがわかった。
- 参考スコア(独自算出の注目度): 22.782099757385804
- License:
- Abstract: Text-to-video generative models convert textual prompts into dynamic visual content, offering wide-ranging applications in film production, gaming, and education. However, their real-world performance often falls short of user expectations. One key reason is that these models have not been trained on videos related to some topics users want to create. In this paper, we propose VideoUFO, the first Video dataset specifically curated to align with Users' FOcus in real-world scenarios. Beyond this, our VideoUFO also features: (1) minimal ($0.29\%$) overlap with existing video datasets, and (2) videos searched exclusively via YouTube's official API under the Creative Commons license. These two attributes provide future researchers with greater freedom to broaden their training sources. The VideoUFO comprises over $1.09$ million video clips, each paired with both a brief and a detailed caption (description). Specifically, through clustering, we first identify $1,291$ user-focused topics from the million-scale real text-to-video prompt dataset, VidProM. Then, we use these topics to retrieve videos from YouTube, split the retrieved videos into clips, and generate both brief and detailed captions for each clip. After verifying the clips with specified topics, we are left with about $1.09$ million video clips. Our experiments reveal that (1) current $16$ text-to-video models do not achieve consistent performance across all user-focused topics; and (2) a simple model trained on VideoUFO outperforms others on worst-performing topics. The dataset is publicly available at https://huggingface.co/datasets/WenhaoWang/VideoUFO under the CC BY 4.0 License.
- Abstract(参考訳): テキスト・ツー・ビデオ生成モデルはテキスト・プロンプトを動的視覚コンテンツに変換し、映画製作、ゲーム、教育に幅広い応用を提供する。
しかし、実際のパフォーマンスは、しばしばユーザの期待に届かなかった。
主な理由は、これらのモデルがユーザーが作りたいトピックに関連するビデオで訓練されていないからだ。
本稿では,現実のシナリオにおけるユーザのFOcusに合わせて特別にキュレートされたビデオデータセットであるVideoUFOを提案する。
さらに、ビデオUFOには、(1)既存のビデオデータセットと最小限の$0.29\%のオーバーラップ、(2)Creative Commonsライセンスの下でYouTubeの公式APIでのみ検索されるビデオなどが含まれています。
これら2つの属性は、将来の研究者にトレーニングソースを広げる自由を与える。
VideoUFOは190万ドル以上のビデオクリップで構成されており、それぞれに短いキャプションと詳細なキャプション(説明)がある。
具体的には、クラスタリングを通じて、100万単位のリアルテキスト・ビデオプロンプトデータセットであるVidProMから、ユーザ中心のトピックを1,291ドルで識別する。
そして、これらのトピックを使ってYouTubeからビデオを検索し、検索したビデオをクリップに分割し、クリップごとに短いキャプションと詳細なキャプションを生成する。
特定のトピックでクリップを検証すると、約1.09億ドルのビデオクリップが残される。
実験の結果,(1)現在16ドルのテキスト・ツー・ビデオ・モデルでは,すべてのユーザ中心のトピックに対して一貫したパフォーマンスが得られず,(2)ビデオUFOで訓練された単純なモデルでは,最悪のパフォーマンスのトピックが他より優れていることがわかった。
データセットはCC BY 4.0ライセンス下でhttps://huggingface.co/datasets/WenhaoWang/VideoUFOで公開されている。
関連論文リスト
- Divot: Diffusion Powers Video Tokenizer for Comprehension and Generation [54.21476271127356]
Divotは拡散駆動型ビデオトケナイザである。
我々は、ビデオからテキストへの自己回帰とテキストからビデオへの生成を通じてDivot-unaVicを提示する。
論文 参考訳(メタデータ) (2024-12-05T18:53:04Z) - MovieBench: A Hierarchical Movie Level Dataset for Long Video Generation [62.85764872989189]
長いビデオ生成モデルの分析、評価、トレーニングに適したデータセットは公開されていない。
The MovieBench: A Hierarchical Movie-Level dataset for Long Video Generation。
データセットは公開され、継続的に維持され、長いビデオ生成の分野を前進させることを目的としている。
論文 参考訳(メタデータ) (2024-11-22T10:25:08Z) - Vript: A Video Is Worth Thousands of Words [54.815686588378156]
Vriptは12Kの高解像度ビデオの注釈付きコーパスで、420Kのクリップで詳細な、密度の高い、スクリプトのようなキャプションを提供する。
各クリップには145ワードのキャプションがあり、ほとんどのビデオテキストデータセットの10倍以上の長さである。
Vriptは、長いビデオのための高密度で詳細なキャプションをエンドツーエンドに生成できる強力なモデルである。
論文 参考訳(メタデータ) (2024-06-10T06:17:55Z) - VidProM: A Million-scale Real Prompt-Gallery Dataset for Text-to-Video Diffusion Models [22.782099757385804]
VidProMは、実際のユーザから167万のユニークなテキスト対ビデオプロンプトを含む、最初の大規模データセットである。
このデータセットには、4つの最先端拡散モデルによって生成された669万のビデオが含まれている。
拡散モデルのためのテキスト・ビデオ・プロンプト・エンジニアリング、効率的なビデオ生成、ビデオコピー検出について検討し、より良く、より効率的に、より安全なモデルを開発することを提案する。
論文 参考訳(メタデータ) (2024-03-10T05:40:12Z) - Can Language Models Laugh at YouTube Short-form Videos? [40.47384055149102]
ユーザ生成したYouTubeから10Kのマルチモーダルな面白いビデオのデータセット、ExFunTubeをキュレートします。
GPT-3.5を用いたビデオフィルタリングパイプラインを用いて,ユーモアに寄与する言語的要素と視覚的要素の両方を検証する。
フィルタリング後、各ビデオにタイムスタンプとテキスト説明をアノテートします。
論文 参考訳(メタデータ) (2023-10-22T03:01:38Z) - InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding
and Generation [90.71796406228265]
InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。
InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
論文 参考訳(メタデータ) (2023-07-13T17:58:32Z) - Knowledge Enhanced Model for Live Video Comment Generation [40.762720398152766]
本稿では,ライブビデオコメントの発散と情報的特性に着想を得た知識強化生成モデルを提案する。
本モデルは,事前学習型エンコーダデコーダフレームワークを採用し,外部知識を取り入れている。
MovieLCデータセットとコードがリリースされる。
論文 参考訳(メタデータ) (2023-04-28T07:03:50Z) - Long Video Generation with Time-Agnostic VQGAN and Time-Sensitive
Transformer [66.56167074658697]
本稿では3D-VQGANとトランスフォーマーを使って数千フレームのビデオを生成する手法を提案する。
評価の結果,16フレームのビデオクリップでトレーニングしたモデルでは,多種多様でコヒーレントで高品質な長編ビデオが生成できることがわかった。
また,テキストと音声に時間情報を組み込むことで,有意義な長ビデオを生成するための条件付き拡張についても紹介する。
論文 参考訳(メタデータ) (2022-04-07T17:59:02Z) - Visual Semantic Role Labeling for Video Understanding [46.02181466801726]
視覚的セマンティック・ロール・ラベリングを用いた映像中の関連イベントの理解と表現のための新しい枠組みを提案する。
ビデオは関連するイベントの集合として表現され、各イベントはそのイベントに関連する様々な役割を果たす動詞と複数のエンティティから構成される。
VidSituベンチマークは、大規模ビデオ理解データソースで、29K$10$-secondの動画クリップに動詞とセマンティックロールが2秒ごとにリッチに注釈付けされている。
論文 参考訳(メタデータ) (2021-04-02T11:23:22Z) - VIOLIN: A Large-Scale Dataset for Video-and-Language Inference [103.7457132841367]
ビデオとテキストのマルチモーダル理解のための新しいタスク, Video-and-Language Inferenceを導入する。
サブタイトルを前提としたビデオクリップと、そのビデオコンテンツに基づいて自然言語仮説とをペアリングすると、モデルは、その仮説が所定のビデオクリップに関連付けられているか、矛盾しているかを推測する必要がある。
このタスクには、Violin(VIdeO-and-Language Inference)という名の新しい大規模データセットが導入された。
論文 参考訳(メタデータ) (2020-03-25T20:39:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。