論文の概要: ViMix-14M: A Curated Multi-Source Video-Text Dataset with Long-Form, High-Quality Captions and Crawl-Free Access
- arxiv url: http://arxiv.org/abs/2511.18382v1
- Date: Sun, 23 Nov 2025 10:19:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.812053
- Title: ViMix-14M: A Curated Multi-Source Video-Text Dataset with Long-Form, High-Quality Captions and Crawl-Free Access
- Title(参考訳): ViMix-14M: 長め、高画質、クロールフリーアクセスを備えたマルチソースビデオテキストデータセット
- Authors: Timing Yang, Sucheng Ren, Alan Yuille, Feng Wang,
- Abstract要約: ViMix-14Mは、約1400万対のマルチソースビデオテキストデータセットである。
ViMix-14Mは、様々なオープンビデオソースをマージして構築され、その後にデ複製と品質フィルタリングが統合されている。
マルチモーダル検索,テキスト・ツー・ビデオ生成,ビデオ質問応答タスクによるデータセットの評価を行った。
- 参考スコア(独自算出の注目度): 16.89068730775312
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-video generation has surged in interest since Sora, yet open-source models still face a data bottleneck: there is no large, high-quality, easily obtainable video-text corpus. Existing public datasets typically require manual YouTube crawling, which yields low usable volume due to link rot and access limits, and raises licensing uncertainty. This work addresses this challenge by introducing ViMix-14M, a curated multi-source video-text dataset of around 14 million pairs that provides crawl-free, download-ready access and long-form, high-quality captions tightly aligned to video. ViMix-14M is built by merging diverse open video sources, followed by unified de-duplication and quality filtering, and a multi-granularity, ground-truth-guided re-captioning pipeline that refines descriptions to better match actions, scenes, and temporal structure. We evaluate the dataset by multimodal retrieval, text-to-video generation, and video question answering tasks, observing consistent improvements over counterpart datasets. We hope this work can help removing the key barrier to training and fine-tuning open-source video foundation models, and provide insights of building high-quality and generalizable video-text datasets.
- Abstract(参考訳): テキストからビデオへの生成は、Sora以来関心が高まっているが、オープンソースモデルは依然としてデータボトルネックに直面している。
既存の公開データセットは、通常、手動のYouTubeクローリングを必要とする。
この課題に対処するため、ViMix-14Mは、約1400万対のマルチソースビデオテキストデータセットをキュレートしたもので、クロールフリーでダウンロード可能なアクセスと長文で高品質なキャプションをビデオにしっかりと合わせることができる。
ViMix-14Mは、様々なオープンビデオソースを融合して構築され、その後に統一された重複除去と品質フィルタリング、そして、アクションやシーン、時間構造に合うように説明を洗練するための多粒度で地味な誘導による再カプセル化パイプラインが作られる。
我々は,マルチモーダル検索,テキスト・ツー・ビデオ生成,ビデオ質問応答タスクによるデータセットの評価を行い,対応するデータセットに対する一貫した改善を観察した。
この取り組みは、トレーニングと微調整のオープンソースビデオファンデーションモデルに対する重要な障壁を取り除き、高品質で汎用的なビデオテキストデータセットを構築するための洞察を提供するのに役立つことを願っている。
関連論文リスト
- Beyond Simple Edits: Composed Video Retrieval with Dense Modifications [96.46069692338645]
多様なビデオセグメントにまたがる細粒度および構成されたアクションをキャプチャする新しいデータセットを提案する。
Dense-WebVid-CoVRは、1.6万のサンプルからできており、修正テキストは既存のものより約7倍多い。
我々は,Cross-Attention (CA) 融合により視覚情報とテキスト情報を統合した新しいモデルを開発した。
論文 参考訳(メタデータ) (2025-08-19T17:59:39Z) - Koala-36M: A Large-scale Video Dataset Improving Consistency between Fine-grained Conditions and Video Content [35.02160595617654]
我々は,正確な時間分割,詳細なキャプション,優れた映像品質を備えた大規模高品質ビデオデータセットであるKoala-36Mを紹介した。
確率分布に線形分類器を用い、遷移検出の精度を高め、時間的整合性を向上させる。
複数のサブメトリックを統合するVTSS(Video Training Suitability Score)を開発した。
論文 参考訳(メタデータ) (2024-10-10T17:57:49Z) - SynopGround: A Large-Scale Dataset for Multi-Paragraph Video Grounding from TV Dramas and Synopses [58.488812405557]
ビデオグラウンディングは、特定の自然言語クエリを、トリミングされていないビデオにローカライズすることを目的としている。
本稿では,SynopGroundという大規模ビデオグラウンドデータセットを提案する。
我々はMPVG(Multi-Paragraph Video Grounding)と呼ばれるより複雑なビデオグラウンドについて紹介する。
論文 参考訳(メタデータ) (2024-08-03T05:35:13Z) - InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding
and Generation [90.71796406228265]
InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。
InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
論文 参考訳(メタデータ) (2023-07-13T17:58:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。