論文の概要: ViMix-14M: A Curated Multi-Source Video-Text Dataset with Long-Form, High-Quality Captions and Crawl-Free Access
- arxiv url: http://arxiv.org/abs/2511.18382v1
- Date: Sun, 23 Nov 2025 10:19:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.812053
- Title: ViMix-14M: A Curated Multi-Source Video-Text Dataset with Long-Form, High-Quality Captions and Crawl-Free Access
- Title(参考訳): ViMix-14M: 長め、高画質、クロールフリーアクセスを備えたマルチソースビデオテキストデータセット
- Authors: Timing Yang, Sucheng Ren, Alan Yuille, Feng Wang,
- Abstract要約: ViMix-14Mは、約1400万対のマルチソースビデオテキストデータセットである。
ViMix-14Mは、様々なオープンビデオソースをマージして構築され、その後にデ複製と品質フィルタリングが統合されている。
マルチモーダル検索,テキスト・ツー・ビデオ生成,ビデオ質問応答タスクによるデータセットの評価を行った。
- 参考スコア(独自算出の注目度): 16.89068730775312
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-video generation has surged in interest since Sora, yet open-source models still face a data bottleneck: there is no large, high-quality, easily obtainable video-text corpus. Existing public datasets typically require manual YouTube crawling, which yields low usable volume due to link rot and access limits, and raises licensing uncertainty. This work addresses this challenge by introducing ViMix-14M, a curated multi-source video-text dataset of around 14 million pairs that provides crawl-free, download-ready access and long-form, high-quality captions tightly aligned to video. ViMix-14M is built by merging diverse open video sources, followed by unified de-duplication and quality filtering, and a multi-granularity, ground-truth-guided re-captioning pipeline that refines descriptions to better match actions, scenes, and temporal structure. We evaluate the dataset by multimodal retrieval, text-to-video generation, and video question answering tasks, observing consistent improvements over counterpart datasets. We hope this work can help removing the key barrier to training and fine-tuning open-source video foundation models, and provide insights of building high-quality and generalizable video-text datasets.
- Abstract(参考訳): テキストからビデオへの生成は、Sora以来関心が高まっているが、オープンソースモデルは依然としてデータボトルネックに直面している。
既存の公開データセットは、通常、手動のYouTubeクローリングを必要とする。
この課題に対処するため、ViMix-14Mは、約1400万対のマルチソースビデオテキストデータセットをキュレートしたもので、クロールフリーでダウンロード可能なアクセスと長文で高品質なキャプションをビデオにしっかりと合わせることができる。
ViMix-14Mは、様々なオープンビデオソースを融合して構築され、その後に統一された重複除去と品質フィルタリング、そして、アクションやシーン、時間構造に合うように説明を洗練するための多粒度で地味な誘導による再カプセル化パイプラインが作られる。
我々は,マルチモーダル検索,テキスト・ツー・ビデオ生成,ビデオ質問応答タスクによるデータセットの評価を行い,対応するデータセットに対する一貫した改善を観察した。
この取り組みは、トレーニングと微調整のオープンソースビデオファンデーションモデルに対する重要な障壁を取り除き、高品質で汎用的なビデオテキストデータセットを構築するための洞察を提供するのに役立つことを願っている。
関連論文リスト
- Beyond Simple Edits: Composed Video Retrieval with Dense Modifications [96.46069692338645]
多様なビデオセグメントにまたがる細粒度および構成されたアクションをキャプチャする新しいデータセットを提案する。
Dense-WebVid-CoVRは、1.6万のサンプルからできており、修正テキストは既存のものより約7倍多い。
我々は,Cross-Attention (CA) 融合により視覚情報とテキスト情報を統合した新しいモデルを開発した。
論文 参考訳(メタデータ) (2025-08-19T17:59:39Z) - UltraVideo: High-Quality UHD Video Dataset with Comprehensive Captions [88.66676805439512]
ビデオアプリケーションへの需要は、高品質なビデオ生成モデルにより高い要求を課す。
我々はまず,高品質なUHD-4Kテキスト・ビデオ・データセットUltraVideoを提案する。
各ビデオには9つの構成キャプションと1つの要約キャプション(平均824語)がある。
論文 参考訳(メタデータ) (2025-06-16T16:52:52Z) - DocVideoQA: Towards Comprehensive Understanding of Document-Centric Videos through Question Answering [13.466266412068475]
DocVideoQAタスクとデータセットを初めて紹介し、23のカテゴリにわたる1454のビデオを約828時間に分けた。
データセットには、手動およびGPTを介して154kの質問応答ペアがアノテートされ、モデルの理解、時間的認識、モダリティ統合機能を評価する。
提案手法は,多種多様な指導指導データを用いて一助的特徴抽出を強化し,モダリティ統合を強化するためにコントラスト学習を利用する。
論文 参考訳(メタデータ) (2025-03-20T06:21:25Z) - Koala-36M: A Large-scale Video Dataset Improving Consistency between Fine-grained Conditions and Video Content [35.02160595617654]
我々は,正確な時間分割,詳細なキャプション,優れた映像品質を備えた大規模高品質ビデオデータセットであるKoala-36Mを紹介した。
確率分布に線形分類器を用い、遷移検出の精度を高め、時間的整合性を向上させる。
複数のサブメトリックを統合するVTSS(Video Training Suitability Score)を開発した。
論文 参考訳(メタデータ) (2024-10-10T17:57:49Z) - SynopGround: A Large-Scale Dataset for Multi-Paragraph Video Grounding from TV Dramas and Synopses [58.488812405557]
ビデオグラウンディングは、特定の自然言語クエリを、トリミングされていないビデオにローカライズすることを目的としている。
本稿では,SynopGroundという大規模ビデオグラウンドデータセットを提案する。
我々はMPVG(Multi-Paragraph Video Grounding)と呼ばれるより複雑なビデオグラウンドについて紹介する。
論文 参考訳(メタデータ) (2024-08-03T05:35:13Z) - InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding
and Generation [90.71796406228265]
InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。
InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
論文 参考訳(メタデータ) (2023-07-13T17:58:32Z) - A Large Cross-Modal Video Retrieval Dataset with Reading Comprehension [49.74647080936875]
テキスト読解機能を備えた大規模・クロスモーダルなビデオ検索データセットであるTextVRを紹介した。
提案したTextVRでは,テキストを認識し,理解し,視覚的コンテキストに関連づけ,ビデオ検索作業に不可欠なテキスト意味情報を決定するために,一種類のクロスモーダルモデルが必要である。
論文 参考訳(メタデータ) (2023-05-05T08:00:14Z) - QuerYD: A video dataset with high-quality text and audio narrations [85.6468286746623]
ビデオの検索とイベントのローカライゼーションのための大規模データセットQuerYDを紹介する。
データセットのユニークな特徴は、ビデオ毎に2つのオーディオトラック(オリジナルオーディオと高品質な音声記述)が利用可能であることです。
YouDescribeは、既存のYouTubeビデオに音声ナレーションを付加することで視覚障害者を支援するボランティアプロジェクトだ。
論文 参考訳(メタデータ) (2020-11-22T17:33:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。