論文の概要: Koala-36M: A Large-scale Video Dataset Improving Consistency between Fine-grained Conditions and Video Content
- arxiv url: http://arxiv.org/abs/2410.08260v1
- Date: Thu, 10 Oct 2024 17:57:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 04:16:13.256327
- Title: Koala-36M: A Large-scale Video Dataset Improving Consistency between Fine-grained Conditions and Video Content
- Title(参考訳): Koala-36M:微細な条件と映像コンテンツとの整合性を改善する大規模ビデオデータセット
- Authors: Qiuheng Wang, Yukai Shi, Jiarong Ou, Rui Chen, Ke Lin, Jiahao Wang, Boyuan Jiang, Haotian Yang, Mingwu Zheng, Xin Tao, Fei Yang, Pengfei Wan, Di Zhang,
- Abstract要約: 時間分割、詳細なキャプション、ビデオ品質フィルタリングは、データセットの品質を決定する3つの重要な要素である。
我々は,正確な時間分割,詳細なキャプション,優れた映像品質を備えた大規模高品質ビデオデータセットであるKoala-36Mを紹介した。
- 参考スコア(独自算出の注目度): 35.02160595617654
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As visual generation technologies continue to advance, the scale of video datasets has expanded rapidly, and the quality of these datasets is critical to the performance of video generation models. We argue that temporal splitting, detailed captions, and video quality filtering are three key factors that determine dataset quality. However, existing datasets exhibit various limitations in these areas. To address these challenges, we introduce Koala-36M, a large-scale, high-quality video dataset featuring accurate temporal splitting, detailed captions, and superior video quality. The core of our approach lies in improving the consistency between fine-grained conditions and video content. Specifically, we employ a linear classifier on probability distributions to enhance the accuracy of transition detection, ensuring better temporal consistency. We then provide structured captions for the splitted videos, with an average length of 200 words, to improve text-video alignment. Additionally, we develop a Video Training Suitability Score (VTSS) that integrates multiple sub-metrics, allowing us to filter high-quality videos from the original corpus. Finally, we incorporate several metrics into the training process of the generation model, further refining the fine-grained conditions. Our experiments demonstrate the effectiveness of our data processing pipeline and the quality of the proposed Koala-36M dataset. Our dataset and code will be released at https://koala36m.github.io/.
- Abstract(参考訳): 映像生成技術の進歩に伴い、ビデオデータセットの規模は急速に拡大し、これらのデータセットの品質はビデオ生成モデルの性能に欠かせないものとなっている。
我々は、時間分割、詳細なキャプション、ビデオ品質フィルタリングが、データセットの品質を決定する重要な3つの要因であると主張している。
しかし、既存のデータセットはこれらの領域に様々な制限を課している。
これらの課題に対処するために,正確な時間分割,詳細なキャプション,優れた映像品質を備えた大規模高品質ビデオデータセットであるKoala-36Mを紹介した。
このアプローチの核心は、きめ細かい条件とビデオコンテンツとの整合性を改善することです。
具体的には、確率分布に線形分類器を用い、遷移検出の精度を高め、時間的整合性を向上させる。
次に,テキスト・ビデオのアライメントを改善するために,分割されたビデオに対して平均200ワードの字幕を構造化する。
さらに,複数のサブメトリックを統合したVTSS(Video Training Suitability Score)を開発した。
最後に、生成モデルのトレーニングプロセスにいくつかのメトリクスを組み込み、きめ細かい条件をさらに改善する。
実験では,データ処理パイプラインの有効性と提案したKoala-36Mデータセットの品質を実証した。
データセットとコードはhttps://koala36m.github.io/でリリースされます。
関連論文リスト
- Whats in a Video: Factorized Autoregressive Decoding for Online Dense Video Captioning [71.94122309290537]
ビデオの高密度キャプションを生成するための,効率的なオンライン手法を提案する。
我々のモデルは、新しい自己回帰因子化復号化アーキテクチャを使用している。
提案手法は,オフライン手法とオンライン手法の両方と比較して優れた性能を示し,計算コストを20%削減する。
論文 参考訳(メタデータ) (2024-11-22T02:46:44Z) - Video Instruction Tuning With Synthetic Data [84.64519990333406]
ビデオ命令追従のための高品質な合成データセット、すなわちLLaVA-Video-178Kを作成する。
このデータセットには、詳細なキャプション、オープンエンド質問回答(QA)、複数選択QAといった重要なタスクが含まれている。
このデータセットをトレーニングすることにより、既存の視覚的インストラクションチューニングデータと組み合わせて、新しいビデオLMMであるLLaVA-Videoを導入する。
論文 参考訳(メタデータ) (2024-10-03T17:36:49Z) - Video DataFlywheel: Resolving the Impossible Data Trinity in Video-Language Understanding [61.89781979702939]
本研究では,事前学習データセットにおけるデータ量,多様性,品質の「不可能トリニティ」を定量的に明らかにする。
近年の取り組みは、合成アノテーションによって低品質で妥協された大規模で多様なASRデータセットを改良することを目指している。
我々は,ビデオアノテーションを改良されたノイズコントロール手法で反復的に洗練するVideo DataFlywheelフレームワークを紹介する。
論文 参考訳(メタデータ) (2024-09-29T03:33:35Z) - VidGen-1M: A Large-Scale Dataset for Text-to-video Generation [9.726156628112198]
テキスト・ビデオ・モデルのための優れたトレーニングデータセットであるVidGen-1Mを提案する。
このデータセットは、高品質なビデオと、時間的一貫性に優れた詳細なキャプションを保証する。
ビデオ生成モデルをトレーニングするために使用すると、このデータセットは、他のモデルで得られたものを上回る実験結果をもたらす。
論文 参考訳(メタデータ) (2024-08-05T16:53:23Z) - Panda-70M: Captioning 70M Videos with Multiple Cross-Modality Teachers [93.65253661843145]
高品質なキャプションを持つビデオデータセットを自動構築する手法を提案する。
具体的には、公開されているHD-VILA-100Mデータセットから3.8Mの高解像度ビデオをキュレートする。
次に、複数のモダリティの教師モデルを適用して、各ビデオのキャプションを取得する。
こうして、高品質なテキストキャプションと、7000万のビデオが組み合わされる。
論文 参考訳(メタデータ) (2024-02-29T18:59:50Z) - Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation [55.36617538438858]
本研究では,空間的知覚と時間的知覚の相互作用を強化する新しいアプローチを提案する。
我々はHD-VG-130Mという大規模かつオープンソースのビデオデータセットをキュレートする。
論文 参考訳(メタデータ) (2023-05-18T11:06:15Z) - Video Summarization Based on Video-text Modelling [0.0]
ビデオのセマンティック表現を得るために,マルチモーダルな自己教師型学習フレームワークを提案する。
また,より優れた要約を生成するために,動画内の重要なコンテンツを段階的にピンポイントするプログレッシブな映像要約手法も導入する。
映像分類に基づく映像要約の質を客観的に評価する枠組みを提案する。
論文 参考訳(メタデータ) (2022-01-07T15:21:46Z) - Coherent Loss: A Generic Framework for Stable Video Segmentation [103.78087255807482]
ビデオセグメンテーションの結果の視覚的品質を,ジッタリングアーティファクトがいかに劣化させるかを検討する。
本稿では,ニューラルネットワークの性能向上を目的とした汎用フレームワークを備えたコヒーレントロスを提案する。
論文 参考訳(メタデータ) (2020-10-25T10:48:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。