論文の概要: Tiger200K: Manually Curated High Visual Quality Video Dataset from UGC Platform
- arxiv url: http://arxiv.org/abs/2504.15182v1
- Date: Mon, 21 Apr 2025 15:44:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-29 16:05:36.92166
- Title: Tiger200K: Manually Curated High Visual Quality Video Dataset from UGC Platform
- Title(参考訳): Tiger200K: UGCプラットフォームから手動でキュレートされた高画質ビデオデータセット
- Authors: Xianpan Zhou,
- Abstract要約: Tiger200Kは、ユーザ生成コンテンツ(UGC)プラットフォームからソースされた、手動でキュレートされた高品質なビデオデータセットである。
視覚的忠実度と美的品質を優先することにより、Tiger200Kはデータキュレーションにおける人間の専門知識の重要性を強調している。
このデータセットは、進行中の拡張と、ビデオ生成モデルの研究と応用を前進させるオープンソースイニシアチブとしてリリースされる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The recent surge in open-source text-to-video generation models has significantly energized the research community, yet their dependence on proprietary training datasets remains a key constraint. While existing open datasets like Koala-36M employ algorithmic filtering of web-scraped videos from early platforms, they still lack the quality required for fine-tuning advanced video generation models. We present Tiger200K, a manually curated high visual quality video dataset sourced from User-Generated Content (UGC) platforms. By prioritizing visual fidelity and aesthetic quality, Tiger200K underscores the critical role of human expertise in data curation, and providing high-quality, temporally consistent video-text pairs for fine-tuning and optimizing video generation architectures through a simple but effective pipeline including shot boundary detection, OCR, border detecting, motion filter and fine bilingual caption. The dataset will undergo ongoing expansion and be released as an open-source initiative to advance research and applications in video generative models. Project page: https://tinytigerpan.github.io/tiger200k/
- Abstract(参考訳): 最近のオープンソースのテキスト・ビデオ生成モデルの増加は、研究コミュニティを著しく激化させているが、プロプライエタリなトレーニングデータセットへの依存は依然として重要な制約である。
Koala-36Mのような既存のオープンデータセットでは、初期のプラットフォームからのWebスクラッドビデオのアルゴリズムによるフィルタリングが採用されているが、高度なビデオ生成モデルの微調整に必要な品質は依然として不足している。
ユーザ生成コンテンツ(UGC)プラットフォームをベースとした,手動でキュレートされた高品質ビデオデータセットであるTiger200Kを紹介する。
視覚的忠実度と美的品質の優先順位付けにより、Tiger200Kは、データキュレーションにおける人間の専門知識の重要な役割を強調し、ショット境界検出、OCR、境界検出、モーションフィルタ、微細二言語キャプションを含む単純で効果的なパイプラインを通じて、ビデオ生成アーキテクチャの微調整と最適化のために高品質で時間的に一貫したビデオテキストペアを提供する。
このデータセットは、進行中の拡張と、ビデオ生成モデルの研究と応用を前進させるオープンソースイニシアチブとしてリリースされる。
プロジェクトページ: https://tinytigerpan.github.io/tiger200k/
関連論文リスト
- PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding [126.15907330726067]
我々は、画像とビデオの理解において透過的な研究を行うために、完全にオープンで再現可能なフレームワークでパーセプションモデル言語(PLM)を構築した。
モデルからの蒸留なしで標準的な訓練パイプラインを分析し、大規模合成データを調べ、重要なデータギャップを識別する。
論文 参考訳(メタデータ) (2025-04-17T17:59:56Z) - Raccoon: Multi-stage Diffusion Training with Coarse-to-Fine Curating Videos [15.781862060265519]
CFC-VIDS-1Mは、体系的な粗いキュレーションパイプラインによって構築された高品質のビデオデータセットである。
我々は、空間的時間的注意機構を分離したトランスフォーマーベースのアーキテクチャであるRACCOONを開発した。
論文 参考訳(メタデータ) (2025-02-28T18:56:35Z) - VideoAuteur: Towards Long Narrative Video Generation [22.915448471769384]
本稿では,調理領域における長めの物語生成を促進するために,大規模な調理ビデオデータセットを提案する。
生成ビデオにおける視覚的・意味的コヒーレンスを高めるために,Long Narrative Video Directorを導入する。
本手法は,視覚的細部および意味的整合性の生成における大幅な改善を示す。
論文 参考訳(メタデータ) (2025-01-10T18:52:11Z) - Movie Gen: A Cast of Media Foundation Models [133.41504332082667]
高品質の1080pHDビデオを生成する基礎モデルのキャストであるMovie Genについて紹介する。
ユーザの画像に基づいて,高精度な命令ベースのビデオ編集やパーソナライズされたビデオの生成などの追加機能を示す。
論文 参考訳(メタデータ) (2024-10-17T16:22:46Z) - Koala-36M: A Large-scale Video Dataset Improving Consistency between Fine-grained Conditions and Video Content [35.02160595617654]
時間分割、詳細なキャプション、ビデオ品質フィルタリングは、データセットの品質を決定する3つの重要な要素である。
我々は,正確な時間分割,詳細なキャプション,優れた映像品質を備えた大規模高品質ビデオデータセットであるKoala-36Mを紹介した。
論文 参考訳(メタデータ) (2024-10-10T17:57:49Z) - VidGen-1M: A Large-Scale Dataset for Text-to-video Generation [9.726156628112198]
テキスト・ビデオ・モデルのための優れたトレーニングデータセットであるVidGen-1Mを提案する。
このデータセットは、高品質なビデオと、時間的一貫性に優れた詳細なキャプションを保証する。
ビデオ生成モデルをトレーニングするために使用すると、このデータセットは、他のモデルで得られたものを上回る実験結果をもたらす。
論文 参考訳(メタデータ) (2024-08-05T16:53:23Z) - Rethinking Video-Text Understanding: Retrieval from Counterfactually Augmented Data [19.210471935816273]
本稿では,映像テキスト理解のための新しい評価タスク,すなわち,対実的拡張データ(RCAD)と新しいFeint6Kデータセットを提案する。
新しい評価タスクを成功させるためには、モデルはクロスフレーム推論からビデオの包括的理解を導き出さなければならない。
提案手法は,複数のビデオテキストモデルに適用した場合に,より識別的な動作埋め込みを学習し,Feint6Kの結果を改善する。
論文 参考訳(メタデータ) (2024-07-18T01:55:48Z) - Subjective-Aligned Dataset and Metric for Text-to-Video Quality Assessment [54.00254267259069]
現在までに最大規模のテキスト・ビデオ品質評価データベース(T2VQA-DB)を構築している。
データセットは、9つの異なるT2Vモデルによって生成される1万のビデオで構成されている。
主観的テキスト・ビデオ品質評価(T2VQA)のためのトランスフォーマーに基づく新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-03-18T16:52:49Z) - Detecting AI-Generated Video via Frame Consistency [25.290019967304616]
生成したビデオのオープンソースデータセットと検出手法を初めて提案する。
まず,964のプロンプトからなるスケーラブルなデータセットを提案する。
第二に、空間的人工物に基づく検出器が一般化性に欠けていることの探索実験により明らかになった。
論文 参考訳(メタデータ) (2024-02-03T08:52:06Z) - Distilling Vision-Language Models on Millions of Videos [62.92789440875999]
合成した指導データを用いて,映像言語ベースラインから映像言語モデルを微調整する。
ビデオインストラクションチューニング(VIIT)によって生成されたビデオモデルは、高品質なキャプションを生成するために何百万ものビデオの自動ラベル付けに使用される。
副産物として、これまでで最大のビデオキャプションデータセットを生成します。
論文 参考訳(メタデータ) (2024-01-11T18:59:53Z) - Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation [55.36617538438858]
本研究では,空間的知覚と時間的知覚の相互作用を強化する新しいアプローチを提案する。
我々はHD-VG-130Mという大規模かつオープンソースのビデオデータセットをキュレートする。
論文 参考訳(メタデータ) (2023-05-18T11:06:15Z) - Automatic Curation of Large-Scale Datasets for Audio-Visual
Representation Learning [62.47593143542552]
本稿では,自動データセットキュレーションのためのサブセット最適化手法について述べる。
本研究では,高視聴覚対応の映像を抽出し,自己監視モデルが自動的に構築されているにもかかわらず,既存のスケールのビデオデータセットと類似したダウンストリームパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2021-01-26T14:27:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。