Fugu-MT 論文翻訳(概要): VidGen-1M: A Large-Scale Dataset for Text-to-video Generation

論文の概要: VidGen-1M: A Large-Scale Dataset for Text-to-video Generation

arxiv url: http://arxiv.org/abs/2408.02629v1
Date: Mon, 5 Aug 2024 16:53:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-06 12:56:48.538368
Title: VidGen-1M: A Large-Scale Dataset for Text-to-video Generation
Title（参考訳）: VidGen-1M:テキスト・ビデオ・ジェネレーションのための大規模データセット
Authors: Zhiyu Tan, Xiaomeng Yang, Luozheng Qin, Hao Li,
Abstract要約: テキスト・ビデオ・モデルのための優れたトレーニングデータセットであるVidGen-1Mを提案する。このデータセットは、高品質なビデオと、時間的一貫性に優れた詳細なキャプションを保証する。ビデオ生成モデルをトレーニングするために使用すると、このデータセットは、他のモデルで得られたものを上回る実験結果をもたらす。
参考スコア（独自算出の注目度）: 9.726156628112198
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The quality of video-text pairs fundamentally determines the upper bound of text-to-video models. Currently, the datasets used for training these models suffer from significant shortcomings, including low temporal consistency, poor-quality captions, substandard video quality, and imbalanced data distribution. The prevailing video curation process, which depends on image models for tagging and manual rule-based curation, leads to a high computational load and leaves behind unclean data. As a result, there is a lack of appropriate training datasets for text-to-video models. To address this problem, we present VidGen-1M, a superior training dataset for text-to-video models. Produced through a coarse-to-fine curation strategy, this dataset guarantees high-quality videos and detailed captions with excellent temporal consistency. When used to train the video generation model, this dataset has led to experimental results that surpass those obtained with other models.
Abstract（参考訳）: ビデオテキストペアの品質は、基本的にテキスト対ビデオモデルの上限を決定する。現在、これらのモデルのトレーニングに使用されるデータセットは、低時間一貫性、品質の低いキャプション、サブ標準ビデオ品質、不均衡なデータ分散など、重大な欠点に悩まされている。タグ付けや手動によるルールベースのキュレーションのイメージモデルに依存する一般的なビデオキュレーションプロセスは、高い計算負荷をもたらし、不適切なデータを残します。結果として、テキストからビデオモデルへの適切なトレーニングデータセットが欠如している。この問題に対処するため,テキスト・ビデオ・モデルのための優れたトレーニングデータセットであるVidGen-1Mを提案する。このデータセットは粗大なキュレーション戦略によって生成され、高品質なビデオと詳細なキャプションを保証し、時間的一貫性に優れる。ビデオ生成モデルをトレーニングするために使用すると、このデータセットは、他のモデルで得られたものを上回る実験結果をもたらす。

関連論文リスト

Raccoon: Multi-stage Diffusion Training with Coarse-to-Fine Curating Videos [15.781862060265519]
CFC-VIDS-1Mは、体系的な粗いキュレーションパイプラインによって構築された高品質のビデオデータセットである。我々は、空間的時間的注意機構を分離したトランスフォーマーベースのアーキテクチャであるRACCOONを開発した。
論文参考訳（メタデータ） (2025-02-28T18:56:35Z)
Koala-36M: A Large-scale Video Dataset Improving Consistency between Fine-grained Conditions and Video Content [35.02160595617654]
時間分割、詳細なキャプション、ビデオ品質フィルタリングは、データセットの品質を決定する3つの重要な要素である。我々は,正確な時間分割,詳細なキャプション,優れた映像品質を備えた大規模高品質ビデオデータセットであるKoala-36Mを紹介した。
論文参考訳（メタデータ） (2024-10-10T17:57:49Z)
FaceVid-1K: A Large-Scale High-Quality Multiracial Human Face Video Dataset [15.917564646478628]
我々はtextbfFaceVid-1K という高品質な多人種顔コレクションを作成している。我々は,テキスト・トゥ・ビデオ,画像・トゥ・ビデオ,無条件映像生成など,確立されたビデオ生成モデルを用いて実験を行った。対応するパフォーマンスベンチマークを取得し、公開データセットでトレーニングされたベンチマークと比較し、データセットの優位性を実証する。
論文参考訳（メタデータ） (2024-09-23T07:27:02Z)
Distilling Vision-Language Models on Millions of Videos [62.92789440875999]
合成した指導データを用いて,映像言語ベースラインから映像言語モデルを微調整する。ビデオインストラクションチューニング(VIIT)によって生成されたビデオモデルは、高品質なキャプションを生成するために何百万ものビデオの自動ラベル付けに使用される。副産物として、これまでで最大のビデオキャプションデータセットを生成します。
論文参考訳（メタデータ） (2024-01-11T18:59:53Z)
Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets [36.95521842177614]
本稿では,高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細映像・高精細映像・高精細・高精細・高精細・高精細・高精細・高精細我々は,テキスト・ツー・イメージ・プレトレーニング,ビデオ・プレトレーニング,高品質ビデオファインタニングの3つの異なる段階を同定し,評価する。
論文参考訳（メタデータ） (2023-11-25T22:28:38Z)
In-Style: Bridging Text and Uncurated Videos with Style Transfer for Text-Video Retrieval [72.98185525653504]
トレーニング中は、テキストクエリと未処理のWebビデオのみを併用する、未修正データによる新しい設定、テキストビデオ検索を提案する。一般化を改善するために、複数のテキストスタイルで1つのモデルを訓練できることを示す。提案手法の利点を実証するため,複数のデータセットを対象とした検索性能のモデルの評価を行った。
論文参考訳（メタデータ） (2023-09-16T08:48:21Z)
Learning a Grammar Inducer from Massive Uncurated Instructional Videos [118.7279072358029]
映像支援文法帰納法は,映像情報を利用してより正確な構文文法を検索することを目的としている。我々は手動で設計した機能なしでビデオスパン相関をよりよく学習できる新しいモデルを構築した。我々のモデルは、ドメイン内のデータに基づいてトレーニングされた従来の最先端システムよりも高いF1スコアが得られる。
論文参考訳（メタデータ） (2022-10-22T00:22:55Z)
LiteVL: Efficient Video-Language Learning with Enhanced Spatial-Temporal Modeling [48.283659682112926]
本稿では,事前学習した画像言語モデルBLIPを,下流タスク上で直接ビデオテキストモデルに適応させるLiteVLを提案する。また、テキスト上に埋め込まれた微細なビデオ埋め込み条件を適応的に重み付けする非パラメトリックプーリング機構を提案する。
論文参考訳（メタデータ） (2022-10-21T13:03:49Z)
Video Demoireing with Relation-Based Temporal Consistency [68.20281109859998]
カラー歪みのように見えるモアレパターンは、デジタルカメラでスクリーンを撮影する際に、画像と映像の画質を著しく劣化させる。我々は、このような望ましくないモアレパターンをビデオで除去する方法を研究している。
論文参考訳（メタデータ） (2022-04-06T17:45:38Z)
Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval [80.7397409377659]
大規模画像と映像キャプションの両方のデータセットを利用した,エンドツーエンドのトレーニング可能なモデルを提案する。私たちのモデルは柔軟で、画像とビデオの両方のテキストデータセットで、独立に、または同時にトレーニングできます。この手法は,標準ダウンストリームビデオリトライバルベンチマークにおいて最先端の結果が得られることを示す。
論文参考訳（メタデータ） (2021-04-01T17:48:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。