論文の概要: Panda-70M: Captioning 70M Videos with Multiple Cross-Modality Teachers
- arxiv url: http://arxiv.org/abs/2402.19479v1
- Date: Thu, 29 Feb 2024 18:59:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 13:17:43.931983
- Title: Panda-70M: Captioning 70M Videos with Multiple Cross-Modality Teachers
- Title(参考訳): panda-70m: マルチモダリティ教師による70万ビデオのキャプション
- Authors: Tsai-Shien Chen, Aliaksandr Siarohin, Willi Menapace, Ekaterina
Deyneka, Hsiang-wei Chao, Byung Eun Jeon, Yuwei Fang, Hsin-Ying Lee, Jian
Ren, Ming-Hsuan Yang, Sergey Tulyakov
- Abstract要約: 高品質なキャプションを持つビデオデータセットを自動構築する手法を提案する。
具体的には、公開されているHD-VILA-100Mデータセットから3.8Mの高解像度ビデオをキュレートする。
次に、複数のモダリティの教師モデルを適用して、各ビデオのキャプションを取得する。
こうして、高品質なテキストキャプションと、7000万のビデオが組み合わされる。
- 参考スコア(独自算出の注目度): 93.65253661843145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The quality of the data and annotation upper-bounds the quality of a
downstream model. While there exist large text corpora and image-text pairs,
high-quality video-text data is much harder to collect. First of all, manual
labeling is more time-consuming, as it requires an annotator to watch an entire
video. Second, videos have a temporal dimension, consisting of several scenes
stacked together, and showing multiple actions. Accordingly, to establish a
video dataset with high-quality captions, we propose an automatic approach
leveraging multimodal inputs, such as textual video description, subtitles, and
individual video frames. Specifically, we curate 3.8M high-resolution videos
from the publicly available HD-VILA-100M dataset. We then split them into
semantically consistent video clips, and apply multiple cross-modality teacher
models to obtain captions for each video. Next, we finetune a retrieval model
on a small subset where the best caption of each video is manually selected and
then employ the model in the whole dataset to select the best caption as the
annotation. In this way, we get 70M videos paired with high-quality text
captions. We dub the dataset as Panda-70M. We show the value of the proposed
dataset on three downstream tasks: video captioning, video and text retrieval,
and text-driven video generation. The models trained on the proposed data score
substantially better on the majority of metrics across all the tasks.
- Abstract(参考訳): データの品質とアノテーションは、下流モデルの品質を上限にします。
大きなテキストコーパスと画像テキストペアが存在するが、高品質なビデオテキストデータは収集するのがずっと難しい。
まず第一に、手動ラベリングはビデオ全体を見るのにアノテーションを必要とするため、より時間がかかる。
第2に、ビデオは時間次元を持ち、複数のシーンが積み重ねられ、複数のアクションを示す。
そこで,高品質なキャプションを持つ映像データセットを構築するために,テキストによるビデオ記述や字幕,個々のビデオフレームといったマルチモーダル入力を利用した自動手法を提案する。
具体的には、公開されているHD-VILA-100Mデータセットから3.8Mの高解像度ビデオをキュレートする。
そして、それらを意味的に一貫したビデオクリップに分割し、複数のモダリティの教師モデルを適用して各ビデオのキャプションを得る。
次に、各動画の最高のキャプションを手動で選択した小さなサブセットで検索モデルを微調整し、データセット全体のモデルを採用して、最適なキャプションをアノテーションとして選択する。
こうして、高品質なテキストキャプションと、7000万のビデオが組み合わされる。
私たちはデータセットをpanda-70mとダビングします。
提案したデータセットの価値は,映像キャプション,ビデオとテキストの検索,テキストによる映像生成の3つのダウンストリームタスクで示す。
提案されたデータに基づいてトレーニングされたモデルは、すべてのタスクのメトリクスの大部分で大幅に改善された。
関連論文リスト
- Vript: A Video Is Worth Thousands of Words [54.815686588378156]
Vriptは12Kの高解像度ビデオの注釈付きコーパスで、420Kのクリップで詳細な、密度の高い、スクリプトのようなキャプションを提供する。
各クリップには145ワードのキャプションがあり、ほとんどのビデオテキストデータセットの10倍以上の長さである。
Vriptは、長いビデオのための高密度で詳細なキャプションをエンドツーエンドに生成できる強力なモデルである。
論文 参考訳(メタデータ) (2024-06-10T06:17:55Z) - Distilling Vision-Language Models on Millions of Videos [62.92789440875999]
合成した指導データを用いて,映像言語ベースラインから映像言語モデルを微調整する。
ビデオインストラクションチューニング(VIIT)によって生成されたビデオモデルは、高品質なキャプションを生成するために何百万ものビデオの自動ラベル付けに使用される。
副産物として、これまでで最大のビデオキャプションデータセットを生成します。
論文 参考訳(メタデータ) (2024-01-11T18:59:53Z) - HowToCaption: Prompting LLMs to Transform Video Annotations at Scale [72.69268311756082]
本稿では,大言語モデル(LLM)の能力を活用して,大規模ビデオに対応する高品質な映像記述を実現することを提案する。
本稿では,より長い字幕テキストを考慮に入れたプロンプト手法を提案する。
我々は、HowTo100Mデータセットの字幕にメソッドを適用し、新しい大規模データセット、HowToCaptionを作成します。
論文 参考訳(メタデータ) (2023-10-07T19:32:55Z) - InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding
and Generation [90.71796406228265]
InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。
InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
論文 参考訳(メタデータ) (2023-07-13T17:58:32Z) - Scalable and Accurate Self-supervised Multimodal Representation Learning
without Aligned Video and Text Data [18.479220305684837]
画像キャプションの最近の進歩により、並列なビデオテキストデータなしで高品質な映像モデルを事前訓練することが可能になった。
既存のHowTo100M ASRキャプションよりも,イメージキャプションの擬似ラベルが事前学習に有効であることを示す。
論文 参考訳(メタデータ) (2023-04-04T19:11:05Z) - Language Models with Image Descriptors are Strong Few-Shot
Video-Language Learners [167.0346394848718]
画像と言語モデルを用いたビデオ言語学習システムVidILを提案する。
画像言語モデルを用いて、映像コンテンツをフレームキャプション、オブジェクト、属性、イベントフレーズに変換する。
次に、いくつかのインコンテキスト例を含むプロンプトを持つ言語モデルに指示して、合成されたコンテンツからターゲット出力を生成する。
論文 参考訳(メタデータ) (2022-05-22T05:18:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。