論文の概要: Youku-mPLUG: A 10 Million Large-scale Chinese Video-Language Dataset for
Pre-training and Benchmarks
- arxiv url: http://arxiv.org/abs/2306.04362v1
- Date: Wed, 7 Jun 2023 11:52:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-06-08 14:52:28.340097
- Title: Youku-mPLUG: A 10 Million Large-scale Chinese Video-Language Dataset for
Pre-training and Benchmarks
- Title(参考訳): youku-mplug: 事前学習とベンチマークのための1000万の大規模中国のビデオ言語データセット
- Authors: Haiyang Xu, Qinghao Ye, Xuan Wu, Ming Yan, Yuan Miao, Jiabo Ye, Guohai
Xu, Anwen Hu, Yaya Shi, Guangwei Xu, Chenliang Li, Qi Qian, Maofei Que, Ji
Zhang, Xiao Zeng, Fei Huang
- Abstract要約: 中国最大の高品質ビデオ言語データセットであるYouku-mPLUGをリリースする。
Youku-mPLUGには、大規模な事前トレーニングのための45のさまざまなカテゴリにわたる4億の生のビデオからフィルタリングされた1000万の中国製ビデオテキストペアが含まれている。
我々は、クロスモーダル検索、ビデオキャプション、ビデオカテゴリ分類の3つの一般的なビデオ言語タスクをカバーする、人手による最大のベンチマークを構築した。
- 参考スコア(独自算出の注目度): 63.09588102724274
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: To promote the development of Vision-Language Pre-training (VLP) and
multimodal Large Language Model (LLM) in the Chinese community, we firstly
release the largest public Chinese high-quality video-language dataset named
Youku-mPLUG, which is collected from Youku, a well-known Chinese video-sharing
website, with strict criteria of safety, diversity, and quality. Youku-mPLUG
contains 10 million Chinese video-text pairs filtered from 400 million raw
videos across a wide range of 45 diverse categories for large-scale
pre-training. In addition, to facilitate a comprehensive evaluation of
video-language models, we carefully build the largest human-annotated Chinese
benchmarks covering three popular video-language tasks of cross-modal
retrieval, video captioning, and video category classification. Youku-mPLUG can
enable researchers to conduct more in-depth multimodal research and develop
better applications in the future. Furthermore, we release popular
video-language pre-training models, ALPRO and mPLUG-2, and our proposed
modularized decoder-only model mPLUG-video pre-trained on Youku-mPLUG.
Experiments show that models pre-trained on Youku-mPLUG gain up to 23.1%
improvement in video category classification. Besides, mPLUG-video achieves a
new state-of-the-art result on these benchmarks with 80.5% top-1 accuracy in
video category classification and 68.9 CIDEr score in video captioning,
respectively. Finally, we scale up mPLUG-video based on the frozen Bloomz with
only 1.7% trainable parameters as Chinese multimodal LLM, and demonstrate
impressive instruction and video understanding ability. The zero-shot
instruction understanding experiment indicates that pretraining with
Youku-mPLUG can enhance the ability to comprehend overall and detailed visual
semantics, recognize scene text, and leverage open-domain knowledge.
- Abstract(参考訳): 中国コミュニティにおけるVLP(Vision-Language Pre-Training)とLLM(Multimodal Large Language Model)の開発を促進するために、我々は、安全、多様性、品質の厳格な基準で有名な中国のビデオ共有サイトYoukuから収集された、中国最大の高品質ビデオデータセットYouku-mPLUGをリリースする。
Youku-mPLUGには、大規模な事前トレーニングのための45のさまざまなカテゴリにわたる4億の生のビデオからフィルタリングされた1000万の中国製ビデオテキストペアが含まれている。
また,ビデオ言語モデルの包括的評価を容易にするため,クロスモーダル検索,ビデオキャプション,ビデオカテゴリ分類という3つの一般的なビデオ言語タスクをカバーする,最大の中国語ベンチマークを注意深く構築した。
Youku-mPLUGは、研究者がより深いマルチモーダル研究を行い、将来より良いアプリケーションを開発することを可能にする。
さらに,ビデオ言語事前学習モデルであるALPROとmPLUG-2と,Youku-mPLUGで事前学習したモジュール化デコーダのみのmPLUG- Videoをリリースする。
実験によると、Youku-mPLUGで事前訓練されたモデルは、ビデオカテゴリー分類において最大23.1%改善されている。
さらに、mPLUG-videoは、ビデオカテゴリ分類において80.5%の精度で、ビデオキャプションでは68.9のCIDErスコアで、これらのベンチマークで新しい最先端結果を達成する。
最後に,中国のマルチモーダルLDMとしてトレーニング可能なパラメータはわずか1.7%しかなく,凍結したブルームズに基づいてmPLUG映像をスケールアップする。
このゼロショット命令理解実験は、Youku-mPLUGで事前学習することで、全体的かつ詳細な視覚的意味論の理解、シーンテキストの認識、オープンドメイン知識の活用が促進されることを示す。
関連論文リスト
- YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - Learning Video Representations from Large Language Models [31.11998135196614]
我々はLarge Language Models(LLMs)を利用したビデオ言語表現学習の新しいアプローチであるLaViLaを紹介した。
我々は、事前学習したLLMを視覚入力で条件付けするために再利用し、それらを微調整して自動ビデオナレーターを作成する。
私たちの自動生成ナレーションには、長いビデオの密接なカバレッジ、視覚情報とテキストの時間同期の改善、テキストの多様性の向上など、多くの利点があります。
論文 参考訳(メタデータ) (2022-12-08T18:59:59Z) - Chinese CLIP: Contrastive Vision-Language Pretraining in Chinese [55.95225353842118]
我々は中国語で画像とテキストのペアの大規模なデータセットを構築し、ほとんどのデータは公開データセットから取得する。
77~958万のパラメータにまたがる,複数サイズの中国製CLIPモデルを5種類開発している。
実験の結果,中国のCLIPはMUGE,Flickr30K-CN,COCO-CNの最先端性能を達成できた。
論文 参考訳(メタデータ) (2022-11-02T17:47:23Z) - WeLM: A Well-Read Pre-trained Language Model for Chinese [37.68378062625651]
WeLM: 中国語のためのよく読まれる事前学習型言語モデルを提案する。
WeLMには様々なドメインや言語に関する幅広い知識が備わっていることを示す。
論文 参考訳(メタデータ) (2022-09-21T14:05:30Z) - CREATE: A Benchmark for Chinese Short Video Retrieval and Title
Generation [54.7561946475866]
そこで本研究では,中国初の大規模ShoRt vidEo retrievAlおよびTitle gEnベンチマークであるCREATEを提案する。
CREATEは、高品質なラベル付き210Kデータセットと、2つの大規模3M/10M事前トレーニングデータセットで構成されており、51のカテゴリ、50K以上のタグ、537Kマニュアルの注釈付きタイトルとキャプション、10M以上のショートビデオを含んでいる。
CREATEに基づいて、マルチモーダルアライメントWIの目的を達成するために、ビデオ検索とビデオタイトリングタスクを組み合わせた新しいモデルALWIGを提案する。
論文 参考訳(メタデータ) (2022-03-31T02:39:18Z) - Understanding Chinese Video and Language via Contrastive Multimodal
Pre-Training [79.88705563918413]
VICTORという新しいビデオ言語理解フレームワークを提案します。VICTORは対比mulTimOdal pRe-trainingによる視覚言語理解の略です。
VICTORは、対応する高品質のテキスト記述を備えた1000万以上の完全なビデオを含む大規模な中国のビデオ言語データセットで訓練されています。
論文 参考訳(メタデータ) (2021-04-19T15:58:45Z) - Multilingual Multimodal Pre-training for Zero-Shot Cross-Lingual
Transfer of Vision-Language Models [144.85290716246533]
視覚言語モデルのゼロショット言語間移動について検討する。
本稿では,文脈化多言語マルチモーダル埋め込みを学習するトランスフォーマティブモデルを提案する。
論文 参考訳(メタデータ) (2021-03-16T04:37:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。