論文の概要: 2.5 Years in Class: A Multimodal Textbook for Vision-Language Pretraining
- arxiv url: http://arxiv.org/abs/2501.00958v1
- Date: Wed, 01 Jan 2025 21:29:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:17:32.086323
- Title: 2.5 Years in Class: A Multimodal Textbook for Vision-Language Pretraining
- Title(参考訳): クラス2.5年:ビジョンランゲージ事前学習のためのマルチモーダル教科書
- Authors: Wenqi Zhang, Hang Zhang, Xin Li, Jiashuo Sun, Yongliang Shen, Weiming Lu, Deli Zhao, Yueting Zhuang, Lidong Bing,
- Abstract要約: 本稿では,VLM事前学習のための基礎知識を充実させた高品質な教科書コーパスについて紹介する。
2.5年以上の授業ビデオを集め、クラス時間は22,000時間である。
ビデオ中心の教科書は、それと比較すると、より一貫性のあるコンテキスト、より豊かな知識、より優れた画像テキストアライメントを提供する。
- 参考スコア(独自算出の注目度): 86.76706820098867
- License:
- Abstract: Compared to image-text pair data, interleaved corpora enable Vision-Language Models (VLMs) to understand the world more naturally like humans. However, such existing datasets are crawled from webpage, facing challenges like low knowledge density, loose image-text relations, and poor logical coherence between images. On the other hand, the internet hosts vast instructional videos (e.g., online geometry courses) that are widely used by humans to learn foundational subjects, yet these valuable resources remain underexplored in VLM training. In this paper, we introduce a high-quality \textbf{multimodal textbook} corpus with richer foundational knowledge for VLM pretraining. It collects over 2.5 years of instructional videos, totaling 22,000 class hours. We first use an LLM-proposed taxonomy to systematically gather instructional videos. Then we progressively extract and refine visual (keyframes), audio (ASR), and textual knowledge (OCR) from the videos, and organize as an image-text interleaved corpus based on temporal order. Compared to its counterparts, our video-centric textbook offers more coherent context, richer knowledge, and better image-text alignment. Experiments demonstrate its superb pretraining performance, particularly in knowledge- and reasoning-intensive tasks like ScienceQA and MathVista. Moreover, VLMs pre-trained on our textbook exhibit outstanding interleaved context awareness, leveraging visual and textual cues in their few-shot context for task solving~\footnote{Our code are available at \url{https://github.com/DAMO-NLP-SG/multimodal_textbook}}.
- Abstract(参考訳): 画像とテキストのペアデータと比較すると、インターリーブされたコーパスにより、視覚言語モデル(VLM)は人間のように自然に世界を理解することができる。
しかし、そのような既存のデータセットはWebページからクロールされ、知識密度の低い、画像とテキストの関係の緩い、画像間の論理的一貫性の低下といった課題に直面している。
一方、インターネットは、人間が基礎的な主題を学ぶために広く使われている広大な教育ビデオ(例えば、オンライン幾何学コース)をホストしているが、これらの貴重なリソースは、VLMトレーニングにおいて過小評価されている。
本稿では,VLM事前学習のための基礎知識を充実させた高品質な「textbf{multimodal textbook}」コーパスを提案する。
2.5年以上の授業ビデオを集め、クラス時間は22,000時間である。
まず,LLMによる分類法を用いて指導ビデオの系統的収集を行う。
そして、映像から視覚的(キーフレーム)、音声(ASR)、テキスト知識(OCR)を段階的に抽出し、時間順に基づいて画像テキストインターリーブコーパスとして整理する。
ビデオ中心の教科書は、それと比較すると、より一貫性のあるコンテキスト、より豊かな知識、より優れた画像テキストアライメントを提供する。
実験では、特にScienceQAやMathVistaのような知識と推論集約的なタスクにおいて、最高の事前学習性能を示している。
さらに,本教科書で事前学習したVLMには,タスク解決のための視覚的およびテキスト的手がかりを活用した,優れたインターリーブ付きコンテキスト認識が備わっている。
関連論文リスト
- HawkEye: Training Video-Text LLMs for Grounding Text in Videos [44.870165050047355]
我々は,HawkEyeを提案する。HawkEyeは,時間的ビデオグラウンドディングをテキストからテキストまで完全に行う最初のビデオテキストLLMの1つである。
時間的ビデオグラウンドイングに適用可能なトレーニングデータを収集するために,セグメントレベルのキャプションと負のスパンを持つ大規模ビデオテキストコーパスであるInternVid-Gを構築した。
また,ビデオ中のセグメントを粗い粒度で表現する手法を提案する。
論文 参考訳(メタデータ) (2024-03-15T11:58:18Z) - Eliciting In-Context Learning in Vision-Language Models for Videos Through Curated Data Distributional Properties [13.938281516499119]
textbfEmergent textbfIn-context textbfLearning on textbfVideos (eilev)を実装する。
我々の結果、分析、およびアイレフ学習モデルは、ビデオやテキスト上での文脈内学習の出現に関する多くの洞察を得られる。
論文 参考訳(メタデータ) (2023-11-28T18:53:06Z) - Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection
to Image-Text Pre-Training [70.83385449872495]
映像モーメント検索(VMR)における視覚とテキストの相関
既存の方法は、視覚的およびテキスト的理解のために、個別の事前学習機能抽出器に依存している。
本稿では,映像モーメントの理解を促進するために,ビジュアルダイナミックインジェクション(Visual-Dynamic Injection, VDI)と呼ばれる汎用手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T19:29:05Z) - Learning Transferable Spatiotemporal Representations from Natural Script
Knowledge [65.40899722211726]
本稿では,ASR(TVTS)のためのビデオトランスクリプト(Turning to Video Transcript for ASR)を提案する。
この利点により、我々のモデルは人間のように起きていることを文脈化し、現実世界の大規模未計算ビデオデータにシームレスに適用することができる。
論文 参考訳(メタデータ) (2022-09-30T07:39:48Z) - Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。
視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。
視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-05-20T13:41:12Z) - Video-Text Pre-training with Learned Regions [59.30893505895156]
Video-Textプレトレーニングは、大規模なビデオテキストペアから転送可能な表現を学ぶことを目的としている。
本研究では,大規模ビデオテキストペアの事前学習において,対象物の構造を考慮に入れたビデオテキスト学習用モジュール「RereaLearner」を提案する。
論文 参考訳(メタデータ) (2021-12-02T13:06:53Z) - Understanding Chinese Video and Language via Contrastive Multimodal
Pre-Training [79.88705563918413]
VICTORという新しいビデオ言語理解フレームワークを提案します。VICTORは対比mulTimOdal pRe-trainingによる視覚言語理解の略です。
VICTORは、対応する高品質のテキスト記述を備えた1000万以上の完全なビデオを含む大規模な中国のビデオ言語データセットで訓練されています。
論文 参考訳(メタデータ) (2021-04-19T15:58:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。