論文の概要: Train a Unified Multimodal Data Quality Classifier with Synthetic Data
- arxiv url: http://arxiv.org/abs/2510.15162v1
- Date: Thu, 16 Oct 2025 21:53:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.401253
- Title: Train a Unified Multimodal Data Quality Classifier with Synthetic Data
- Title(参考訳): 合成データを用いた統一型マルチモーダルデータ品質分類器の訓練
- Authors: Weizhi Wang, Rongmei Lin, Shiyang Li, Colin Lockard, Ritesh Sarkhel, Sanket Lokegaonkar, Jingbo Shang, Xifeng Yan, Nasser Zalmout, Xian Li,
- Abstract要約: マルチモーダル大言語モデル(MLLM)は、画像テキストキャプションデータとインターリーブド文書データの混合に基づいて、継続的に事前訓練される。
我々は,高品質な画像文キャプションとインターリーブデータの両方をフィルタリングするために,一元的マルチモーダルデータ品質として効率的なMLLMを訓練することを提案する。
- 参考スコア(独自算出の注目度): 56.872668770081766
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Multimodal Large Language Models (MLLMs) are continually pre-trained on a mixture of image-text caption data and interleaved document data, while the high-quality data filtering towards image-text interleaved document data is under-explored. We propose to train an efficient MLLM as a Unified Mulitmodal Data Quality Classifier to Filter both high-quality image-text caption and interleaved data (UniFilter). To address the challenge of collecting diverse labeled multimodal data, we introduce a semi-synthetic approach that leverages readily available raw images and generates corresponding text across four quality levels. This method enables efficient creation of sample-score pairs for both caption and interleaved document data to train UniFilter. We apply UniFilter to curate high-quality caption data from DataComp caption dataset and interleaved data from the OBELICS image-text interleaved dataset. MLLMs pre-trained on the filtered data demonstrate significantly enhanced capabilities compared to those trained on baseline-filtered data, achieving stronger zero-shot reasoning and in-context learning capabilities. After visual supervised fine-tuning, these UniFilter-induced MLLMs achieve stronger performance on various benchmarks, highlighting the downstream benefits of high-quality multimodal pre-training. We release the synthetic training data used for training UniFilter, the UniFilter model checkpoints, and the high-quality interleaved document subset OBELICS-HQ, curated by UniFilter, to the community for reproduction and further development.
- Abstract(参考訳): 画像テキストキャプションデータとインターリーブド文書データの混合に基づいてMLLM(Multimodal Large Language Models)を継続的に事前訓練し、画像テキストインターリーブド文書データに対する高品質なデータフィルタリングを行う。
我々は,高品質な画像テキストキャプションとインターリーブデータ(UniFilter)の両方をフィルタリングするために,一元多元データ品質分類器として効率的なMLLMを訓練することを提案する。
多様なラベル付きマルチモーダルデータを集めることの課題に対処するため、利用可能な生画像を活用し、4つの品質レベルにわたる対応するテキストを生成する半合成手法を提案する。
本手法は,UniFilterのトレーニングのために,キャプションおよびインターリーブド文書データのサンプルスコアペアの効率的な作成を可能にする。
我々は、UniFilterを用いて、DataCompキャプションデータセットから高品質なキャプションデータをキュレートし、OBELICS画像テキストインターリーブデータセットからインターリーブされたデータをインターリーブする。
フィルタデータ上に事前トレーニングされたMLLMは,ベースラインフィルタデータよりも大幅に向上し,より強力なゼロショット推論とコンテキスト内学習能力を実現した。
視覚的教師付き微調整の後、これらのUniFilterによって誘導されるMLLMは、様々なベンチマークにおいてより強力なパフォーマンスを実現し、高品質なマルチモーダル事前学習の下流の利点を強調した。
われわれは,UniFilter の学習に使用する合成トレーニングデータ,UniFilter モデルチェックポイント,および UniFilter がキュレートした高品質な文書サブセット OBELICS-HQ をコミュニティに公開し,再生とさらなる開発を行う。
関連論文リスト
- HQ-CLIP: Leveraging Large Vision-Language Models to Create High-Quality Image-Text Datasets and CLIP Models [15.877790469608662]
画像とテキストのペアデータの品質を向上させるために,LVLM駆動型データ精錬パイプラインを導入する。
否定的な記述と短いタグを組み込むことで、従来のコントラスト学習を拡張する訓練パラダイムを提案する。
提案手法は, ゼロショット分類, クロスモーダル検索, きめ細かな視覚理解タスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2025-07-30T07:21:36Z) - Multimodal LLMs as Customized Reward Models for Text-to-Image Generation [60.164968941945645]
LLaVA-Rewardは、複数の視点でテキスト・ツー・イメージ(T2I)生成を自動評価する効率的な報酬モデルである。
LLaVA-Rewardはマルチモーダル大言語モデル(MLLM)の隠れ状態を直接利用する
LLaVA-Rewardは、テキストイメージアライメント、忠実さ/アーティファクト、安全性、全体的なランク付けの4つの観点でトレーニングします。
論文 参考訳(メタデータ) (2025-07-28T23:52:53Z) - Trust the Model: Compact VLMs as In-Context Judges for Image-Text Data Quality [5.750869893508341]
視覚言語モデル(VLM)は、視覚データを統合することで従来の大規模言語モデルを拡張し、よりリッチなマルチモーダル推論を可能にする。
高品質な画像キャプチャアノテートデータセットを微調整した,コンパクトなVLMを用いた合理化データフィルタリングフレームワークを提案する。
このモデルは、キャプションと画像品質とアライメントに基づいて、潜在的トレーニングサンプルを効果的に評価し、フィルタリングする。
論文 参考訳(メタデータ) (2025-07-27T07:20:25Z) - Beyond Filtering: Adaptive Image-Text Quality Enhancement for MLLM Pretraining [31.176432567292093]
本稿では,画像テキストペアの品質を動的に評価・向上するAdaptive Image-Text Quality Enhancer (AITQE)を提案する。
AITQEは低品質のペアに対してテキスト書き換え機構を採用し、評価能力を向上させるために負のサンプル学習戦略を取り入れている。
論文 参考訳(メタデータ) (2024-10-21T16:32:41Z) - ScalingFilter: Assessing Data Quality through Inverse Utilization of Scaling Laws [67.59263833387536]
ScalingFilterは、同じデータでトレーニングされた2つの言語モデル間の複雑さの違いに基づいて、テキスト品質を評価する新しいアプローチである。
品質フィルタリングによってもたらされるバイアスを評価するために,意味表現にテキスト埋め込みモデルを利用する指標である意味多様性を導入する。
論文 参考訳(メタデータ) (2024-08-15T17:59:30Z) - Finetuned Multimodal Language Models Are High-Quality Image-Text Data
Filters [38.41887207958015]
微調整多モーダル言語モデル(MLM)を利用した画像テキストデータのフィルタリングのための新しいフレームワークを提案する。
我々のフィルタは、異なるモデルやタスクに一般化することができ、CLIPScoreのドロップイン代替として使用することができる。
論文 参考訳(メタデータ) (2024-03-05T06:05:15Z) - Sieve: Multimodal Dataset Pruning Using Image Captioning Models [11.362835828985494]
Vision-Language Models (VLM) は、大規模で多様でノイズの多いWebcrawledデータセットで事前トレーニングされている。
提案手法は,CLIPがノイズラベルを事前学習しているため,偽陽性や陰性などの複数の制約を伴っていると論じる。
そこで我々は,小,多様,整列した画像テキストペア上で事前訓練された画像キャプションモデルによって生成された合成キャプションを用いたプルーニング信号Sieveを提案する。
論文 参考訳(メタデータ) (2023-10-03T14:53:53Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。