論文の概要: Finetuned Multimodal Language Models Are High-Quality Image-Text Data
Filters
- arxiv url: http://arxiv.org/abs/2403.02677v1
- Date: Tue, 5 Mar 2024 06:05:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 15:57:11.740792
- Title: Finetuned Multimodal Language Models Are High-Quality Image-Text Data
Filters
- Title(参考訳): 高品質な画像テキストデータフィルタを用いたマルチモーダル言語モデル
- Authors: Weizhi Wang, Khalil Mrini, Linjie Yang, Sateesh Kumar, Yu Tian, Xifeng
Yan, Heng Wang
- Abstract要約: 微調整多モーダル言語モデル(MLM)を利用した画像テキストデータのフィルタリングのための新しいフレームワークを提案する。
我々のフィルタは、異なるモデルやタスクに一般化することができ、CLIPScoreのドロップイン代替として使用することができる。
- 参考スコア(独自算出の注目度): 38.41887207958015
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We propose a novel framework for filtering image-text data by leveraging
fine-tuned Multimodal Language Models (MLMs). Our approach outperforms
predominant filtering methods (e.g., CLIPScore) via integrating the recent
advances in MLMs. We design four distinct yet complementary metrics to
holistically measure the quality of image-text data. A new pipeline is
established to construct high-quality instruction data for fine-tuning MLMs as
data filters. Comparing with CLIPScore, our MLM filters produce more precise
and comprehensive scores that directly improve the quality of filtered data and
boost the performance of pre-trained models. We achieve significant
improvements over CLIPScore on popular foundation models (i.e., CLIP and BLIP2)
and various downstream tasks. Our MLM filter can generalize to different models
and tasks, and be used as a drop-in replacement for CLIPScore. An additional
ablation study is provided to verify our design choices for the MLM filter.
- Abstract(参考訳): 本稿では,MLM(Multimodal Language Models)を利用して画像テキストデータをフィルタリングする新しいフレームワークを提案する。
提案手法は,MLMの最近の進歩を取り入れたフィルタリング手法(CLIPScoreなど)よりも優れている。
画像テキストデータの質を総合的に測定するために、4つの異なる相補的メトリクスを設計する。
MLMをデータフィルタとして微調整するための高品質な命令データを構築するために,新しいパイプラインを構築した。
CLIPScoreと比較して、MLMフィルタはより正確で包括的なスコアを生成し、フィルタデータの品質を直接改善し、事前訓練されたモデルの性能を向上させる。
人気ファウンデーションモデル(CLIPとBLIP2)および様々なダウンストリームタスクにおいて、CLIPScoreよりも大幅に改善された。
MLMフィルタは様々なモデルやタスクに一般化することができ、CLIPScoreのドロップイン代替として使用できる。
MLMフィルタの設計選択を検証するための追加のアブレーション研究を行った。
関連論文リスト
- Your Vision-Language Model Itself Is a Strong Filter: Towards
High-Quality Instruction Tuning with Data Selection [59.11430077029321]
視覚言語モデル(VLM)のための新しいデータセット選択手法であるSelf-Filterを導入する。
第1段階では、VLMと共同で学習する訓練指導の難しさを評価するためのスコアリングネットワークを考案する。
第2段階では、トレーニングされたスコアネットを使用して、各命令の難易度を測定し、最も難しいサンプルを選択し、類似したサンプルをペナルティ化し、多様性を促進する。
論文 参考訳(メタデータ) (2024-02-19T20:08:48Z) - The Devil is in the Details: A Deep Dive into the Rabbit Hole of Data
Filtering [23.68112988933411]
本稿では,DataComp チャレンジに参加する際の学習と解決について述べる。
我々のフィルタリング戦略は, 単一モダリティフィルタリング, クロスモダリティフィルタリング, データ分散アライメントの3段階を含む。
提案手法は,3つのタスクの平均的なパフォーマンスに対して4%以上,ImageNetでは2%以上,DataComp論文のベストメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-09-27T19:10:43Z) - Devil in the Number: Towards Robust Multi-modality Data Filter [12.33356004550808]
T-MARSは、画像中のテキストを検出してマスキングし、CLIPスコアでフィルタリングすることで、高品質なデータフィルタリングを実現する。
テキストの内容に含まれる数字などの冗長な情報のかなりの割合を観察する。
提案するテキストマスキングフィルタは,データの上位40%を選択する際に,元のCLIPスコアフィルタよりも優れている。
論文 参考訳(メタデータ) (2023-09-24T22:52:35Z) - Position-Enhanced Visual Instruction Tuning for Multimodal Large
Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。
この統合により、MLLMの画像のより詳細な理解が促進される。
本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文 参考訳(メタデータ) (2023-08-25T15:33:47Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - Filter Pruning for Efficient CNNs via Knowledge-driven Differential
Filter Sampler [103.97487121678276]
フィルタプルーニングは同時に計算を加速し、CNNのメモリオーバーヘッドを低減する。
本稿では,MFM(Masked Filter Modeling)フレームワークを用いた知識駆動型微分フィルタサンプリング(KDFS)を提案する。
論文 参考訳(メタデータ) (2023-07-01T02:28:41Z) - An Empirical Exploration in Quality Filtering of Text Data [0.0]
GPT型言語モデルにおいて、アグレッシブフィルタリングは、幅広い下流タスクにおけるモデル品質の低下につながることが判明した。
これは、プロキシメトリックに対して十分に強く最適化することが、真の目的に対するパフォーマンスを損なうためである、と推測する。
論文 参考訳(メタデータ) (2021-09-02T04:02:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。