論文の概要: Finetuned Multimodal Language Models Are High-Quality Image-Text Data
Filters
- arxiv url: http://arxiv.org/abs/2403.02677v1
- Date: Tue, 5 Mar 2024 06:05:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 15:57:11.740792
- Title: Finetuned Multimodal Language Models Are High-Quality Image-Text Data
Filters
- Title(参考訳): 高品質な画像テキストデータフィルタを用いたマルチモーダル言語モデル
- Authors: Weizhi Wang, Khalil Mrini, Linjie Yang, Sateesh Kumar, Yu Tian, Xifeng
Yan, Heng Wang
- Abstract要約: 微調整多モーダル言語モデル(MLM)を利用した画像テキストデータのフィルタリングのための新しいフレームワークを提案する。
我々のフィルタは、異なるモデルやタスクに一般化することができ、CLIPScoreのドロップイン代替として使用することができる。
- 参考スコア(独自算出の注目度): 38.41887207958015
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We propose a novel framework for filtering image-text data by leveraging
fine-tuned Multimodal Language Models (MLMs). Our approach outperforms
predominant filtering methods (e.g., CLIPScore) via integrating the recent
advances in MLMs. We design four distinct yet complementary metrics to
holistically measure the quality of image-text data. A new pipeline is
established to construct high-quality instruction data for fine-tuning MLMs as
data filters. Comparing with CLIPScore, our MLM filters produce more precise
and comprehensive scores that directly improve the quality of filtered data and
boost the performance of pre-trained models. We achieve significant
improvements over CLIPScore on popular foundation models (i.e., CLIP and BLIP2)
and various downstream tasks. Our MLM filter can generalize to different models
and tasks, and be used as a drop-in replacement for CLIPScore. An additional
ablation study is provided to verify our design choices for the MLM filter.
- Abstract(参考訳): 本稿では,MLM(Multimodal Language Models)を利用して画像テキストデータをフィルタリングする新しいフレームワークを提案する。
提案手法は,MLMの最近の進歩を取り入れたフィルタリング手法(CLIPScoreなど)よりも優れている。
画像テキストデータの質を総合的に測定するために、4つの異なる相補的メトリクスを設計する。
MLMをデータフィルタとして微調整するための高品質な命令データを構築するために,新しいパイプラインを構築した。
CLIPScoreと比較して、MLMフィルタはより正確で包括的なスコアを生成し、フィルタデータの品質を直接改善し、事前訓練されたモデルの性能を向上させる。
人気ファウンデーションモデル(CLIPとBLIP2)および様々なダウンストリームタスクにおいて、CLIPScoreよりも大幅に改善された。
MLMフィルタは様々なモデルやタスクに一般化することができ、CLIPScoreのドロップイン代替として使用できる。
MLMフィルタの設計選択を検証するための追加のアブレーション研究を行った。
関連論文リスト
- Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - MDCure: A Scalable Pipeline for Multi-Document Instruction-Following [40.201087646516335]
LLMのMD能力を高めるために,スケーラブルで効果的な微調整パイプラインであるMDCureを導入する。
MDCureは、ターゲティングプロンプトを介して関連記事の集合から高品質な合成MD命令データを生成する。
また、MD設定のためのトレーニングユーティリティに基づいて生成されたデータをフィルタリングする多目的報酬モデルであるMDCureRMを導入する。
論文 参考訳(メタデータ) (2024-10-30T21:08:07Z) - World to Code: Multi-modal Data Generation via Self-Instructed Compositional Captioning and Filtering [16.03491048830499]
We present World to Code (W2C), a meticulously curated multi-modal data construction pipeline。
パイプラインは、最終的な生成出力をPythonコード形式に整理する。
実験では、様々な視覚的質問応答と視覚的接地ベンチマークを改善して、W2Cの質を実証している。
論文 参考訳(メタデータ) (2024-09-30T15:49:54Z) - Align$^2$LLaVA: Cascaded Human and Large Language Model Preference Alignment for Multi-modal Instruction Curation [56.75665429851673]
本稿では,人間とLLMの選好アライメントという2つのユニークな視点から導いた,新しい命令キュレーションアルゴリズムを提案する。
実験により,合成マルチモーダル命令を最大90%圧縮することにより,モデル性能の維持や改善が可能であることが示された。
論文 参考訳(メタデータ) (2024-09-27T08:20:59Z) - UniMEL: A Unified Framework for Multimodal Entity Linking with Large Language Models [0.42832989850721054]
MEL(Multimodal Entities Linking)は、ウィキペディアのようなマルチモーダル知識ベースの参照エンティティに、多モーダルコンテキスト内で曖昧な言及をリンクすることを目的とした重要なタスクである。
既存の方法はMELタスクを過度に複雑にし、視覚的意味情報を見渡す。
大規模言語モデルを用いたマルチモーダル・エンティティ・リンクタスクを処理するための新しいパラダイムを確立する統一フレームワークUniMELを提案する。
論文 参考訳(メタデータ) (2024-07-23T03:58:08Z) - Understanding Alignment in Multimodal LLMs: A Comprehensive Study [46.33812471516309]
マルチモーダル大言語モデル(MLLM)における嗜好アライメントのそれぞれの側面を解析する。
オフライン手法とオンライン手法を組み合わせることで,特定のシナリオにおけるモデルの性能が向上することを示す。
BDHS(Bias-Driven Hallucination Smpling)と呼ばれる,マルチモーダルな嗜好データ作成手法を提案する。
論文 参考訳(メタデータ) (2024-07-02T17:55:03Z) - Your Vision-Language Model Itself Is a Strong Filter: Towards
High-Quality Instruction Tuning with Data Selection [59.11430077029321]
視覚言語モデル(VLM)のための新しいデータセット選択手法であるSelf-Filterを導入する。
第1段階では、VLMと共同で学習する訓練指導の難しさを評価するためのスコアリングネットワークを考案する。
第2段階では、トレーニングされたスコアネットを使用して、各命令の難易度を測定し、最も難しいサンプルを選択し、類似したサンプルをペナルティ化し、多様性を促進する。
論文 参考訳(メタデータ) (2024-02-19T20:08:48Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - Filter Pruning for Efficient CNNs via Knowledge-driven Differential
Filter Sampler [103.97487121678276]
フィルタプルーニングは同時に計算を加速し、CNNのメモリオーバーヘッドを低減する。
本稿では,MFM(Masked Filter Modeling)フレームワークを用いた知識駆動型微分フィルタサンプリング(KDFS)を提案する。
論文 参考訳(メタデータ) (2023-07-01T02:28:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。