Fugu-MT 論文翻訳(概要): Finetuned Multimodal Language Models Are High-Quality Image-Text Data Filters

論文の概要: Finetuned Multimodal Language Models Are High-Quality Image-Text Data Filters

arxiv url: http://arxiv.org/abs/2403.02677v1
Date: Tue, 5 Mar 2024 06:05:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-06 15:57:11.740792
Title: Finetuned Multimodal Language Models Are High-Quality Image-Text Data Filters
Title（参考訳）: 高品質な画像テキストデータフィルタを用いたマルチモーダル言語モデル
Authors: Weizhi Wang, Khalil Mrini, Linjie Yang, Sateesh Kumar, Yu Tian, Xifeng Yan, Heng Wang
Abstract要約: 微調整多モーダル言語モデル(MLM)を利用した画像テキストデータのフィルタリングのための新しいフレームワークを提案する。我々のフィルタは、異なるモデルやタスクに一般化することができ、CLIPScoreのドロップイン代替として使用することができる。
参考スコア（独自算出の注目度）: 38.41887207958015
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We propose a novel framework for filtering image-text data by leveraging fine-tuned Multimodal Language Models (MLMs). Our approach outperforms predominant filtering methods (e.g., CLIPScore) via integrating the recent advances in MLMs. We design four distinct yet complementary metrics to holistically measure the quality of image-text data. A new pipeline is established to construct high-quality instruction data for fine-tuning MLMs as data filters. Comparing with CLIPScore, our MLM filters produce more precise and comprehensive scores that directly improve the quality of filtered data and boost the performance of pre-trained models. We achieve significant improvements over CLIPScore on popular foundation models (i.e., CLIP and BLIP2) and various downstream tasks. Our MLM filter can generalize to different models and tasks, and be used as a drop-in replacement for CLIPScore. An additional ablation study is provided to verify our design choices for the MLM filter.
Abstract（参考訳）: 本稿では,MLM(Multimodal Language Models)を利用して画像テキストデータをフィルタリングする新しいフレームワークを提案する。提案手法は,MLMの最近の進歩を取り入れたフィルタリング手法(CLIPScoreなど)よりも優れている。画像テキストデータの質を総合的に測定するために、4つの異なる相補的メトリクスを設計する。 MLMをデータフィルタとして微調整するための高品質な命令データを構築するために,新しいパイプラインを構築した。 CLIPScoreと比較して、MLMフィルタはより正確で包括的なスコアを生成し、フィルタデータの品質を直接改善し、事前訓練されたモデルの性能を向上させる。人気ファウンデーションモデル(CLIPとBLIP2)および様々なダウンストリームタスクにおいて、CLIPScoreよりも大幅に改善された。 MLMフィルタは様々なモデルやタスクに一般化することができ、CLIPScoreのドロップイン代替として使用できる。 MLMフィルタの設計選択を検証するための追加のアブレーション研究を行った。

関連論文リスト

Trust the Model: Compact VLMs as In-Context Judges for Image-Text Data Quality [5.750869893508341]
視覚言語モデル(VLM)は、視覚データを統合することで従来の大規模言語モデルを拡張し、よりリッチなマルチモーダル推論を可能にする。高品質な画像キャプチャアノテートデータセットを微調整した,コンパクトなVLMを用いた合理化データフィルタリングフレームワークを提案する。このモデルは、キャプションと画像品質とアライメントに基づいて、潜在的トレーニングサンプルを効果的に評価し、フィルタリングする。
論文参考訳（メタデータ） (2025-07-27T07:20:25Z)
MLLM-Selector: Necessity and Diversity-driven High-Value Data Selection for Enhanced Visual Instruction Tuning [69.7347209018861]
視覚的インストラクションのチューニングに有用なデータを自動的に識別するMLLM-Selectorを提案する。モデル性能を向上させるために,VITデータプールの各サンプルの必要なスコアを算出し,サンプルのピボットを同定する。以上の結果から,データ選択における必要条件と多様性の混合の重要性が指摘され,MLLMセレクタの創出につながった。
論文参考訳（メタデータ） (2025-03-26T12:42:37Z)
Enhancing Multilingual LLM Pretraining with Model-Based Data Selection [33.68104398807581]
本稿では,多言語データセットを対象としたモデルベースフィルタリングフレームワークを提案する。当社のアプローチは透明性、単純さ、効率性を重視しています。フレームワークを20言語に拡張し、洗練された事前トレーニングデータセットをリリースします。
論文参考訳（メタデータ） (2025-02-14T18:42:07Z)
CHiP: Cross-modal Hierarchical Direct Preference Optimization for Multimodal LLMs [107.21334626890713]
MLLM(Multimodal Large Language Models)は、その優れた能力にもかかわらず、幻覚に苦しむ。本稿では,これらの制約に対処するクロスモーダル階層型直接選好最適化(CHiP)を提案する。定量的および定性的な分析によってCHiPを評価し,幻覚の低減効果を複数のベンチマークで実証した。
論文参考訳（メタデータ） (2025-01-28T02:05:38Z)
FinerWeb-10BT: Refining Web Data with LLM-Based Line-Level Filtering [2.0140381995251713]
本稿では,LLMに基づくラインレベルのフィルタリング手法を導入し,トレーニングデータの品質を向上させる。我々は、GPT-4o miniを使用して、FineWebから2万のドキュメントサンプルをラインレベルでラベル付けし、低品質の行に対して記述的なラベルを作成できるようにします。フィルタリングの影響をテストするため、元のデータセットとフィルタリングデータセットの両方でGPT-2モデルをトレーニングする。
論文参考訳（メタデータ） (2025-01-13T13:26:50Z)
Molar: Multimodal LLMs with Collaborative Filtering Alignment for Enhanced Sequential Recommendation [4.518104756199573]
Molarは、複数のコンテンツモダリティとID情報を統合するシーケンシャルなレコメンデーションフレームワークで、協調的な信号を効果的にキャプチャする。マルチモーダルコンテンツと協調フィルタリングの洞察をシームレスに組み合わせることで、Molarはユーザの関心事とコンテキスト意味論の両方をキャプチャし、より優れた推奨精度をもたらす。
論文参考訳（メタデータ） (2024-12-24T05:23:13Z)
Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文参考訳（メタデータ） (2024-11-21T02:30:53Z)
MDCure: A Scalable Pipeline for Multi-Document Instruction-Following [40.201087646516335]
LLMのMD能力を高めるために,スケーラブルで効果的な微調整パイプラインであるMDCureを導入する。 MDCureは、ターゲティングプロンプトを介して関連記事の集合から高品質な合成MD命令データを生成する。また、MD設定のためのトレーニングユーティリティに基づいて生成されたデータをフィルタリングする多目的報酬モデルであるMDCureRMを導入する。
論文参考訳（メタデータ） (2024-10-30T21:08:07Z)
World to Code: Multi-modal Data Generation via Self-Instructed Compositional Captioning and Filtering [16.03491048830499]
We present World to Code (W2C), a meticulously curated multi-modal data construction pipeline。パイプラインは、最終的な生成出力をPythonコード形式に整理する。実験では、様々な視覚的質問応答と視覚的接地ベンチマークを改善して、W2Cの質を実証している。
論文参考訳（メタデータ） (2024-09-30T15:49:54Z)
Align$^2$LLaVA: Cascaded Human and Large Language Model Preference Alignment for Multi-modal Instruction Curation [56.75665429851673]
本稿では,人間とLLMの選好アライメントという2つのユニークな視点から導いた,新しい命令キュレーションアルゴリズムを提案する。実験により,合成マルチモーダル命令を最大90%圧縮することにより,モデル性能の維持や改善が可能であることが示された。
論文参考訳（メタデータ） (2024-09-27T08:20:59Z)
UniMEL: A Unified Framework for Multimodal Entity Linking with Large Language Models [0.42832989850721054]
MEL(Multimodal Entities Linking)は、ウィキペディアのようなマルチモーダル知識ベースの参照エンティティに、多モーダルコンテキスト内で曖昧な言及をリンクすることを目的とした重要なタスクである。既存の方法はMELタスクを過度に複雑にし、視覚的意味情報を見渡す。大規模言語モデルを用いたマルチモーダル・エンティティ・リンクタスクを処理するための新しいパラダイムを確立する統一フレームワークUniMELを提案する。
論文参考訳（メタデータ） (2024-07-23T03:58:08Z)
Understanding Alignment in Multimodal LLMs: A Comprehensive Study [46.33812471516309]
マルチモーダル大言語モデル(MLLM)における嗜好アライメントのそれぞれの側面を解析する。オフライン手法とオンライン手法を組み合わせることで,特定のシナリオにおけるモデルの性能が向上することを示す。 BDHS(Bias-Driven Hallucination Smpling)と呼ばれる,マルチモーダルな嗜好データ作成手法を提案する。
論文参考訳（メタデータ） (2024-07-02T17:55:03Z)
Your Vision-Language Model Itself Is a Strong Filter: Towards High-Quality Instruction Tuning with Data Selection [59.11430077029321]
視覚言語モデル(VLM)のための新しいデータセット選択手法であるSelf-Filterを導入する。第1段階では、VLMと共同で学習する訓練指導の難しさを評価するためのスコアリングネットワークを考案する。第2段階では、トレーニングされたスコアネットを使用して、各命令の難易度を測定し、最も難しいサンプルを選択し、類似したサンプルをペナルティ化し、多様性を促進する。
論文参考訳（メタデータ） (2024-02-19T20:08:48Z)
MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文参考訳（メタデータ） (2023-08-25T01:41:04Z)
Filter Pruning for Efficient CNNs via Knowledge-driven Differential Filter Sampler [103.97487121678276]
フィルタプルーニングは同時に計算を加速し、CNNのメモリオーバーヘッドを低減する。本稿では,MFM(Masked Filter Modeling)フレームワークを用いた知識駆動型微分フィルタサンプリング(KDFS)を提案する。
論文参考訳（メタデータ） (2023-07-01T02:28:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。