論文の概要: Trust the Model: Compact VLMs as In-Context Judges for Image-Text Data Quality
- arxiv url: http://arxiv.org/abs/2507.20156v1
- Date: Sun, 27 Jul 2025 07:20:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:57.157497
- Title: Trust the Model: Compact VLMs as In-Context Judges for Image-Text Data Quality
- Title(参考訳): モデルに対する信頼: 画像テキストデータ品質のインコンテキスト判断としてのコンパクトなVLM
- Authors: Daulet Toibazar, Kesen Wang, Sherif Mohamed, Abdulaziz Al-Badawi, Abdulrahman Alfulayt, Pedro J. Moreno,
- Abstract要約: 視覚言語モデル(VLM)は、視覚データを統合することで従来の大規模言語モデルを拡張し、よりリッチなマルチモーダル推論を可能にする。
高品質な画像キャプチャアノテートデータセットを微調整した,コンパクトなVLMを用いた合理化データフィルタリングフレームワークを提案する。
このモデルは、キャプションと画像品質とアライメントに基づいて、潜在的トレーニングサンプルを効果的に評価し、フィルタリングする。
- 参考スコア(独自算出の注目度): 5.750869893508341
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) extend the conventional large language models by integrating visual data, enabling richer multimodal reasoning and significantly broadens the practical applications of AI. However, including visual inputs also brings new challenges in maintaining data quality. Empirical evidence consistently shows that carefully curated and representative training examples often yield superior results compared to simply increasing the quantity of data. Inspired by this observation, we introduce a streamlined data filtration framework that employs a compact VLM, fine-tuned on a high-quality image-caption annotated dataset. This model effectively evaluates and filters potential training samples based on caption and image quality and alignment. Unlike previous approaches, which typically add auxiliary filtration modules on top of existing full-scale VLMs, our method exclusively utilizes the inherent evaluative capability of a purpose-built small VLM. This strategy eliminates the need for extra modules and reduces training overhead. Our lightweight model efficiently filters out inaccurate, noisy web data, improving image-text alignment and caption linguistic fluency. Experimental results show that datasets underwent high-precision filtration using our compact VLM perform on par with, or even surpass, larger and noisier datasets gathered through high-volume web crawling. Thus, our method provides a lightweight yet robust solution for building high-quality vision-language training corpora. \\ \textbf{Availability and implementation:} Our compact VLM filtration model, training data, utility scripts, and Supplementary data (Appendices) are freely available at https://github.com/daulettoibazar/Compact_VLM_Filter.
- Abstract(参考訳): 視覚言語モデル(VLM)は、視覚データを統合することで従来の大規模言語モデルを拡張し、よりリッチなマルチモーダル推論を可能にし、AIの実践的応用を大幅に広げる。
しかし、視覚的なインプットを含むと、データ品質を維持する上での新たな課題も生じます。
実験的な証拠は、注意深いキュレーションと代表的なトレーニング例が、単にデータ量を増やすよりも優れた結果をもたらすことを一貫して示している。
この観測に触発されて,高品質な画像キャプチャアノテートデータセットを微調整した,コンパクトなVLMを用いた合理化データフィルタリングフレームワークを導入した。
このモデルは、キャプションと画像品質とアライメントに基づいて、潜在的トレーニングサンプルを効果的に評価し、フィルタリングする。
既存のフルスケールVLMの上に補助フィルタモジュールを付加する従来の手法とは異なり,本手法は目的とする小型VLMの本質的な評価能力のみを利用する。
この戦略は追加モジュールの必要性を排除し、トレーニングのオーバーヘッドを減らす。
我々の軽量モデルは、不正確でノイズの多いWebデータを効率よくフィルタリングし、画像テキストのアライメントを改善し、キャプション言語流布を改善する。
実験の結果,我々のコンパクトなVLMを用いて高精度なフィルタを行ったデータセットは,高速なWebクローリングによって収集された大規模でノイズの多いデータセットに匹敵する性能を示した。
そこで本手法は,高品質な視覚言語学習コーパスを構築するための軽量で堅牢なソリューションを提供する。
我々のコンパクトなVLMフィルタリングモデル、トレーニングデータ、ユーティリティスクリプト、補足データ(アプリケーション)はhttps://github.com/daulettoibazar/Compact_VLM_Filter.comで無料で利用可能です。
関連論文リスト
- Improving Large Vision-Language Models' Understanding for Field Data [62.917026891829025]
本研究では、大規模ビジョン言語モデルのフィールドデータ理解を改善するためのフレームワークであるFieldLVLMを紹介する。
FieldLVLMは、フィールド対応言語生成戦略とデータ圧縮マルチモーダルモデルチューニングの2つの主要コンポーネントから構成される。
新たに提案されたベンチマークデータセットの実験結果から、フィールドLVLMは、科学的なフィールドデータを含むタスクにおいて、既存の手法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2025-07-24T11:28:53Z) - Quality-Driven Curation of Remote Sensing Vision-Language Data via Learned Scoring Models [9.238739743596236]
自動品質評価のための大規模RS視覚言語嗜好データに基づいて学習した新しいスコアモデルを提案する。
実験結果から, スコアモデルでランク付けされたデータのうち, 上位30%の高精度なCLIPや高度なVLMが, より優れた解釈精度を実現することが示された。
論文 参考訳(メタデータ) (2025-03-02T05:44:56Z) - Sparrow: Data-Efficient Video-LLM with Text-to-Image Augmentation [57.34255010956452]
この研究は、合成データによるスケーリングを再考し、データ中心の観点からビデオLLMの開発に焦点を当てる。
本研究では,純粋なテキスト命令データからビデオライクなサンプルを合成するSparrowというデータ拡張手法を提案する。
提案手法は,より多くのサンプルを用いてトレーニングしたベースラインに匹敵する,あるいは優れた性能を実現する。
論文 参考訳(メタデータ) (2024-11-29T18:59:54Z) - Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Advancing Multimodal Large Language Models in Chart Question Answering with Visualization-Referenced Instruction Tuning [1.6570772838074355]
マルチモーダル大言語モデル(MLLM)は、チャート質問応答(CQA)に大きな可能性を示す
近年の取り組みは、データ収集と合成によるデータセットのスケールアップに重点を置いている。
本稿では,トレーニングデータセットの強化とモデル開発を指導するための,可視化参照型指導チューニング手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T17:04:34Z) - Auto Cherry-Picker: Learning from High-quality Generative Data Driven by Language [41.40908753726324]
拡散モデルは現実的で多様な画像を生成することができ、データ集約的な知覚タスクのためのデータ可用性を促進する可能性がある。
textbfAuto textbfCherry-textbfPicker (ACP)を提案する。
論文 参考訳(メタデータ) (2024-06-28T17:53:18Z) - Synth$^2$: Boosting Visual-Language Models with Synthetic Captions and Image Embeddings [16.28853186016663]
効率的な視覚言語モデル(VLM)トレーニングのための合成画像テキストペアを作成する。
本手法では,LLMが生成したキャプションから画像埋め込みを合成するために,事前訓練されたテキスト・ツー・イメージモデルを用いる。
我々のVLMは、人工的なデータに基づいて微調整され、人間に注釈付けされたデータにのみ訓練されたモデルに匹敵する性能を達成する。
論文 参考訳(メタデータ) (2024-03-12T15:36:42Z) - Your Vision-Language Model Itself Is a Strong Filter: Towards
High-Quality Instruction Tuning with Data Selection [59.11430077029321]
視覚言語モデル(VLM)のための新しいデータセット選択手法であるSelf-Filterを導入する。
第1段階では、VLMと共同で学習する訓練指導の難しさを評価するためのスコアリングネットワークを考案する。
第2段階では、トレーニングされたスコアネットを使用して、各命令の難易度を測定し、最も難しいサンプルを選択し、類似したサンプルをペナルティ化し、多様性を促進する。
論文 参考訳(メタデータ) (2024-02-19T20:08:48Z) - Data Filtering Networks [67.827994353269]
本研究では、大規模な未処理データセットをフィルタリングする第2ステップにおいて、データフィルタリングネットワーク(DFN)を学習する問題について検討する。
我々の重要な発見は、フィルタリングのためのネットワークの品質が下流タスクのパフォーマンスと異なることである。
我々の知見に基づいて、最先端の画像テキストデータセットを誘導する新しいデータフィルタリングネットワークを構築した。
論文 参考訳(メタデータ) (2023-09-29T17:37:29Z) - Position-Enhanced Visual Instruction Tuning for Multimodal Large
Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。
この統合により、MLLMの画像のより詳細な理解が促進される。
本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文 参考訳(メタデータ) (2023-08-25T15:33:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。