論文の概要: SynthVLM: High-Efficiency and High-Quality Synthetic Data for Vision Language Models
- arxiv url: http://arxiv.org/abs/2407.20756v4
- Date: Tue, 18 Feb 2025 05:45:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:04:30.087875
- Title: SynthVLM: High-Efficiency and High-Quality Synthetic Data for Vision Language Models
- Title(参考訳): SynthVLM:視覚言語モデルのための高効率・高品質合成データ
- Authors: Zheng Liu, Hao Liang, Bozhou Li, Tianyi Bai, Wentao Xiong, Chong Chen, Conghui He, Wentao Zhang, Bin Cui,
- Abstract要約: 本稿では,画像キャプチャペアを生成するための新しいデータ合成とキュレーション手法であるSynthVLMを紹介する。
SynthVLMのパワーを実証するため,SynthVLM-100Kを導入した。
モデルと人両方の評価において、SynthVLM-100Kは従来の実世界のデータセットよりも優れています。
- 参考スコア(独自算出の注目度): 39.21242589835842
- License:
- Abstract: Vision-Language Models (VLMs) have recently emerged, demonstrating remarkable vision-understanding capabilities. However, training these models requires large-scale datasets, which brings challenges related to efficiency, effectiveness, quality, and privacy of web data. In this paper, we introduce SynthVLM, a novel data synthesis and curation method for generating image-caption pairs. Unlike traditional methods, where captions are generated from images, SynthVLM utilizes advanced diffusion models and high-quality captions to automatically synthesize and select high-resolution images from text descriptions, thereby creating precisely aligned image-text pairs. To demonstrate the power of SynthVLM, we introduce SynthVLM-100K, a high-quality dataset consisting of 100,000 curated and synthesized image-caption pairs. In both model and human evaluations, SynthVLM-100K outperforms traditional real-world datasets. Leveraging this dataset, we develop a new family of multimodal large language models (MLLMs), SynthVLM-7B and SynthVLM-13B, which achieve state-of-the-art (SOTA) performance on various vision question-answering (VQA) tasks. Notably, our models outperform LLaVA across most metrics with only 18\% pretrain data. Furthermore, SynthVLM-7B and SynthVLM-13B attain SOTA performance on the MMLU benchmark, demonstrating that the high-quality SynthVLM-100K dataset preserves language abilities. To facilitate future research, our dataset and the complete data generating and curating methods are open-sourced at https://github.com/starriver030515/SynthVLM.
- Abstract(参考訳): VLM(Vision-Language Models)が最近登場した。
しかし、これらのモデルのトレーニングには大規模なデータセットが必要であるため、Webデータの効率性、有効性、品質、プライバシに関する課題が発生する。
本稿では,画像キャプチャペアを生成するための新しいデータ合成とキュレーション手法であるSynthVLMを紹介する。
画像からキャプションを生成する従来の方法とは異なり、SynthVLMは高度な拡散モデルと高品質なキャプションを使用して、テキスト記述から高解像度の画像を自動的に合成し、選択することで、正確に整列された画像テキストペアを生成する。
SynthVLMのパワーを実証するため,SynthVLM-100Kを導入した。
モデルと人両方の評価において、SynthVLM-100Kは従来の実世界のデータセットよりも優れています。
このデータセットを活用することで、様々な視覚質問応答(VQA)タスクにおいて、最先端(SOTA)のパフォーマンスを実現するマルチモーダルな大規模言語モデル(MLLM)、SynthVLM-7B、SynthVLM-13Bの新たなファミリーを開発する。
特に、私たちのモデルは、ほとんどのメトリクスでLLaVAを18%の事前トレーニングデータで上回ります。
さらに、SynthVLM-7BとSynthVLM-13Bは、MMLUベンチマークでSOTA性能を達成し、高品質のSynthVLM-100Kデータセットが言語能力を維持することを示した。
今後の研究を容易にするため、我々のデータセットと完全なデータ生成および計算手法はhttps://github.com/starriver030515/SynthVLMでオープンソース化されている。
関連論文リスト
- Scaling Text-Rich Image Understanding via Code-Guided Synthetic Multimodal Data Generation [79.71072337496351]
CoSynは、合成テキストリッチマルチモーダルデータを作成するフレームワークである。
高品質な命令チューニングデータを生成することができる。
また、合成ポインティングデータを生成し、視覚言語モデルで入力画像内の情報をグラウンドできる。
論文 参考訳(メタデータ) (2025-02-20T18:55:30Z) - RealSyn: An Effective and Scalable Multimodal Interleaved Document Transformation Paradigm [34.02250139766494]
マルチモーダルなインターリーブド文書など、ペアリングされていない膨大な量のデータが、視覚言語表現学習に使われていない。
高品質な画像やテキストを抽出するリアルタイムデータ抽出パイプラインを構築した。
そして,各画像と複数の意味的関連現実的テキストを効率的に関連付ける階層的検索手法を設計する。
リアルテキストと合成テキストを組み合わせたデータセットであるRealSynを3つのスケールで構築する。
論文 参考訳(メタデータ) (2025-02-18T03:58:38Z) - mmE5: Improving Multimodal Multilingual Embeddings via High-quality Synthetic Data [71.352883755806]
マルチモーダル埋め込みモデルは、テキストや画像などの様々なモダリティからデータを統一表現空間にマッピングする能力において、大きな注目を集めている。
しかし、ラベル付きマルチモーダルデータは、しばしば埋め込み性能を妨げる。
近年のアプローチでは、この問題に対処するためにデータ合成を活用しているが、合成データの質は依然として重大なボトルネックとなっている。
論文 参考訳(メタデータ) (2025-02-12T15:03:33Z) - Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models [49.439311430360284]
コントラスト学習と画像差分キャプションにインスパイアされた新しいデータ合成手法を提案する。
私たちのキーとなるアイデアは、マッチングと異なる要素の両方を識別するためにモデルに挑戦することです。
我々は、この生成されたデータセットを利用して、最先端(SOTA)MLLMを微調整する。
論文 参考訳(メタデータ) (2024-08-08T17:10:16Z) - Learning from Synthetic Data for Visual Grounding [55.21937116752679]
そこで本研究では,SynGroundが市販のビジョン・アンド・ランゲージモデルのローカライズ能力を向上できることを示す。
SynGroundで生成されたデータは、事前訓練されたALBEFモデルとBLIPモデルのポインティングゲーム精度をそれぞれ4.81%、絶対パーセンテージポイント17.11%向上させる。
論文 参考訳(メタデータ) (2024-03-20T17:59:43Z) - Synth$^2$: Boosting Visual-Language Models with Synthetic Captions and Image Embeddings [16.28853186016663]
効率的な視覚言語モデル(VLM)トレーニングのための合成画像テキストペアを作成する。
本手法では,LLMが生成したキャプションから画像埋め込みを合成するために,事前訓練されたテキスト・ツー・イメージモデルを用いる。
我々のVLMは、人工的なデータに基づいて微調整され、人間に注釈付けされたデータにのみ訓練されたモデルに匹敵する性能を達成する。
論文 参考訳(メタデータ) (2024-03-12T15:36:42Z) - Learning Vision from Models Rivals Learning Vision from Data [54.43596959598465]
合成画像と合成キャプションのみから視覚表現を学習するための新しいアプローチであるSynCLRを紹介する。
LLMを用いて画像キャプションの大規模なデータセットを合成し,既製のテキスト・ツー・イメージモデルを用いて合成キャプションに対応する複数の画像を生成する。
比較学習によって合成画像の視覚的表現学習を行い、同じ字幕を共有するイメージを正のペアとして扱う。
論文 参考訳(メタデータ) (2023-12-28T18:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。