論文の概要: SynthVLM: High-Efficiency and High-Quality Synthetic Data for Vision Language Models
- arxiv url: http://arxiv.org/abs/2407.20756v4
- Date: Tue, 18 Feb 2025 05:45:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:04:30.087875
- Title: SynthVLM: High-Efficiency and High-Quality Synthetic Data for Vision Language Models
- Title(参考訳): SynthVLM:視覚言語モデルのための高効率・高品質合成データ
- Authors: Zheng Liu, Hao Liang, Bozhou Li, Tianyi Bai, Wentao Xiong, Chong Chen, Conghui He, Wentao Zhang, Bin Cui,
- Abstract要約: 本稿では,画像キャプチャペアを生成するための新しいデータ合成とキュレーション手法であるSynthVLMを紹介する。
SynthVLMのパワーを実証するため,SynthVLM-100Kを導入した。
モデルと人両方の評価において、SynthVLM-100Kは従来の実世界のデータセットよりも優れています。
- 参考スコア(独自算出の注目度): 39.21242589835842
- License:
- Abstract: Vision-Language Models (VLMs) have recently emerged, demonstrating remarkable vision-understanding capabilities. However, training these models requires large-scale datasets, which brings challenges related to efficiency, effectiveness, quality, and privacy of web data. In this paper, we introduce SynthVLM, a novel data synthesis and curation method for generating image-caption pairs. Unlike traditional methods, where captions are generated from images, SynthVLM utilizes advanced diffusion models and high-quality captions to automatically synthesize and select high-resolution images from text descriptions, thereby creating precisely aligned image-text pairs. To demonstrate the power of SynthVLM, we introduce SynthVLM-100K, a high-quality dataset consisting of 100,000 curated and synthesized image-caption pairs. In both model and human evaluations, SynthVLM-100K outperforms traditional real-world datasets. Leveraging this dataset, we develop a new family of multimodal large language models (MLLMs), SynthVLM-7B and SynthVLM-13B, which achieve state-of-the-art (SOTA) performance on various vision question-answering (VQA) tasks. Notably, our models outperform LLaVA across most metrics with only 18\% pretrain data. Furthermore, SynthVLM-7B and SynthVLM-13B attain SOTA performance on the MMLU benchmark, demonstrating that the high-quality SynthVLM-100K dataset preserves language abilities. To facilitate future research, our dataset and the complete data generating and curating methods are open-sourced at https://github.com/starriver030515/SynthVLM.
- Abstract(参考訳): VLM(Vision-Language Models)が最近登場した。
しかし、これらのモデルのトレーニングには大規模なデータセットが必要であるため、Webデータの効率性、有効性、品質、プライバシに関する課題が発生する。
本稿では,画像キャプチャペアを生成するための新しいデータ合成とキュレーション手法であるSynthVLMを紹介する。
画像からキャプションを生成する従来の方法とは異なり、SynthVLMは高度な拡散モデルと高品質なキャプションを使用して、テキスト記述から高解像度の画像を自動的に合成し、選択することで、正確に整列された画像テキストペアを生成する。
SynthVLMのパワーを実証するため,SynthVLM-100Kを導入した。
モデルと人両方の評価において、SynthVLM-100Kは従来の実世界のデータセットよりも優れています。
このデータセットを活用することで、様々な視覚質問応答(VQA)タスクにおいて、最先端(SOTA)のパフォーマンスを実現するマルチモーダルな大規模言語モデル(MLLM)、SynthVLM-7B、SynthVLM-13Bの新たなファミリーを開発する。
特に、私たちのモデルは、ほとんどのメトリクスでLLaVAを18%の事前トレーニングデータで上回ります。
さらに、SynthVLM-7BとSynthVLM-13Bは、MMLUベンチマークでSOTA性能を達成し、高品質のSynthVLM-100Kデータセットが言語能力を維持することを示した。
今後の研究を容易にするため、我々のデータセットと完全なデータ生成および計算手法はhttps://github.com/starriver030515/SynthVLMでオープンソース化されている。
関連論文リスト
- Beyond Filtering: Adaptive Image-Text Quality Enhancement for MLLM Pretraining [31.176432567292093]
本稿では,画像テキストペアの品質を動的に評価・向上するAdaptive Image-Text Quality Enhancer (AITQE)を提案する。
AITQEは低品質のペアに対してテキスト書き換え機構を採用し、評価能力を向上させるために負のサンプル学習戦略を取り入れている。
論文 参考訳(メタデータ) (2024-10-21T16:32:41Z) - Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis [62.06970466554273]
SDXLのような最先端拡散モデルに匹敵するレベルまで、非自己回帰マスク型画像モデリング(MIM)のテキスト・ツー・イメージが増大するMeissonicを提案する。
高品質なトレーニングデータを活用し、人間の嗜好スコアから得られるマイクロ条件を統合し、特徴圧縮層を用いて画像の忠実度と解像度をさらに向上する。
我々のモデルは、高画質の高精細画像を生成する際に、SDXLのような既存のモデルに適合するだけでなく、しばしば性能を上回ります。
論文 参考訳(メタデータ) (2024-10-10T17:59:17Z) - FullAnno: A Data Engine for Enhancing Image Comprehension of MLLMs [58.95386070800286]
FullAnnoは、大規模で高品質できめ細かい画像アノテーションを生成するデータエンジンである。
我々はFullAnnoシステムを用いてCOCOデータセットとVisual Genomeデータセットを再注釈した。
実験により、再生したアノテーションは、複数のベンチマークでLLaVA-v1.5の能力を著しく向上できることが示された。
論文 参考訳(メタデータ) (2024-09-20T14:33:17Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - Synth$^2$: Boosting Visual-Language Models with Synthetic Captions and Image Embeddings [16.28853186016663]
効率的な視覚言語モデル(VLM)トレーニングのための合成画像テキストペアを作成する。
本手法では,LLMが生成したキャプションから画像埋め込みを合成するために,事前訓練されたテキスト・ツー・イメージモデルを用いる。
我々のVLMは、人工的なデータに基づいて微調整され、人間に注釈付けされたデータにのみ訓練されたモデルに匹敵する性能を達成する。
論文 参考訳(メタデータ) (2024-03-12T15:36:42Z) - ALLaVA: Harnessing GPT4V-Synthesized Data for Lite Vision-Language Models [45.040292339670096]
大規模視覚言語モデル(LVLM)は、その強力な推論と一般化能力を備えた幅広い視覚言語タスクの前提を示してきた。
本研究では,従来のLVLMとリソースフレンドリなライトバージョンのパフォーマンスギャップを,高品質なトレーニングデータを用いて橋渡しすることを目的とする。
論文 参考訳(メタデータ) (2024-02-18T19:26:49Z) - Learning Vision from Models Rivals Learning Vision from Data [54.43596959598465]
合成画像と合成キャプションのみから視覚表現を学習するための新しいアプローチであるSynCLRを紹介する。
LLMを用いて画像キャプションの大規模なデータセットを合成し,既製のテキスト・ツー・イメージモデルを用いて合成キャプションに対応する複数の画像を生成する。
比較学習によって合成画像の視覚的表現学習を行い、同じ字幕を共有するイメージを正のペアとして扱う。
論文 参考訳(メタデータ) (2023-12-28T18:59:55Z) - Interactive Data Synthesis for Systematic Vision Adaptation via
LLMs-AIGCs Collaboration [48.54002313329872]
本稿では,ChatGenImageというアノテーション付きデータ拡張の新しいパラダイムを提案する。
その中核となる考え方は、多様なモデルの補完的な強みを活用して、インタラクティブなデータ拡張のための高効率でユーザフレンドリなパイプラインを確立することである。
筆者らはChatGenImageフレームワークから得られた興味深い結果を提示し, 系統的視覚適応のための合成データの強力なポテンシャルを実証する。
論文 参考訳(メタデータ) (2023-05-22T07:53:36Z) - Multimodal Data Augmentation for Image Captioning using Diffusion Models [12.221685807426264]
本研究では,Stable Diffusionと呼ばれるテキスト・ツー・イメージ・モデルを利用してトレーニングセットを拡張するデータ拡張手法を提案する。
MS COCOデータセットの実験は、いくつかのベンチマーク手法に対する我々のアプローチの利点を実証している。
生成されたデータを意図的にフィルタリングした後、トレーニング効率及び有効性に関するさらなる改善が得られる。
論文 参考訳(メタデータ) (2023-05-03T01:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。