論文の概要: Low-hallucination Synthetic Captions for Large-Scale Vision-Language Model Pre-training
- arxiv url: http://arxiv.org/abs/2504.13123v1
- Date: Thu, 17 Apr 2025 17:40:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 14:38:36.303365
- Title: Low-hallucination Synthetic Captions for Large-Scale Vision-Language Model Pre-training
- Title(参考訳): 大規模ビジョンランゲージモデル事前学習のための低調波合成キャプション
- Authors: Xinsong Zhang, Yarong Zeng, Xinting Huang, Hu Hu, Runquan Xie, Han Hu, Zhanhui Kang,
- Abstract要約: 本稿では,高品質,低ハロゲン化,知識に富んだ合成キャプションを生成するための新しいパイプラインを提案する。
我々の連続DPO法は幻覚の減少に顕著な結果をもたらす。
35の視覚言語タスクに対して、我々のデータでトレーニングされたモデルは、少なくとも6.2%の大幅なパフォーマンス向上を達成する。
- 参考スコア(独自算出の注目度): 23.419674752628833
- License:
- Abstract: In recent years, the field of vision-language model pre-training has experienced rapid advancements, driven primarily by the continuous enhancement of textual capabilities in large language models. However, existing training paradigms for multimodal large language models heavily rely on high-quality image-text pairs. As models and data scales grow exponentially, the availability of such meticulously curated data has become increasingly scarce and saturated, thereby severely limiting further advancements in this domain. This study investigates scalable caption generation techniques for vision-language model pre-training and demonstrates that large-scale low-hallucination synthetic captions can serve dual purposes: 1) acting as a viable alternative to real-world data for pre-training paradigms and 2) achieving superior performance enhancement when integrated into vision-language models through empirical validation. This paper presents three key contributions: 1) a novel pipeline for generating high-quality, low-hallucination, and knowledge-rich synthetic captions. Our continuous DPO methodology yields remarkable results in reducing hallucinations. Specifically, the non-hallucination caption rate on a held-out test set increases from 48.2% to 77.9% for a 7B-size model. 2) Comprehensive empirical validation reveals that our synthetic captions confer superior pre-training advantages over their counterparts. Across 35 vision language tasks, the model trained with our data achieves a significant performance gain of at least 6.2% compared to alt-text pairs and other previous work. Meanwhile, it also offers considerable support in the text-to-image domain. With our dataset, the FID score is reduced by 17.1 on a real-world validation benchmark and 13.3 on the MSCOCO validation benchmark. 3) We will release Hunyuan-Recap100M, a low-hallucination and knowledge-intensive synthetic caption dataset.
- Abstract(参考訳): 近年、視覚言語モデル事前学習の分野は、主に大規模言語モデルにおけるテキスト能力の継続的な向上によって、急速な進歩を遂げている。
しかし、マルチモーダルな大規模言語モデルの既存の訓練パラダイムは、高品質な画像テキストペアに大きく依存している。
モデルやデータスケールが指数関数的に大きくなるにつれて、厳密にキュレートされたデータの可用性はますます不足し、飽和し、この領域のさらなる進歩を著しく制限している。
本研究では、視覚言語モデル事前学習のためのスケーラブルなキャプション生成手法について検討し、大規模低調波合成キャプションが二重目的に有効であることを示す。
1)事前学習パラダイムのための実世界のデータに代わる有効な代替手段として機能すること。
2)経験的検証によって視覚言語モデルに統合された場合の優れた性能向上を実現する。
本稿では,3つの重要な貢献について述べる。
1)高品質、低ハロゲン化、知識に富んだ合成キャプションを生成するための新しいパイプライン。
我々の連続DPO法は幻覚の減少に顕著な結果をもたらす。
具体的には、7Bサイズのモデルでは、ホールトアウトテストセットの非ハロゲン化キャプション率は48.2%から77.9%に増加する。
2) 包括的経験的検証により, 合成キャプションは, それらのキャプションよりも優れた訓練前優位性を示すことが明らかとなった。
35の視覚言語タスクに対して、我々のデータでトレーニングされたモデルは、alt-textペアや他の以前の作業と比較して、少なくとも6.2%の性能向上を実現している。
一方、テキスト・ツー・イメージ・ドメインでもかなりサポートされています。
我々のデータセットでは、実世界の検証ベンチマークでは17.1、MSCOCOの検証ベンチマークでは13.3でFIDスコアが低下する。
3)Hunyuan-Recap100Mは,低ハロゲン化・知識集約型合成キャプションデータセットである。
関連論文リスト
- Dreaming Out Loud: A Self-Synthesis Approach For Training Vision-Language Models With Developmentally Plausible Data [3.1715756370116637]
人間の認知発達からインスピレーションを得て、限られたデータ条件下でモデルをトレーニングします。
我々の手法は、発達的に妥当な量のデータを用いてマルチモーダルモデルを訓練するための概念実証を提供する。
論文 参考訳(メタデータ) (2024-10-29T10:50:03Z) - Aligning Modalities in Vision Large Language Models via Preference
Fine-tuning [67.62925151837675]
本研究では,幻覚の問題をアライメント問題とみなし,好みのチューニングで対処する。
具体的には,AIモデルを用いたフィードバックデータを生成するPOVIDを提案する。
提案手法は,好ましくないデータを生成するための2段階のアプローチである。
広範ベンチマークを用いた実験では、幻覚を減らすだけでなく、標準ベンチマークでのモデル性能を向上させることができ、従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-02-18T00:56:16Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - CapsFusion: Rethinking Image-Text Data at Scale [32.334143749598766]
本稿では,ウェブベースの画像テキストペアと合成キャプションの両方から情報を統合・洗練するためのCapsFusionを提案する。
実験の結果,CapsFusionキャプションはモデル性能において既存のキャプションよりも圧倒的に優れていた。
論文 参考訳(メタデータ) (2023-10-31T15:31:39Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - UniBoost: Unsupervised Unimodal Pre-training for Boosting Zero-shot
Vision-Language Tasks [60.46473247205654]
大規模で教師なしのユニモーダルモデルを事前学習として使用することにより、画像テキストペアモデルのゼロショット性能を向上させることができる。
実験の結果,単調な事前学習は最先端のCLIPモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-06-07T18:26:22Z) - Joint Adaptive Representations for Image-Language Learning [59.40890927221377]
画像言語学習のためのレシピを提案し、より大きくて高価なものよりも優れたモデルを作成し、しばしば桁違いに大きなデータセットで訓練する。
我々の重要な発見は、適応的かつ反復的にマルチモーダルな特徴を融合させる、コンパクトな視覚と言語表現の連成学習である。
たった4000万のトレーニング例と39のGFLOPで、私たちの軽量モデルは、2~20倍以上のFLOPの最先端モデルで、さらに大きなデータセットを使用して、1B近くのトレーニング例で何倍もパフォーマンスを上げています。
論文 参考訳(メタデータ) (2023-05-31T15:02:02Z) - Learning to Decompose Visual Features with Latent Textual Prompts [140.2117637223449]
視覚言語モデルを改善するために,Decomposed Feature Prompting (DeFo)を提案する。
我々の実証研究は、視覚言語モデルを改善する上でDeFoが重要であることを示している。
論文 参考訳(メタデータ) (2022-10-09T15:40:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。