論文の概要: HQ-CLIP: Leveraging Large Vision-Language Models to Create High-Quality Image-Text Datasets and CLIP Models
- arxiv url: http://arxiv.org/abs/2507.22431v1
- Date: Wed, 30 Jul 2025 07:21:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 16:14:18.055287
- Title: HQ-CLIP: Leveraging Large Vision-Language Models to Create High-Quality Image-Text Datasets and CLIP Models
- Title(参考訳): HQ-CLIP:高画質画像テキストデータセットとCLIPモデルの作成に大規模なビジョンランゲージモデルを活用する
- Authors: Zhixiang Wei, Guangting Wang, Xiaoxiao Ma, Ke Mei, Huaian Chen, Yi Jin, Fengyun Rao,
- Abstract要約: 画像とテキストのペアデータの品質を向上させるために,LVLM駆動型データ精錬パイプラインを導入する。
否定的な記述と短いタグを組み込むことで、従来のコントラスト学習を拡張する訓練パラダイムを提案する。
提案手法は, ゼロショット分類, クロスモーダル検索, きめ細かな視覚理解タスクにおける最先端性能を実現する。
- 参考スコア(独自算出の注目度): 15.877790469608662
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale but noisy image-text pair data have paved the way for the success of Contrastive Language-Image Pretraining (CLIP). As the foundation vision encoder, CLIP in turn serves as the cornerstone for most large vision-language models (LVLMs). This interdependence naturally raises an interesting question: Can we reciprocally leverage LVLMs to enhance the quality of image-text pair data, thereby opening the possibility of a self-reinforcing cycle for continuous improvement? In this work, we take a significant step toward this vision by introducing an LVLM-driven data refinement pipeline. Our framework leverages LVLMs to process images and their raw alt-text, generating four complementary textual formulas: long positive descriptions, long negative descriptions, short positive tags, and short negative tags. Applying this pipeline to the curated DFN-Large dataset yields VLM-150M, a refined dataset enriched with multi-grained annotations. Based on this dataset, we further propose a training paradigm that extends conventional contrastive learning by incorporating negative descriptions and short tags as additional supervised signals. The resulting model, namely HQ-CLIP, demonstrates remarkable improvements across diverse benchmarks. Within a comparable training data scale, our approach achieves state-of-the-art performance in zero-shot classification, cross-modal retrieval, and fine-grained visual understanding tasks. In retrieval benchmarks, HQ-CLIP even surpasses standard CLIP models trained on the DFN-2B dataset, which contains 10$\times$ more training data than ours. All code, data, and models are available at https://zxwei.site/hqclip.
- Abstract(参考訳): 大規模だがノイズの多い画像とテキストのペアデータにより、CLIP(Contrastive Language- Image Pretraining)の成功の道が開かれた。
ファンデーションビジョンエンコーダとして、CLIPは、ほとんどの大きなビジョン言語モデル(LVLM)の基盤となる。
LVLMを相互に活用して画像とテキストのペアデータの品質を高め、継続的な改善のための自己強化サイクルの可能性を開放できるか?
本研究では,LVLM駆動型データ精錬パイプラインを導入することにより,このビジョンに向けて大きな一歩を踏み出した。
我々のフレームワークはLVLMを利用して画像とその生のアルトテキストを処理し、4つの相補的なテキスト式を生成する。
このパイプラインをキュレートされたDFN-Largeデータセットに適用すると、VLM-150Mが生成される。
このデータセットに基づいて、ネガティブな記述と短いタグを付加的な教師付き信号として組み込むことにより、従来のコントラスト学習を拡張する訓練パラダイムを提案する。
その結果得られたモデル、すなわちHQ-CLIPは、様々なベンチマークで顕著に改善されている。
比較訓練データスケール内では、ゼロショット分類、クロスモーダル検索、きめ細かい視覚的理解タスクにおいて、最先端のパフォーマンスを実現する。
検索ベンチマークでは、HQ-CLIPはDFN-2Bデータセットでトレーニングされた標準的なCLIPモデルを超えています。
すべてのコード、データ、モデルはhttps://zxwei.site/hqclip.comで入手できる。
関連論文リスト
- Trust the Model: Compact VLMs as In-Context Judges for Image-Text Data Quality [5.750869893508341]
視覚言語モデル(VLM)は、視覚データを統合することで従来の大規模言語モデルを拡張し、よりリッチなマルチモーダル推論を可能にする。
高品質な画像キャプチャアノテートデータセットを微調整した,コンパクトなVLMを用いた合理化データフィルタリングフレームワークを提案する。
このモデルは、キャプションと画像品質とアライメントに基づいて、潜在的トレーニングサンプルを効果的に評価し、フィルタリングする。
論文 参考訳(メタデータ) (2025-07-27T07:20:25Z) - TULIP: Towards Unified Language-Image Pretraining [60.99500935831526]
既存のCLIPライクなモデルの代替として,オープンソースでドロップイン可能なTを導入する。
提案手法は, 生成データの拡張, 画像画像の強化, テキストコントラスト学習, 画像/テキスト再構成正規化を利用して, きめ細かい視覚的特徴を学習する。
当社のアプローチでは、ベンチマーク全体で既存の最先端(SOTA)モデルを上回っています。
論文 参考訳(メタデータ) (2025-03-19T17:58:57Z) - Advancing Multimodal Large Language Models in Chart Question Answering with Visualization-Referenced Instruction Tuning [1.6570772838074355]
マルチモーダル大言語モデル(MLLM)は、チャート質問応答(CQA)に大きな可能性を示す
近年の取り組みは、データ収集と合成によるデータセットのスケールアップに重点を置いている。
本稿では,トレーニングデータセットの強化とモデル開発を指導するための,可視化参照型指導チューニング手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T17:04:34Z) - RWKV-CLIP: A Robust Vision-Language Representation Learner [31.501759213619646]
コントラスト言語-画像事前学習(CLIP)は、様々な視覚言語タスクのパフォーマンスを大幅に改善した。
本稿では,Large Language Models(LLM)を利用して,Webベースのテキスト,合成キャプション,検出タグからコンテンツを合成・洗練する多種多様な記述生成フレームワークを提案する。
RWKV-CLIPは,変換器の効果的な並列学習とRNNの効率的な推論を組み合わせた,最初のRWKV駆動型視覚言語表現学習モデルである。
論文 参考訳(メタデータ) (2024-06-11T06:10:46Z) - VeCLIP: Improving CLIP Training via Visual-enriched Captions [63.547204530720705]
本研究は,ノイズキャプション書き換えのためのスケーラブルパイプラインを提案する。
視覚豊かなキャプション(VeCap)と呼ばれるキャプションへの視覚概念の組み入れを強調した。
本稿では,大規模なWebクローリングデータセットであるVeCLIP上でCLIPをトレーニングするためのこの手法の適用について紹介する。
論文 参考訳(メタデータ) (2023-10-11T17:49:13Z) - Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文 参考訳(メタデータ) (2023-10-01T05:53:15Z) - Generative Negative Text Replay for Continual Vision-Language
Pretraining [95.2784858069843]
視覚言語による事前学習が近年注目を集めている。
大量のデータは、通常ストリーミング形式で収集される。
本稿では,画像とテキスト間のマルチモーダルな知識蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-10-31T13:42:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。