論文の概要: VisCon-100K: Leveraging Contextual Web Data for Fine-tuning Vision Language Models
- arxiv url: http://arxiv.org/abs/2502.10250v1
- Date: Fri, 14 Feb 2025 15:59:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 14:47:50.272446
- Title: VisCon-100K: Leveraging Contextual Web Data for Fine-tuning Vision Language Models
- Title(参考訳): VisCon-100K: 微調整ビジョン言語モデルのためのコンテキストWebデータを活用する
- Authors: Gokul Karthik Kumar, Iheb Chaabane, Kebin Wu,
- Abstract要約: 我々は、インターリーブされた画像テキストWebドキュメントから派生した新しいデータセットVisCon-100Kを紹介する。
提案手法では,45KのWebドキュメントをOBELICSデータセットから100Kの画像会話サンプルに変換する。
GPT-4V を用いて画像・コンテキストキャプションと OpenChat 3.5 モデルを生成し,これらのキャプションを多種多様な自由形式の質問応答対に変換する。
- 参考スコア(独自算出の注目度): 0.351124620232225
- License:
- Abstract: Vision-language models (VLMs) excel in various visual benchmarks but are often constrained by the lack of high-quality visual fine-tuning data. To address this challenge, we introduce VisCon-100K, a novel dataset derived from interleaved image-text web documents. Our approach transforms 45K web documents from the OBELICS dataset into 100K image conversation samples. We utilize GPT-4V to generate image-contextual captions and OpenChat 3.5 model to convert these captions into diverse free-form and multiple-choice question-answer pairs. Integrating this dataset for fine-tuning considerably enhances VLM performance across multiple benchmarks. Unlike methods that focus solely on fine-grained visual content, our approach leverages accompanying web context, yielding superior results. We also discover that a `leaky modality mix,' where conversation samples contain questions answerable from both the image and its contextual caption, outperforms non-leaky combinations of captions and Q\&A pairs. VisCon-100k dataset shows strong performance with two popular VLM approaches: text-only large language model (LLM) aligned with a vision encoder using image captions data (ShareGPT4V-7b) and multimodally pretrained LLM (IDEFICS2-8b) using interleaved image-text data. In addition to releasing the VisCon-100K dataset, we provide a contextual captioner trained on this dataset, facilitating scalable fine-tuning data generation for future research and open-source applications. Using the same pipeline, but substituting our trained contextual captioner for GPT-4V, we also release the larger VisCon-1M dataset.
- Abstract(参考訳): 視覚言語モデル(VLM)は様々な視覚的ベンチマークで優れているが、高品質な視覚的微調整データがないため、しばしば制約を受ける。
この課題に対処するために、私たちは、インターリーブされた画像テキストWebドキュメントから派生した新しいデータセットVisCon-100Kを紹介します。
提案手法では,45KのWebドキュメントをOBELICSデータセットから100Kの画像会話サンプルに変換する。
GPT-4V を用いて画像・コンテキストキャプションと OpenChat 3.5 モデルを生成し,これらのキャプションを多種多様な自由形式の質問応答対に変換する。
このデータセットを微調整に統合することで、複数のベンチマークでVLMのパフォーマンスが大幅に向上する。
細かな視覚コンテンツのみに焦点をあてる手法とは異なり、我々の手法はWebコンテキストに付随する手法を活用し、優れた結果をもたらす。
また、会話サンプルに画像と文脈キャプションの両方から回答可能な質問が含まれている「レキーなモダリティミックス」が、キャプションとQ\&Aペアの非レキーな組み合わせよりも優れていることを発見した。
VisCon-100kデータセットは、画像キャプションデータ(ShareGPT4V-7b)とインターリーブ画像テキストデータを用いたマルチモーダル事前学習LLM(IDEFICS2-8b)を用いたビジョンエンコーダと、テキストのみの大規模言語モデル(LLM)の2つの一般的なVLMアプローチで強力なパフォーマンスを示す。
VisCon-100Kデータセットのリリースに加えて、このデータセットでトレーニングされたコンテキストキャプタを提供し、将来の研究およびオープンソースアプリケーションのためのスケーラブルな微調整データ生成を容易にします。
同じパイプラインを使用して、トレーニング済みのコンテキストキャプタをGPT-4Vに置き換え、より大きなVisCon-1Mデータセットもリリースします。
関連論文リスト
- FullAnno: A Data Engine for Enhancing Image Comprehension of MLLMs [58.95386070800286]
FullAnnoは、大規模で高品質できめ細かい画像アノテーションを生成するデータエンジンである。
我々はFullAnnoシステムを用いてCOCOデータセットとVisual Genomeデータセットを再注釈した。
実験により、再生したアノテーションは、複数のベンチマークでLLaVA-v1.5の能力を著しく向上できることが示された。
論文 参考訳(メタデータ) (2024-09-20T14:33:17Z) - AdaptVision: Dynamic Input Scaling in MLLMs for Versatile Scene Understanding [96.01726275876548]
本稿では,様々な解像度の入力画像を動的に処理するマルチモーダルな大規模言語モデルAdaptVisionを提案する。
画像のサイズやアスペクト比に応じて視覚トークンの数を調整する動的画像分割モジュールを考案する。
私たちのモデルは、解像度1008倍の1008ドルまでの画像を処理できます。
論文 参考訳(メタデータ) (2024-08-30T03:16:49Z) - Visual Fact Checker: Enabling High-Fidelity Detailed Caption Generation [34.45033554641476]
視覚的コンテンツの自動キャプション手法は、詳細の欠如、幻覚内容の欠如、後続の指示不足などの課題に直面している。
フレキシブルなトレーニングフリーパイプラインであるVisualFactChecker(VFC)を提案し、2次元画像と3次元オブジェクトの両方に対して高忠実かつ詳細なキャプションを生成する。
VFCは、1)画像からテキストへのキャプションモデルが複数の初期キャプションを提案する提案、2)大規模言語モデル(LLM)がオブジェクト検出やVQAモデルなどのツールを使用して提案されたキャプションをファクトチェックする検証の3段階で構成されている。
論文 参考訳(メタデータ) (2024-04-30T17:55:27Z) - Text Data-Centric Image Captioning with Interactive Prompts [20.48013600818985]
画像キャプションの監視手法は大きな進歩を遂げているが,高品質な人手による画像テキストデータの収集は困難である。
本稿では,Interactive Prompts を用いた新しいテキストデータ中心型画像キャプタリング手法 TIPCap を提案する。
論文 参考訳(メタデータ) (2024-03-28T07:43:49Z) - MLLMs-Augmented Visual-Language Representation Learning [70.5293060238008]
MLLM(Multi-modal Large Language Models)が視覚言語表現学習を向上させることを実証した。
本手法は単純で,MLLMを用いて画像毎に複数のキャプションを拡張できる。
拡張キャプションの品質と可用性を維持するために,テキストシーリングを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:05:52Z) - Sieve: Multimodal Dataset Pruning Using Image Captioning Models [11.362835828985494]
Vision-Language Models (VLM) は、大規模で多様でノイズの多いWebcrawledデータセットで事前トレーニングされている。
提案手法は,CLIPがノイズラベルを事前学習しているため,偽陽性や陰性などの複数の制約を伴っていると論じる。
そこで我々は,小,多様,整列した画像テキストペア上で事前訓練された画像キャプションモデルによって生成された合成キャプションを用いたプルーニング信号Sieveを提案する。
論文 参考訳(メタデータ) (2023-10-03T14:53:53Z) - Improving Multimodal Datasets with Image Captioning [65.74736570293622]
生成したキャプションが非記述テキストによるWebスクラッピングデータポイントの有用性を高める方法について検討する。
DataComp の大規模字幕 (1.28B 画像テキストペア) を用いた実験により,合成テキストの限界について考察した。
論文 参考訳(メタデータ) (2023-07-19T17:47:12Z) - LLaVAR: Enhanced Visual Instruction Tuning for Text-Rich Image
Understanding [85.39419609430453]
この作業は、テキストリッチなイメージで現在のビジュアルインストラクションチューニングパイプラインを強化する。
まず、公開されたOCRツールを使用して、LAIONデータセットから422Kテキストリッチイメージの結果を収集します。
我々は、認識されたテキストと画像キャプションを持つテキストのみのGPT-4に16Kの会話を生成するよう促す。
論文 参考訳(メタデータ) (2023-06-29T17:08:16Z) - OBELICS: An Open Web-Scale Filtered Dataset of Interleaved Image-Text
Documents [122.55393759474181]
我々は、インターリーブされた画像テキスト文書のオープンなWebスケールフィルタリングデータセットであるOBELICSを紹介する。
データセット作成プロセスを説明し、包括的なフィルタリングルールを示し、データセットの内容を分析する。
IDEFICSという名前の9~800億のパラメータのビジョンと言語モデルをトレーニングし、異なるマルチモーダルベンチマークで競合性能を得る。
論文 参考訳(メタデータ) (2023-06-21T14:01:01Z) - CLIP4Caption: CLIP for Video Caption [9.470254059503862]
私たちは、CLIP対応ビデオテキストマッチングネットワーク(VTM)に基づくビデオキャプションを改善するCLIP4Captionフレームワークを提案する。
このフレームワークは、視覚と言語の両方からの情報を完全に活用し、テキスト生成のための強力なテキスト関連ビデオ機能を学ぶためにモデルを強制している。
論文 参考訳(メタデータ) (2021-10-13T10:17:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。