論文の概要: Filter Images First, Generate Instructions Later: Pre-Instruction Data Selection for Visual Instruction Tuning
- arxiv url: http://arxiv.org/abs/2503.07591v1
- Date: Mon, 10 Mar 2025 17:55:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:46:24.423236
- Title: Filter Images First, Generate Instructions Later: Pre-Instruction Data Selection for Visual Instruction Tuning
- Title(参考訳): フィルタ画像第一にインストラクションを生成する:ビジュアルインストラクションチューニングのためのプリインストラクションデータ選択
- Authors: Bardia Safaei, Faizan Siddiqui, Jiacong Xu, Vishal M. Patel, Shao-Yuan Lo,
- Abstract要約: 本稿では,より実践的なデータ選択パラダイムであるPre-Instruction Data Selection(PreSel)を紹介する。
PreSelは、最も有益なラベルなしの画像を直接選択し、選択した画像に対してのみ命令を生成する。
たった15%のイメージに対して命令を生成することで、PreSelはLLaVA-1.5データセットとVision-FlanデータセットのフルデータVITに匹敵するパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 25.16376085030221
- License:
- Abstract: Visual instruction tuning (VIT) for large vision-language models (LVLMs) requires training on expansive datasets of image-instruction pairs, which can be costly. Recent efforts in VIT data selection aim to select a small subset of high-quality image-instruction pairs, reducing VIT runtime while maintaining performance comparable to full-scale training. However, a major challenge often overlooked is that generating instructions from unlabeled images for VIT is highly expensive. Most existing VIT datasets rely heavily on human annotations or paid services like the GPT API, which limits users with constrained resources from creating VIT datasets for custom applications. To address this, we introduce Pre-Instruction Data Selection (PreSel), a more practical data selection paradigm that directly selects the most beneficial unlabeled images and generates instructions only for the selected images. PreSel first estimates the relative importance of each vision task within VIT datasets to derive task-wise sampling budgets. It then clusters image features within each task, selecting the most representative images with the budget. This approach reduces computational overhead for both instruction generation during VIT data formation and LVLM fine-tuning. By generating instructions for only 15% of the images, PreSel achieves performance comparable to full-data VIT on the LLaVA-1.5 and Vision-Flan datasets. The link to our project page: https://bardisafa.github.io/PreSel
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)のためのビジュアルインストラクションチューニング(VIT)では、画像インストラクションペアの拡張データセットのトレーニングが必要であり、コストがかかる。
VITデータ選択の最近の取り組みは、高品質なイメージインストラクションペアの小さなサブセットを選択することを目的としており、フルスケールのトレーニングに匹敵するパフォーマンスを維持しながら、VITランタイムを削減している。
しかし、しばしば見落とされがちな大きな課題は、VIT用のラベルのない画像から命令を生成することは、非常に高価であることだ。
既存のVITデータセットの多くは、人間のアノテーションやGPT APIのような有料サービスに大きく依存している。
これを解決するために,より実用的なデータ選択パラダイムであるPre-Instruction Data Selection(PreSel)を導入する。
PreSelはまず、VITデータセット内の各視覚タスクの相対的重要性を推定し、タスクワイドサンプリング予算を導出する。
次に、各タスク内でイメージ機能をクラスタリングし、予算で最も代表的なイメージを選択する。
このアプローチは、VITデータ生成時の命令生成とLVLM微調整時の計算オーバーヘッドを低減する。
たった15%のイメージに対して命令を生成することで、PreSelはLLaVA-1.5データセットとVision-FlanデータセットのフルデータVITに匹敵するパフォーマンスを達成する。
プロジェクトページへのリンク: https://bardisafa.github.io/PreSel
関連論文リスト
- Do we Really Need Visual Instructions? Towards Visual Instruction-Free Fine-tuning for Large Vision-Language Models [127.38740043393527]
LVLMのための視覚的命令なし微調整フレームワークであるViFTを提案する。
我々は、タスク解決能力と視覚知覚能力を個別に学習するために、トレーニング中にテキストのみの指示と画像キャプションデータのみを必要とする。
実験結果から,VFTはいくつかの視覚的推論と,それに続く視覚的指示に対して,最先端の性能を達成できることが示された。
論文 参考訳(メタデータ) (2025-02-17T04:38:12Z) - Bridge the Modality and Capability Gaps in Vision-Language Model Selection [62.26769826687365]
視覚言語モデル(VLM)は、画像とテキストのカテゴリ名とのペアリングによるゼロショット画像分類において優れている。
VLMリソースをより再利用するために、VLM Zooから適切な事前学習VLMを選択するという有望な戦略が提案されている。
本稿では,この言語のみのVLM選択において,VLMの能力を評価する上での2つの課題について分析する。
本稿では,2つのギャップの負の影響を軽減するために,gApブリッジを用いたVLM選択を提案する。
論文 参考訳(メタデータ) (2024-03-20T17:54:58Z) - Less is More: High-value Data Selection for Visual Instruction Tuning [127.38740043393527]
本稿では,視覚的命令データの冗長性を排除し,トレーニングコストを削減するために,高価値なデータ選択手法TIVEを提案する。
約15%のデータしか使用していない我々のアプローチは、8つのベンチマークで全データ微調整モデルに匹敵する平均性能を実現することができる。
論文 参考訳(メタデータ) (2024-03-14T16:47:25Z) - Leveraging Vision-Language Models for Improving Domain Generalization in
Image Classification [35.277880733198586]
VLM(Vision-Language Models)は、大量の画像とテキストのペアで訓練され、複数のデータ分布に顕著な一般化をもたらす。
本稿では,教師モデルの視覚と言語モダリティを,事前学習した学生モデルの視覚のモダリティと整合させるビジョン・ランゲージ・トゥ・ビジョン(VL2V-ADiP)を提案する。
これは、VLM画像エンコーダの豊かな表現とテキスト埋め込みの優れた一般化を取り入れつつ、学生の事前訓練された特徴を最大限に保持する。
論文 参考訳(メタデータ) (2023-10-12T11:59:54Z) - Q: How to Specialize Large Vision-Language Models to Data-Scarce VQA
Tasks? A: Self-Train on Unlabeled Images! [103.09776737512077]
SelTDA(Self-Taught Data Augmentation)は、小規模なVQAデータセット上で大きな視覚言語モデルを微調整するための戦略である。
画像上に直接条件付の疑似ラベルを生成することで、未ラベル画像の疑似ラベル作成を可能にする。
我々は, 自己学習によるデータ拡張が, 対向的に検索された質問に対して堅牢性を高めることを示す一連の実験について述べる。
論文 参考訳(メタデータ) (2023-06-06T18:00:47Z) - BLIP: Bootstrapping Language-Image Pre-training for Unified
Vision-Language Understanding and Generation [86.4572981982407]
視覚言語理解と生成の両方に柔軟に伝達する新しい視覚言語フレームワークBLIPを提案する。
BLIPは、キャプタが合成キャプタを生成し、フィルタがノイズのあるキャプタを除去するキャプタをブートストラップすることで、ノイズの多いWebデータを効果的に活用する。
BLIPはまた、ゼロショット方式で直接ビデオ言語タスクに移行する際に、強力な一般化能力を示す。
論文 参考訳(メタデータ) (2022-01-28T12:49:48Z) - Visual Representation Learning with Self-Supervised Attention for
Low-Label High-data Regime [0.41998444721319217]
自己監督型ビジョントランスフォーマー(SSL-ViT)は、低ラベルで高データ状態の2つの重要なコンピュータビジョンタスクに適応することができる。
数ショットのイメージ分類では、SSL-ViTを外部データに監視せずにトレーニングし、このトレーニング済み埋め込みを使用して、ラベル数が限られている新しいクラスに迅速に適応します。
ゼロショット画像検索には、ラベルのない大規模なデータセットで事前トレーニングされたSSL-ViTを使用し、いくつかのメトリック学習目標でそれらを微調整する。
論文 参考訳(メタデータ) (2022-01-22T02:37:07Z) - Are Large-scale Datasets Necessary for Self-Supervised Pre-training? [29.49873710927313]
対象のタスクデータのみを活用する自己指導型事前学習シナリオについて検討する。
本研究は,BEiTなどのデノイングオートエンコーダが,事前学習データの種類やサイズに対してより堅牢であることを示す。
COCOでは、COCOイメージのみを使用して事前トレーニングを行う場合、検出とインスタンスセグメンテーションのパフォーマンスは、同等の設定で教師付きImageNet事前トレーニングを上回る。
論文 参考訳(メタデータ) (2021-12-20T18:41:32Z) - Efficient Conditional Pre-training for Transfer Learning [71.01129334495553]
本稿では,事前学習データセットから関連するサブセットを選択するための効率的なフィルタリング手法を提案する。
我々は、教師なし設定と教師なし設定の両方において、ImageNetで事前トレーニングを行うことで、我々の技術を検証する。
我々は、サブセットで利用可能なモデルをチューニングし、大規模なデータセットからフィルタリングされたデータセットで事前トレーニングすることで、標準のImageNet事前トレーニングを1~3%改善する。
論文 参考訳(メタデータ) (2020-11-20T06:16:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。