論文の概要: Concept-skill Transferability-based Data Selection for Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2406.10995v2
- Date: Wed, 02 Oct 2024 17:20:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-03 15:17:55.824135
- Title: Concept-skill Transferability-based Data Selection for Large Vision-Language Models
- Title(参考訳): 概念スキル伝達可能性に基づく大規模視覚言語モデルのためのデータ選択
- Authors: Jaewoo Lee, Boyang Li, Sung Ju Hwang,
- Abstract要約: 視覚言語モデルを学習するための効果的でスケーラブルなデータ選択手法であるCOINCIDEを紹介する。
我々は,目標LVLMに必要な概念スキル構成を識別する小型モデルからの内部アクティベーションを用いて,トレーニングデータをクラスタ化する。
実験により、COINCIDEは8つの強いベースラインに対して、優れた性能とデータ選択効率を実現することが示された。
- 参考スコア(独自算出の注目度): 56.0725292404808
- License:
- Abstract: Instruction tuning, or supervised finetuning on extensive task-specific data, is necessary for Large Vision-Language Models (LVLMs) to generalize well across a broad range of vision-language (VL) tasks. However, training on large VL datasets can become prohibitively expensive. In this work, we introduce COINCIDE, an effective and scalable data selection technique that uses a small model as a reference model to select visual instruction tuning data for efficient finetuning of a target LVLM, focusing on diversity and transferability. Specifically, we cluster the training data using internal activations from a small model, which identifies VL concept-skill compositions needed by a target LVLM. We then sample data from these diverse clusters by considering their density and transferability, or the ability to transfer well to other concept-skill compositions. This approach ensures the diversity of these compositions, which is vital for LVLM generalization. Extensive experiments demonstrate that COINCIDE achieves superior performance and data selection efficiency against 8 strong baselines on two distinct datasets: LLaVA-1.5 and Vision-Flan. Using only 20% of the LLaVA-1.5 dataset, COINCIDE achieves performance comparable to the LVLM finetuned on the whole dataset, with 70% reduction of the wall-clock running time. On the Vision-Flan dataset, our method achieves superior results with only 16.7% of the training data.
- Abstract(参考訳): LVLM(Large Vision-Language Models)では、広範囲の視覚言語(VL)タスクをうまく一般化するために、広範囲なタスク固有データに対する教師付き微調整が必要である。
しかし、大規模なVLデータセットのトレーニングは違法に高価になる可能性がある。
本研究では,少人数のモデルを参照モデルとして用い,目的のLVLMを効率よく微調整するための視覚的インストラクション・チューニング・データを選択するための,効率よくスケーラブルなデータ選択手法であるCOINCIDEを紹介する。
具体的には、ターゲットLVLMに必要なVL概念スキル構成を識別する小型モデルからの内部アクティベーションを用いて、トレーニングデータをクラスタ化する。
次に、これらの多様なクラスタからのデータを、その密度と転送可能性、あるいは他のコンセプトスキルの構成要素にうまく転送できる能力を考慮してサンプリングする。
このアプローチは、LVLMの一般化に不可欠であるこれらの組成の多様性を保証する。
大規模な実験により、COINCIDEは2つの異なるデータセット(LLaVA-1.5とVision-Flan)で8つの強いベースラインに対して、優れたパフォーマンスとデータ選択効率を達成することが示された。
LLaVA-1.5データセットの20%しか使用していないため、COINCIDEは、全データセット上で微調整されたLVLMに匹敵するパフォーマンスを実現している。
Vision-Flanデータセットでは,トレーニングデータの16.7%に過ぎず,優れた結果が得られる。
関連論文リスト
- NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - C3L: Content Correlated Vision-Language Instruction Tuning Data Generation via Contrastive Learning [45.233150828317164]
コントラスト学習(C3L)によるコンテンツ関連VLITデータ生成を提案する。
具体的には、VLITデータと画像間のコンテンツ関連性を高める新しいコンテンツ関連モジュールを設計する。
LVLMのVLITデータ生成能力をさらに向上させるために、対照的な学習モジュールが導入された。
論文 参考訳(メタデータ) (2024-05-21T13:04:10Z) - Bridge the Modality and Capability Gaps in Vision-Language Model Selection [62.26769826687365]
視覚言語モデル(VLM)は、画像とテキストのカテゴリ名とのペアリングによるゼロショット画像分類において優れている。
VLMリソースをより再利用するために、VLM Zooから適切な事前学習VLMを選択するという有望な戦略が提案されている。
本稿では,この言語のみのVLM選択において,VLMの能力を評価する上での2つの課題について分析する。
本稿では,2つのギャップの負の影響を軽減するために,gApブリッジを用いたVLM選択を提案する。
論文 参考訳(メタデータ) (2024-03-20T17:54:58Z) - Less is More: High-value Data Selection for Visual Instruction Tuning [127.38740043393527]
本稿では,視覚的命令データの冗長性を排除し,トレーニングコストを削減するために,高価値なデータ選択手法TIVEを提案する。
約15%のデータしか使用していない我々のアプローチは、8つのベンチマークで全データ微調整モデルに匹敵する平均性能を実現することができる。
論文 参考訳(メタデータ) (2024-03-14T16:47:25Z) - Your Vision-Language Model Itself Is a Strong Filter: Towards
High-Quality Instruction Tuning with Data Selection [59.11430077029321]
視覚言語モデル(VLM)のための新しいデータセット選択手法であるSelf-Filterを導入する。
第1段階では、VLMと共同で学習する訓練指導の難しさを評価するためのスコアリングネットワークを考案する。
第2段階では、トレーニングされたスコアネットを使用して、各命令の難易度を測定し、最も難しいサンプルを選択し、類似したサンプルをペナルティ化し、多様性を促進する。
論文 参考訳(メタデータ) (2024-02-19T20:08:48Z) - ALLaVA: Harnessing GPT4V-Synthesized Data for Lite Vision-Language Models [45.040292339670096]
大規模視覚言語モデル(LVLM)は、その強力な推論と一般化能力を備えた幅広い視覚言語タスクの前提を示してきた。
本研究では,従来のLVLMとリソースフレンドリなライトバージョンのパフォーマンスギャップを,高品質なトレーニングデータを用いて橋渡しすることを目的とする。
論文 参考訳(メタデータ) (2024-02-18T19:26:49Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。