論文の概要: ICONS: Influence Consensus for Vision-Language Data Selection
- arxiv url: http://arxiv.org/abs/2501.00654v3
- Date: Tue, 10 Jun 2025 18:19:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-12 23:41:16.60441
- Title: ICONS: Influence Consensus for Vision-Language Data Selection
- Title(参考訳): ICONS:視覚・言語データ選択におけるコンセンサスの影響
- Authors: Xindi Wu, Mengzhou Xia, Rulin Shao, Zhiwei Deng, Pang Wei Koh, Olga Russakovsky,
- Abstract要約: 命令による視覚言語モデルの訓練は、多種多様なタスクとドメインにまたがる大量のデータに依存していることが多い。
既存のメソッドは通常、データの重要性を推定したり、単独でタスクを最適化することに集中するためにタスクに依存します。
我々は、視覚言語データ選択のための勾配に基づくインフルエンス・コンセンサス・アプローチであるICONSを紹介する。
- 参考スコア(独自算出の注目度): 39.454024810266176
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training vision-language models via instruction tuning often relies on large mixtures of data spanning diverse tasks and domains. However, these mixtures frequently include redundant information, increasing computational costs without proportional performance gains, necessitating more effective data selection strategies. Existing methods typically rely on task-agnostic heuristics to estimate data importance or focus on optimizing single tasks in isolation, limiting their effectiveness in multitask settings. In this work, we introduce ICONS, a gradient-based Influence CONsensus approach for vision-language data Selection. Our method leverages first-order training dynamics to estimate the influence of individual training examples on validation performance and aggregates these estimates across tasks via majority voting over task-specific influences. This cross-task consensus identifies data points that are consistently valuable across tasks, enabling us to prioritize examples that drive overall performance. The voting-based design further mitigates issues such as score calibration and outlier sensitivity, resulting in robust and scalable data selection for diverse multitask mixtures. With only 20% of the data from LLaVA-665K and Cambrian-7M, our selected subsets retain 98.6% and 98.8% of the performance achieved with full datasets, and can even surpass full data training at a 60% selection ratio on LLaVA-665K. Our approach also generalizes to unseen tasks and architectures, demonstrating strong transfer. We release two compact, high-utility subsets, LLaVA-ICONS-133K and Cambrian-ICONS-1.4M, preserving impactful training examples for efficient and scalable vision-language model development.
- Abstract(参考訳): インストラクションチューニングによる視覚言語モデルのトレーニングは、様々なタスクやドメインにまたがる大量のデータに依存していることが多い。
しかし、これらの混合にはしばしば冗長な情報が含まれ、比例的な性能向上なしに計算コストを増大させ、より効果的なデータ選択戦略を必要とする。
既存の手法は通常、タスクに依存しないヒューリスティックに頼り、データの重要度を推定したり、単一タスクを個別に最適化することに集中し、マルチタスク環境での有効性を制限する。
本稿では、視覚言語データ選択のための勾配に基づくインフルエンス・コンセンサス・アプローチであるICONSを紹介する。
本手法は1次学習力学を利用して,個別の学習例が評価性能に与える影響を推定し,タスク固有の影響に対する多数決によってこれらの推定値を集約する。
このクロスタスクのコンセンサスは、タスク間で一貫して価値のあるデータポイントを特定します。
投票ベースの設計は、スコアキャリブレーションや外れ値感度といった問題を緩和し、多様なマルチタスクの混合に対して堅牢でスケーラブルなデータ選択をもたらす。
LLaVA-665KとCambrian-7Mのデータのうち、全データセットで達成されたパフォーマンスの98.6%と98.8%を保持しており、LLaVA-665Kの60%の選択比で完全なデータトレーニングを上回ることができる。
当社のアプローチは、見えないタスクやアーキテクチャにも一般化され、強い伝達を示す。
我々は、LLaVA-ICONS-133KとCambrian-ICONS-1.4Mの2つのコンパクトで高ユーティリティなサブセットをリリースし、効率的でスケーラブルな視覚言語モデル開発のためのインパクトのあるトレーニング例を保存する。
関連論文リスト
- Mastering Collaborative Multi-modal Data Selection: A Focus on Informativeness, Uniqueness, and Representativeness [65.01625761120924]
我々は、貴重なサンプルはタスクを知らせ、非冗長であり、サンプル分布(つまり、外れ値ではない)を表すべきであると論じる。
我々は、効果的なデータ選択のために、インフォーマル性、ユニーク性、代表性という3つの重要な原則を活用するコラボレーティブフレームワーク、DataTailorを提案する。
様々なベンチマークの実験により、DataTailorはデータの15%でフルデータの微調整のパフォーマンスの100.8%を達成している。
論文 参考訳(メタデータ) (2024-12-09T08:36:10Z) - IterSelectTune: An Iterative Training Framework for Efficient Instruction-Tuning Data Selection [28.581257601441045]
高品質な命令データを選択するための効率的で費用対効果の高い反復的トレーニングポリシーである$textbfIterSelectTune$を紹介した。
ソースデータの約20%を微調整することで、本手法は、全データセット上で調整されたモデルよりも一貫して優れる。
論文 参考訳(メタデータ) (2024-10-17T11:48:57Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Concept-skill Transferability-based Data Selection for Large Vision-Language Models [56.0725292404808]
視覚言語モデルを学習するための効果的でスケーラブルなデータ選択手法であるCOINCIDEを紹介する。
我々は,目標LVLMに必要な概念スキル構成を識別する小型モデルからの内部アクティベーションを用いて,トレーニングデータをクラスタ化する。
実験により、COINCIDEは8つの強いベースラインに対して、優れた性能とデータ選択効率を実現することが示された。
論文 参考訳(メタデータ) (2024-06-16T16:15:20Z) - Less is More: High-value Data Selection for Visual Instruction Tuning [127.38740043393527]
本稿では,視覚的命令データの冗長性を排除し,トレーニングコストを削減するために,高価値なデータ選択手法TIVEを提案する。
約15%のデータしか使用していない我々のアプローチは、8つのベンチマークで全データ微調整モデルに匹敵する平均性能を実現することができる。
論文 参考訳(メタデータ) (2024-03-14T16:47:25Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。