論文の概要: ICONS: Influence Consensus for Vision-Language Data Selection
- arxiv url: http://arxiv.org/abs/2501.00654v2
- Date: Mon, 06 Jan 2025 18:17:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 13:45:32.913534
- Title: ICONS: Influence Consensus for Vision-Language Data Selection
- Title(参考訳): ICONS:視覚・言語データ選択におけるコンセンサスの影響
- Authors: Xindi Wu, Mengzhou Xia, Rulin Shao, Zhiwei Deng, Pang Wei Koh, Olga Russakovsky,
- Abstract要約: 我々は、視覚言語データ選択のための勾配駆動型インフルエンス・コンセンサス・アプローチであるICONSを紹介する。
クロスタスク・インフルエンス・コンセンサス(英語版)は、複数のタスクで一貫して価値のあるサンプルを特定するために使用される。
実験により、選択したデータに基づいてトレーニングされたモデル(LLaVA-665Kの20%)が、完全なデータセットを使用して得られた相対的なパフォーマンスの98.6%を達成することが示された。
- 参考スコア(独自算出の注目度): 39.454024810266176
- License:
- Abstract: Visual Instruction Tuning typically requires a large amount of vision-language training data. This data often containing redundant information that increases computational costs without proportional performance gains. In this work, we introduce ICONS, a gradient-driven Influence CONsensus approach for vision-language data Selection that selects a compact training dataset for efficient multi-task training. The key element of our approach is cross-task influence consensus, which uses majority voting across task-specific influence matrices to identify samples that are consistently valuable across multiple tasks, allowing us to effectively prioritize data that optimizes for overall performance. Experiments show that models trained on our selected data (20% of LLaVA-665K) achieve 98.6% of the relative performance obtained using the full dataset. Additionally, we release this subset, LLaVA-ICONS-133K, a compact yet highly informative subset of LLaVA-665K visual instruction tuning data, preserving high impact training data for efficient vision-language model development.
- Abstract(参考訳): ビジュアルインストラクション チューニングは通常、大量の視覚言語トレーニングデータを必要とする。
このデータは、しばしば余分な情報を含み、比例的な性能向上を伴わずに計算コストを増大させる。
本稿では,視覚言語データ選択のための勾配駆動型インフルエンス・コンセンサス・アプローチであるICONSを紹介する。
これは、タスク固有の影響行列にまたがる多数投票を使用して、複数のタスクで一貫して価値のあるサンプルを特定し、全体的なパフォーマンスを最適化するデータを効果的に優先順位付けします。
実験により、選択したデータに基づいてトレーニングされたモデル(LLaVA-665Kの20%)が、完全なデータセットを使用して得られた相対的なパフォーマンスの98.6%を達成することが示された。
さらに、このサブセットであるLLaVA-ICONS-133Kをリリースし、LLaVA-665K視覚インストラクションチューニングデータのコンパクトかつ高情報なサブセットである。
関連論文リスト
- IterSelectTune: An Iterative Training Framework for Efficient Instruction-Tuning Data Selection [28.581257601441045]
高品質な命令データを選択するための効率的で費用対効果の高い反復的トレーニングポリシーである$textbfIterSelectTune$を紹介した。
ソースデータの約20%を微調整することで、本手法は、全データセット上で調整されたモデルよりも一貫して優れる。
論文 参考訳(メタデータ) (2024-10-17T11:48:57Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Concept-skill Transferability-based Data Selection for Large Vision-Language Models [56.0725292404808]
視覚言語モデルを学習するための効果的でスケーラブルなデータ選択手法であるCOINCIDEを紹介する。
我々は,目標LVLMに必要な概念スキル構成を識別する小型モデルからの内部アクティベーションを用いて,トレーニングデータをクラスタ化する。
実験により、COINCIDEは8つの強いベースラインに対して、優れた性能とデータ選択効率を実現することが示された。
論文 参考訳(メタデータ) (2024-06-16T16:15:20Z) - Less is More: High-value Data Selection for Visual Instruction Tuning [127.38740043393527]
本稿では,視覚的命令データの冗長性を排除し,トレーニングコストを削減するために,高価値なデータ選択手法TIVEを提案する。
約15%のデータしか使用していない我々のアプローチは、8つのベンチマークで全データ微調整モデルに匹敵する平均性能を実現することができる。
論文 参考訳(メタデータ) (2024-03-14T16:47:25Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。