論文の概要: ScalSelect: Scalable Training-Free Multimodal Data Selection for Efficient Visual Instruction Tuning
- arxiv url: http://arxiv.org/abs/2602.11636v1
- Date: Thu, 12 Feb 2026 06:38:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.679511
- Title: ScalSelect: Scalable Training-Free Multimodal Data Selection for Efficient Visual Instruction Tuning
- Title(参考訳): ScalSelect: 効率的なビジュアルインストラクションチューニングのためのスケーラブルなトレーニングフリーマルチモーダルデータ選択
- Authors: Changti Wu, Jiahuai Mao, Yuzhuo Miao, Shijie Lian, Bin Yu, Xiaopeng Lin, Cong Huang, Lei Zhang, Kai Chen,
- Abstract要約: 大規模データセットのトレーニングは、計算コストが高く、データの冗長性のために非効率である。
ScalSelectは、線形時間複雑性を持つ訓練不要なマルチモーダルデータ選択法である。
ScalSelectはデータセット全体のトレーニングパフォーマンスの97.5%以上を16%のデータで達成し、一部の設定ではフルデータトレーニングよりも優れています。
- 参考スコア(独自算出の注目度): 18.989158560585675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale Visual Instruction Tuning (VIT) has become a key paradigm for advancing the performance of vision-language models (VLMs) across various multimodal tasks. However, training on the large-scale datasets is computationally expensive and inefficient due to redundancy in the data, which motivates the need for multimodal data selection to improve training efficiency. Existing data selection methods for VIT either require costly training or gradient computation. Training-free alternatives often depend on proxy models or datasets, instruction-agnostic representations, and pairwise similarity with quadratic complexity, limiting scalability and representation fidelity. In this work, we propose ScalSelect, a scalable training-free multimodal data selection method with linear-time complexity with respect to the number of samples, eliminating the need for external models or auxiliary datasets. ScalSelect first constructs sample representations by extracting visual features most attended by instruction tokens in the target VLM, capturing instruction-relevant information. It then identifies samples whose representations best approximate the dominant subspace of the full dataset representations, enabling scalable importance scoring without pairwise comparisons. Extensive experiments across multiple VLMs, datasets, and selection budgets demonstrate that ScalSelect achieves over 97.5% of the performance of training on the full dataset using only 16% of the data, and even outperforms full-data training in some settings. The code is available at \href{https://github.com/ChangtiWu/ScalSelect}{ScalSelect}.
- Abstract(参考訳): 大規模視覚インストラクションチューニング(VIT)は、視覚言語モデル(VLM)の性能を様々なマルチモーダルタスクで向上させる重要なパラダイムとなっている。
しかし、大規模データセットのトレーニングは、データの冗長性のために計算コストが高く、非効率であり、トレーニング効率を向上させるためにマルチモーダルデータ選択の必要性を動機付けている。
既存のVITのデータ選択方法は、高価なトレーニングや勾配計算を必要とする。
トレーニングフリーの代替案は、しばしばプロキシモデルやデータセット、命令に依存しない表現、および2次複雑性とペアワイズな類似性、スケーラビリティの制限、表現の忠実さに依存する。
本研究では,ScalSelectを提案する。ScalSelectは,外部モデルや補助データセットの必要性をなくし,サンプル数に対する線形時間複雑度を持つスケーラブルなトレーニングフリーマルチモーダルデータ選択手法である。
ScalSelectはまず、ターゲットのVLMの命令トークンに最も近づいた視覚的特徴を抽出し、命令関連情報をキャプチャすることで、サンプル表現を構築する。
次に、全データセットの表現が支配的な部分空間を最もよく近似したサンプルを特定し、ペア比較なしでスケーラブルな重要度スコアリングを可能にする。
複数のVLM、データセット、選択予算にわたる大規模な実験は、ScalSelectがデータセット全体のトレーニングパフォーマンスの97.5%以上を、わずか16%のデータで達成し、一部の設定ではフルデータトレーニングよりも優れていることを示している。
コードは \href{https://github.com/ChangtiWu/ScalSelect}{ScalSelect} で公開されている。
関連論文リスト
- Adapt-$\infty$: Scalable Continual Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、生涯のインストラクションチューニングのための、新しいマルチウェイおよびアダプティブなデータ選択アプローチである。
勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。
セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
このデータセレクタは、トレーニングのために各スキルクラスタから最も重要なサンプルのサブセットをサンプリングする。
論文 参考訳(メタデータ) (2024-10-14T15:48:09Z) - Less is More: High-value Data Selection for Visual Instruction Tuning [127.38740043393527]
本稿では,視覚的命令データの冗長性を排除し,トレーニングコストを削減するために,高価値なデータ選択手法TIVEを提案する。
約15%のデータしか使用していない我々のアプローチは、8つのベンチマークで全データ微調整モデルに匹敵する平均性能を実現することができる。
論文 参考訳(メタデータ) (2024-03-14T16:47:25Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。