論文の概要: CoIDO: Efficient Data Selection for Visual Instruction Tuning via Coupled Importance-Diversity Optimization
- arxiv url: http://arxiv.org/abs/2510.17847v1
- Date: Sat, 11 Oct 2025 09:41:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-26 16:57:26.506246
- Title: CoIDO: Efficient Data Selection for Visual Instruction Tuning via Coupled Importance-Diversity Optimization
- Title(参考訳): CoIDO: 結合された重要性と多様性の最適化による視覚指導チューニングのための効率的なデータ選択
- Authors: Yichen Yan, Ming Zhong, Qi Zhu, Xiaoling Gu, Jinpeng Chen, Huan Li,
- Abstract要約: マルチモーダルな大規模言語モデルは、視覚と言語機能を調整するための命令チューニングに大きく依存している。
既存のデータ選択方法は重要かつ多様なサブセットを選択することを目的としているが、それらはしばしば2つの重大な欠点に悩まされる。
我々は,これらの課題を克服するために,データの重要度と多様性を共同で最適化する,新しいデュアルオブジェクトフレームワークであるCoIDOを紹介する。
- 参考スコア(独自算出の注目度): 14.304308878028358
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) rely heavily on instruction tuning to align vision and language capabilities, yet the computational cost of training on large-scale datasets remains a major bottleneck. Existing data selection methods aim to mitigate this by selecting important and diverse subsets, but they often suffer from two critical drawbacks: high computational overhead from processing the entire dataset and suboptimal data selection due to separate treatment of importance and diversity. We introduce CoIDO, a novel dual-objective framework that jointly optimizes data importance and diversity to overcome these challenges. Unlike existing approaches that require costly evaluations across the whole dataset, CoIDO employs a lightweight plug-in scorer. This scorer is trained on just a small random sample of data to learn the distribution of the candidate set, drastically reducing computational demands. By leveraging a homoscedastic uncertainty-based formulation, CoIDO effectively balances importance and diversity during training, enabling efficient and scalable data selection. In our experiments, we trained the CoIDO scorer using only 20 percent of randomly sampled data. Once trained, CoIDO was applied to the entire dataset to select a 20 percent subset for instruction tuning. On the widely used LLaVA-1.5-7B model across ten downstream tasks, this selected subset achieved an impressive 98.2 percent of the performance of full-data fine-tuning, on average.
- Abstract(参考訳): マルチモーダルな大規模言語モデル(MLLM)は、視覚と言語能力の整合性を確保するための命令チューニングに大きく依存しているが、大規模データセットでのトレーニングの計算コストは依然として大きなボトルネックである。
既存のデータ選択方法は、重要かつ多様なサブセットを選択することでこれを緩和することを目的としているが、データセット全体の処理による高い計算オーバーヘッドと、重要と多様性の別な扱いによる最適データ選択の2つの重大な欠点に悩まされることが多い。
我々は,これらの課題を克服するためにデータの重要度と多様性を共同で最適化する,新しいデュアルオブジェクトフレームワークであるCoIDOを紹介する。
データセット全体のコスト評価を必要とする既存のアプローチとは異なり、CoIDOは軽量なプラグインスコアラを採用している。
このスコアラは、少数のランダムなデータサンプルに基づいて、候補セットの分布を学習し、計算要求を大幅に削減する。
均等な不確実性に基づく定式化を活用することで、CoIDOはトレーニング中の重要度と多様性を効果的にバランスさせ、効率的でスケーラブルなデータ選択を可能にします。
実験では,ランダムサンプリングデータのわずか20%を用いて,CoIDOスコアラーを訓練した。
トレーニングが完了すると、データセット全体にCoIDOを適用して、インストラクションチューニングの20%のサブセットを選択した。
10の下流タスクで広く使われているLLaVA-1.5-7Bモデルでは、この選択されたサブセットは、データ全体の微調整性能の98.2%を平均して達成した。
関連論文リスト
- Data Whisperer: Efficient Data Selection for Task-Specific LLM Fine-Tuning via Few-Shot In-Context Learning [40.19639581728674]
タスク固有のデータに対する細調整された大規模言語モデル(LLM)は、その効果的なデプロイメントには不可欠である。
データウィスペラ (Data Whisperer) は,数発のインコンテクスト学習とモデルによる微調整を併用した,効率的でトレーニング不要なアテンションベースの手法である。
Data Whispererは、Llama-3-8B-インストラクトモデルの完全なGSM8Kデータセットよりも優れたパフォーマンスを実現し、データの10%しか使用せず、既存のメソッドよりも3.1ポイントの改善と7.4$times$スピードアップを実現している。
論文 参考訳(メタデータ) (2025-05-18T03:10:00Z) - Add-One-In: Incremental Sample Selection for Large Language Models via a Choice-Based Greedy Paradigm [50.492124556982674]
本稿では,新しい選択型サンプル選択フレームワークを提案する。
個々のサンプル品質の評価から、異なるサンプルのコントリビューション値の比較へと焦点をシフトする。
われわれのアプローチをより大きな医療データセットで検証し、現実の応用における実用性を強調した。
論文 参考訳(メタデータ) (2025-03-04T07:32:41Z) - Adapt-$\infty$: Scalable Continual Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、生涯のインストラクションチューニングのための、新しいマルチウェイおよびアダプティブなデータ選択アプローチである。
勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。
セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
このデータセレクタは、トレーニングのために各スキルクラスタから最も重要なサンプルのサブセットをサンプリングする。
論文 参考訳(メタデータ) (2024-10-14T15:48:09Z) - Diversify and Conquer: Diversity-Centric Data Selection with Iterative Refinement [8.509688686402438]
命令データ上での大規模言語モデルの微調整は、事前訓練された知識の強化と命令追従能力の向上に不可欠である。
この作業は問題に対処する: 効果的なトレーニングのために、データの最適なサブセットをどうやって決定できるのか?
提案手法では,k平均クラスタリングを用いて,選択したサブセットが全データセットを効果的に表現できるようにする。
論文 参考訳(メタデータ) (2024-09-17T17:25:31Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Self-Evolved Diverse Data Sampling for Efficient Instruction Tuning [47.02160072880698]
モデル自体が等しくあるいはそれ以上に効果的であるサブセットを積極的にサンプリングできる自己進化メカニズムを導入します。
データサンプリング技術の鍵は、選択したサブセットの多様性の向上にあります。
3つのデータセットとベンチマークにわたる大規模な実験は、DiverseEvolの有効性を示している。
論文 参考訳(メタデータ) (2023-11-14T14:10:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。