論文の概要: VisNec: Measuring and Leveraging Visual Necessity for Multimodal Instruction Tuning
- arxiv url: http://arxiv.org/abs/2603.01195v1
- Date: Sun, 01 Mar 2026 17:26:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.561173
- Title: VisNec: Measuring and Leveraging Visual Necessity for Multimodal Instruction Tuning
- Title(参考訳): VisNec: マルチモーダルインストラクションチューニングのための視覚的ニーズの測定と活用
- Authors: Mingkang Dong, Hongyi Cai, Jie Li, Sifan Zhou, Bin Ren, Kunyu Peng, Yuqian Fu,
- Abstract要約: そこで本研究では,インストラクションチューニング時の視覚入力の限界寄与を計測する基本データ選択フレームワークを提案する。
VisNecは、予測損失と視覚的コンテキストとを比較して、トレーニングインスタンスが視覚的にクリティカルなのか、冗長なのか、あるいは不一致なのかを識別する。
VisNecが選択したLLaVA-665Kデータセットの15%しかトレーニングしていない10のベンチマークでは、完全なデータパフォーマンスの100.2%が達成されている。
- 参考スコア(独自算出の注目度): 33.115992843637564
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The effectiveness of multimodal instruction tuning depends not only on dataset scale, but critically on whether training samples genuinely require visual reasoning. However, existing instruction datasets often contain a substantial portion of visually redundant samples (solvable from text alone), as well as multimodally misaligned supervision that can degrade learning. To address this, we propose VisNec (Visual Necessity Score), a principled data selection framework that measures the marginal contribution of visual input during instruction tuning. By comparing predictive loss with and without visual context, VisNec identifies whether a training instance is vision-critical, redundant, or misaligned. To preserve task diversity, we combine VisNec with semantic clustering and select high-necessity samples within each cluster. Across 10 downstream benchmarks, training on only 15% of the LLaVA-665K dataset selected by VisNec achieves 100.2% of full-data performance. On the smaller Vision-Flan-186K dataset, our selection not only further reduces data size but also surpasses full-data training by 15.8%. These results demonstrate that measuring and leveraging visual necessity provides an effective solution for both efficient and robust multimodal instruction tuning. Codes and selected subsets will be released upon acceptance.
- Abstract(参考訳): マルチモーダル・インストラクション・チューニングの有効性は、データセットの規模だけでなく、トレーニングサンプルが真の視覚的推論を必要とするかどうかにも大きく依存する。
しかし、既存の命令データセットには、視覚的に冗長なサンプルのかなりの部分(テキストのみから解ける)と、学習を劣化させるマルチモーダルなミスアライメントの監督が含まれていることが多い。
そこで本研究では,インストラクションチューニング時の視覚入力の限界寄与を計測する原理的データ選択フレームワークであるVisNec(Visual Necessity Score)を提案する。
VisNecは、予測損失と視覚的コンテキストとを比較して、トレーニングインスタンスが視覚的にクリティカルなのか、冗長なのか、あるいは不一致なのかを識別する。
タスクの多様性を維持するため、VisNecをセマンティッククラスタリングと組み合わせ、各クラスタ内で必要性の高いサンプルを選択する。
10のダウンストリームベンチマークで、VisNecが選択したLLaVA-665Kデータセットの15%のトレーニングは、完全なデータパフォーマンスの100.2%を達成した。
より小さなVision-Flan-186Kデータセットでは、私たちの選択はデータサイズをさらに削減するだけでなく、フルデータトレーニングを15.8%上回る。
これらの結果から,視覚的必要量の測定と活用は,効率的なマルチモーダル命令チューニングとロバストなマルチモーダル命令チューニングの両方に有効なソリューションを提供することが示された。
コードと選択されたサブセットは、受理時にリリースされる。
関連論文リスト
- ScalSelect: Scalable Training-Free Multimodal Data Selection for Efficient Visual Instruction Tuning [18.989158560585675]
大規模データセットのトレーニングは、計算コストが高く、データの冗長性のために非効率である。
ScalSelectは、線形時間複雑性を持つ訓練不要なマルチモーダルデータ選択法である。
ScalSelectはデータセット全体のトレーニングパフォーマンスの97.5%以上を16%のデータで達成し、一部の設定ではフルデータトレーニングよりも優れています。
論文 参考訳(メタデータ) (2026-02-12T06:38:49Z) - CoIDO: Efficient Data Selection for Visual Instruction Tuning via Coupled Importance-Diversity Optimization [14.304308878028358]
マルチモーダルな大規模言語モデルは、視覚と言語機能を調整するための命令チューニングに大きく依存している。
既存のデータ選択方法は重要かつ多様なサブセットを選択することを目的としているが、それらはしばしば2つの重大な欠点に悩まされる。
我々は,これらの課題を克服するために,データの重要度と多様性を共同で最適化する,新しいデュアルオブジェクトフレームワークであるCoIDOを紹介する。
論文 参考訳(メタデータ) (2025-10-11T09:41:21Z) - $Δ$-AttnMask: Attention-Guided Masked Hidden States for Efficient Data Selection and Augmentation [1.9911692005669095]
視覚インストラクションファインタニング(VIF)は、訓練後の視覚言語モデル(VLM)において重要である
VIFはまた、共同で視覚とテキストの理解を可能にするためにマルチモーダルデータを必要とする。
$Delta$-AttnMaskは、モデルの隠れ状態の注意誘導マスキングを通じてサンプル品質を定量化する。
$Delta$-AttnMaskは20%のデータで最先端のパフォーマンスを実現し、トレーニングを5倍に加速し、全データセットベースラインを+10.1%の精度で上回っている。
論文 参考訳(メタデータ) (2025-08-08T13:25:30Z) - MLLM-Selector: Necessity and Diversity-driven High-Value Data Selection for Enhanced Visual Instruction Tuning [69.7347209018861]
視覚的インストラクションのチューニングに有用なデータを自動的に識別するMLLM-Selectorを提案する。
モデル性能を向上させるために,VITデータプールの各サンプルの必要なスコアを算出し,サンプルのピボットを同定する。
以上の結果から,データ選択における必要条件と多様性の混合の重要性が指摘され,MLLMセレクタの創出につながった。
論文 参考訳(メタデータ) (2025-03-26T12:42:37Z) - Add-One-In: Incremental Sample Selection for Large Language Models via a Choice-Based Greedy Paradigm [50.492124556982674]
本稿では,新しい選択型サンプル選択フレームワークを提案する。
個々のサンプル品質の評価から、異なるサンプルのコントリビューション値の比較へと焦点をシフトする。
われわれのアプローチをより大きな医療データセットで検証し、現実の応用における実用性を強調した。
論文 参考訳(メタデータ) (2025-03-04T07:32:41Z) - Mastering Collaborative Multi-modal Data Selection: A Focus on Informativeness, Uniqueness, and Representativeness [63.484378941471114]
我々は、効果的なデータ選択のために、インフォーマル性、ユニーク性、代表性という3つの重要な原則を活用するコラボレーティブフレームワーク、DataTailorを提案する。
様々なベンチマークの実験により、DataTailorはデータの15%でフルデータの微調整のパフォーマンスの101.3%を達成している。
論文 参考訳(メタデータ) (2024-12-09T08:36:10Z) - Adapt-$\infty$: Scalable Continual Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、生涯のインストラクションチューニングのための、新しいマルチウェイおよびアダプティブなデータ選択アプローチである。
勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。
セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
このデータセレクタは、トレーニングのために各スキルクラスタから最も重要なサンプルのサブセットをサンプリングする。
論文 参考訳(メタデータ) (2024-10-14T15:48:09Z) - Concept-skill Transferability-based Data Selection for Large Vision-Language Models [56.0725292404808]
視覚言語モデルを学習するための効果的でスケーラブルなデータ選択手法であるCOINCIDEを紹介する。
我々は,目標LVLMに必要な概念スキル構成を識別する小型モデルからの内部アクティベーションを用いて,トレーニングデータをクラスタ化する。
実験により、COINCIDEは8つの強いベースラインに対して、優れた性能とデータ選択効率を実現することが示された。
論文 参考訳(メタデータ) (2024-06-16T16:15:20Z) - Less is More: High-value Data Selection for Visual Instruction Tuning [127.38740043393527]
本稿では,視覚的命令データの冗長性を排除し,トレーニングコストを削減するために,高価値なデータ選択手法TIVEを提案する。
約15%のデータしか使用していない我々のアプローチは、8つのベンチマークで全データ微調整モデルに匹敵する平均性能を実現することができる。
論文 参考訳(メタデータ) (2024-03-14T16:47:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。