論文の概要: DataProphet: Demystifying Supervision Data Generalization in Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2603.19688v1
- Date: Fri, 20 Mar 2026 06:42:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 19:48:39.03184
- Title: DataProphet: Demystifying Supervision Data Generalization in Multimodal LLMs
- Title(参考訳): DataProphet:マルチモーダルLLMにおけるスーパービジョンデータ一般化のデミスティフィケーション
- Authors: Xuan Qi, Luxi He, Dan Roth, Xingyu Fu,
- Abstract要約: トレーニングデータセットが目標ベンチマークに与える影響を,トレーニングが実行される前に見積もることができるか?
この結果から,直感的タスク類似性は伝達可能性の信頼できない予測因子であり,一般化はタスクカテゴリよりも特定のデータセットに依存していることがわかった。
そこで本研究では,マルチモーダルなパープレクティリティ,類似性,データ多様性を組み合わせたトレーニング不要な指標であるDatePROPHETを提案する。
- 参考スコア(独自算出の注目度): 49.877224470539126
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conventional wisdom for selecting supervision data for multimodal large language models (MLLMs) is to prioritize datasets that appear similar to the target benchmark, such as text-intensive or vision-centric tasks. However, it remains unclear whether such intuitive similarity reliably predicts downstream performance gains. In this work, we take a first step toward answering a practical question: can we estimate the influence of a training dataset on a target benchmark before any training is performed? To investigate this question, we conduct an in-depth analysis of transfer across 14 vision-language datasets spanning 7 diverse tasks. Our results show that intuitive task similarity is an unreliable predictor of transferability, and that generalization depends more on the specific dataset than on its broad task category. Motivated by this finding, we propose DATAPROPHET, a simple and effective training-free metric that combines multimodal perplexity, similarity, and data diversity. Experiments show that DATAPROPHET produces supervision-data rankings that strongly correlate with rankings based on actual post-training performance gains, achieving a Kendall's tau of 86.0%. Moreover, DATAPROPHET enables better supervision-data selection, yielding up to 6.9% improvement over uniform selection, 1.4% over a state-of-the-art training-based baseline, and 0.2% above oracle selection based on experimental performance. Our code and data will be released.
- Abstract(参考訳): 従来のMLLM(Multimodal large language model)の監視データ選択の知恵は、テキスト集約やビジョン中心のタスクなど、ターゲットのベンチマークに類似したデータセットを優先することである。
しかし、このような直感的な類似性が下流のパフォーマンス向上を確実に予測するかどうかは不明である。
トレーニングデータセットが目標ベンチマークに与える影響を,トレーニングが実行される前に見積もることができるか?
そこで本研究では,7つのタスクにまたがる14の視覚言語データセット間の移動を詳細に分析する。
この結果から,直感的タスク類似性は伝達可能性の信頼できない予測因子であり,一般化はタスクカテゴリよりも特定のデータセットに依存していることが示唆された。
そこで本研究では,マルチモーダルなパープレクティリティ,類似性,データ多様性を組み合わせた,シンプルで効果的なトレーニング不要な指標であるDatePROPHETを提案する。
実験により、DATAPROPHETは、実際のトレーニング後のパフォーマンス向上に基づいて、ランキングと強く相関する監督データランキングを生成し、86.0%のケンドールのタウを達成している。
さらに、DATAPROPHETは、一様選択よりも最大6.9%、最先端のトレーニングベースのベースラインより1.4%、実験的なパフォーマンスに基づくオラクル選択より0.2%も高い監視データ選択を可能にする。
コードとデータは公開されます。
関連論文リスト
- Improving Influence-based Instruction Tuning Data Selection for Balanced Learning of Diverse Capabilities [15.92881751491451]
影響に基づく手法は,(1)モデルの予測に対する各トレーニング例の貢献を推定することで,(1)達成の約束を示すが,(2)に苦慮することが多い。
系統的な調査により、この過小評価は、特定のタスクが本質的に他のタスクよりも大きな影響を持つ固有のバイアスに起因することが判明した。
その結果、データ選択は、しばしばこれらのタスクに偏りがあり、モデルの性能を害するだけでなく、非意図的に、これらの高影響タスク自体のパフォーマンスを損なう。
論文 参考訳(メタデータ) (2025-01-21T14:00:43Z) - ICONS: Influence Consensus for Vision-Language Data Selection [39.454024810266176]
命令による視覚言語モデルの訓練は、多種多様なタスクとドメインにまたがる大量のデータに依存していることが多い。
既存のメソッドは通常、データの重要性を推定したり、単独でタスクを最適化することに集中するためにタスクに依存します。
我々は、視覚言語データ選択のための勾配に基づくインフルエンス・コンセンサス・アプローチであるICONSを紹介する。
論文 参考訳(メタデータ) (2024-12-31T21:33:38Z) - Mastering Collaborative Multi-modal Data Selection: A Focus on Informativeness, Uniqueness, and Representativeness [63.484378941471114]
我々は、効果的なデータ選択のために、インフォーマル性、ユニーク性、代表性という3つの重要な原則を活用するコラボレーティブフレームワーク、DataTailorを提案する。
様々なベンチマークの実験により、DataTailorはデータの15%でフルデータの微調整のパフォーマンスの101.3%を達成している。
論文 参考訳(メタデータ) (2024-12-09T08:36:10Z) - Concept-skill Transferability-based Data Selection for Large Vision-Language Models [56.0725292404808]
視覚言語モデルを学習するための効果的でスケーラブルなデータ選択手法であるCOINCIDEを紹介する。
我々は,目標LVLMに必要な概念スキル構成を識別する小型モデルからの内部アクティベーションを用いて,トレーニングデータをクラスタ化する。
実験により、COINCIDEは8つの強いベースラインに対して、優れた性能とデータ選択効率を実現することが示された。
論文 参考訳(メタデータ) (2024-06-16T16:15:20Z) - Less is More: High-value Data Selection for Visual Instruction Tuning [127.38740043393527]
本稿では,視覚的命令データの冗長性を排除し,トレーニングコストを削減するために,高価値なデータ選択手法TIVEを提案する。
約15%のデータしか使用していない我々のアプローチは、8つのベンチマークで全データ微調整モデルに匹敵する平均性能を実現することができる。
論文 参考訳(メタデータ) (2024-03-14T16:47:25Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。