論文の概要: Uncovering Intrinsic Capabilities: A Paradigm for Data Curation in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2510.00040v1
- Date: Sat, 27 Sep 2025 02:57:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.126953
- Title: Uncovering Intrinsic Capabilities: A Paradigm for Data Curation in Vision-Language Models
- Title(参考訳): 内在能力の解明:ビジョン言語モデルにおけるデータキュレーションのパラダイム
- Authors: Junjie Li, Ziao Wang, Jianghong Ma, Xiaofeng Zhang,
- Abstract要約: 本稿では,タスク固有のキュレーションから本質的な能力分析へ移行するフレームワークであるCapability-Attributed Data Curation(CADC)を紹介する。
CADCは、勾配に基づく学習軌跡から教師なしの方法で本質的な能力を発見する。
オリジナルのデータの5%に過ぎず、CADCはマルチモーダルベンチマークでのフルデータトレーニングを超越している。
- 参考スコア(独自算出の注目度): 26.897329298659717
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large vision-language models (VLMs) achieve strong benchmark performance, but controlling their behavior through instruction tuning remains difficult. Reducing the budget of instruction tuning dataset often causes regressions, as heuristic strategies treat models as black boxes and overlook the latent capabilities that govern learning. We introduce Capability-Attributed Data Curation (CADC), a framework that shifts curation from task-specific heuristics to intrinsic capability analysis. CADC discovers intrinsic capabilities in an unsupervised manner from gradient-based learning trajectories, attributes training data to these capabilities via influence estimation, and curates capability-aware curricula through balanced selection and staged sequencing. This transforms black-box instruction tuning into a controllable, capability-driven process. With as little as 5% of the original data, CADC surpasses full-data training on multimodal benchmarks. These results validate intrinsic capabilities as the fundamental building blocks of model learning and establish CADC as a principle paradigm for instruction data curation.
- Abstract(参考訳): 大規模視覚言語モデル(VLM)は、強力なベンチマーク性能を実現するが、命令チューニングによる動作制御は依然として困難である。
トレーニングチューニングデータセットの予算の削減は、モデルをブラックボックスとして扱うヒューリスティック戦略や、学習を支配する潜在能力を見落としているため、しばしばレグレッションを引き起こす。
本稿では、タスク固有のヒューリスティックスから本質的な能力分析へキュレーションをシフトするフレームワークであるCapability-Attributed Data Curation(CADC)を紹介する。
CADCは、勾配に基づく学習軌跡から教師なしの方法で本質的な能力を発見し、インフルエンス推定を通じてこれらの能力に対するトレーニングデータを属性化し、バランスの取れた選択と段階的なシーケンシングを通じて能力認識カリキュラムをキュレートする。
これによりブラックボックスの命令チューニングが制御可能で能力駆動のプロセスに変換される。
オリジナルのデータの5%に過ぎず、CADCはマルチモーダルベンチマークでのフルデータトレーニングを超越している。
これらの結果は、モデル学習の基本的な構成要素としての本質的な能力を評価し、教示データキュレーションの原則パラダイムとしてCADCを確立する。
関連論文リスト
- Learning What Matters: Prioritized Concept Learning via Relative Error-driven Sample Selection [38.35524024887503]
Prioritized cOncept learninG by Relative Error-driven Sample Selection (PROGRESS)を提案する。
PROGRESSはデータと計算効率のよいフレームワークで、視覚言語モデルで次に何を学習するかを動的に選択できる。
PROGRESSは、データや監督をはるかに少なくして、最先端のベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2025-06-01T17:05:35Z) - What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Explanatory Model Monitoring to Understand the Effects of Feature Shifts on Performance [61.06245197347139]
そこで本研究では,機能シフトによるブラックボックスモデルの振る舞いを説明する新しい手法を提案する。
本稿では,最適輸送と共有値の概念を組み合わせた提案手法について,説明的性能推定として紹介する。
論文 参考訳(メタデータ) (2024-08-24T18:28:19Z) - In2Core: Leveraging Influence Functions for Coreset Selection in Instruction Finetuning of Large Language Models [37.45103473809928]
In2Coreアルゴリズムは,トレーニングモデルと評価サンプルの相関関係を解析し,コアセットを選択する。
LLMの微調整データにアルゴリズムを適用することで、トレーニングデータの50%で同様の性能を実現することができる。
論文 参考訳(メタデータ) (2024-08-07T05:48:05Z) - Transformer-based Causal Language Models Perform Clustering [20.430255724239448]
簡単な指示追従タスクを導入し、合成データセットを用いてトランスフォーマーに基づく因果言語モデルを分析する。
本研究は,本モデルが隠れ空間内のデータをクラスタリングすることで,タスク固有の情報を学習し,学習中にこのクラスタリングプロセスが動的に進化することを示唆している。
論文 参考訳(メタデータ) (2024-02-19T14:02:31Z) - CUDC: A Curiosity-Driven Unsupervised Data Collection Method with
Adaptive Temporal Distances for Offline Reinforcement Learning [62.58375643251612]
本稿では,Curiosity-driven Unsupervised Data Collection (CUDC)法を提案する。
この適応的な到達性機構により、特徴表現は多様化することができ、エージェントは、好奇心で高品質なデータを集めるために自分自身をナビゲートすることができる。
実験的に、CUDCはDeepMindコントロールスイートの様々なダウンストリームオフラインRLタスクにおいて、既存の教師なし手法よりも効率と学習性能が優れている。
論文 参考訳(メタデータ) (2023-12-19T14:26:23Z) - Feeding What You Need by Understanding What You Learned [54.400455868448695]
Machine Reading (MRC)は、与えられたテキストパスを理解し、それに基づいて質問に答える機能を明らかにする。
MRCの既存の研究は、Exact Matchのようなメトリクスによって評価されたパフォーマンスを改善するために、大規模なモデルとコーパスに大きく依存している。
モデル機能とデータ特性の深い理解は、適切なトレーニングデータでモデルをフィードするのに役立ちます。
論文 参考訳(メタデータ) (2022-03-05T14:15:59Z) - How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。
データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。
フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文 参考訳(メタデータ) (2020-05-25T12:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。