論文の概要: Skill-Targeted Adaptive Training
- arxiv url: http://arxiv.org/abs/2510.10023v1
- Date: Sat, 11 Oct 2025 05:02:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.741267
- Title: Skill-Targeted Adaptive Training
- Title(参考訳): スキルを目標とした適応トレーニング
- Authors: Yinghui He, Abhishek Panigrahi, Yong Lin, Sanjeev Arora,
- Abstract要約: 言語モデルは、バニラ教師付き微調整(SFT)によって訓練された場合、ほとんど改善されないことが多い。
そこで我々は,より強力な大規模言語モデル(LLM)を教師としてメタ認知能力を用いて,そのような学生モデルを訓練するための新たな微調整戦略STATを導入する。
スキル目標の適応トレーニングは、現在のトレーニングパイプラインを広範囲に改善するべきである、と結論付けている。
- 参考スコア(独自算出の注目度): 41.45381386816323
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models often show little to no improvement (i.e., "saturation") when trained via vanilla supervised fine-tuning (SFT) on data similar to what they saw in their training set (e.g., MATH). We introduce a new fine-tuning strategy, STAT, to train such a student model by using the metacognition ability of a stronger large language model (LLM) as the teacher. The teacher uses the task dataset to create a list of skills needed for the task, and then labels each data point with its required skills (Didolkar et al., 2024). By monitoring the student's answers, the teacher creates a Missing-Skill-Profile for the student, tracking how often they failed to apply each skill in their responses. We use this idea to build a modified training set in one of two ways. In STAT-Sel, the teacher uses an existing set of training examples but adaptively reweights them according to the Missing-Skill-Profile. In STAT-Syn, the teacher synthesizes additional examples involving missing skills. Across extensive experiments on Llama and Qwen models, our methods yield improvements of up to 7.5% on MATH, whereas SFT provides only limited gains. Furthermore, STAT enhances performance on out-of-distribution benchmarks (e.g., AIME24/25, AMC23, etc.) by an average of 4.6%. Crucially, we find that STAT is complementary to RL via GRPO (Shao et al., 2024): after the model is improved using STAT to address skill gaps, GRPO continues to add further gains. We conclude that skill-targeted adaptive training should broadly improve current training pipelines. Our code is available at: https://github.com/princeton-pli/STAT.
- Abstract(参考訳): 言語モデルは、訓練セット(例えばMATH)で見られるものに似たデータに基づいて、バニラ監督による微調整(SFT)によって訓練された場合、ほとんど改善されない(つまり「飽和」)。
そこで我々は,より強力な大規模言語モデル(LLM)を教師としてメタ認知能力を用いて,そのような学生モデルを訓練するための新たな微調整戦略STATを導入する。
教師はタスクデータセットを使用してタスクに必要なスキルのリストを作成し、各データポイントに必要なスキルをラベル付けする(Didolkar et al , 2024)。
生徒の回答を監視して、教師は学生のためのミス・スキル・プロファイルを作成し、各スキルがどの頻度で反応しなかったかを追跡する。
このアイデアを使って、2つの方法で修正されたトレーニングセットを構築します。
STAT-Selでは、教師は既存のトレーニング例を使用するが、Missing-Skill-Profileに従って適応的にリウェイトする。
STAT-Synでは、教師は不足するスキルに関する追加の例を合成する。
Llama モデルと Qwen モデルに関する広範な実験では,MATH では最大7.5%の改善が得られたが,SFT では限られた利得しか得られなかった。
さらにSTATは、配布外ベンチマーク(例えば、AIME24/25、AMC23など)の性能を平均4.6%向上させる。
重要なことに,STAT は GRPO (Shao et al , 2024) を介して RL に相補的である。
スキル目標の適応トレーニングは、現在のトレーニングパイプラインを広範囲に改善するべきである、と結論付けている。
私たちのコードは、https://github.com/princeton-pli/STAT.comで利用可能です。
関連論文リスト
- Learning on the Job: Test-Time Curricula for Targeted Reinforcement Learning [51.34470146576741]
本稿では,タスク固有のカリキュラムを組み立て,強化学習を適用して目標タスクのモデルのトレーニングを継続するエージェントを提案する。
テストタイムカリキュラムは、タスク関連データを自動的に選択することで、データセットの時間を要する人によるキュレーションを避ける。
実験により,テストタイムのカリキュラム上での強化学習は,目標タスクにおけるモデルの改善を継続的に行うことを示した。
論文 参考訳(メタデータ) (2025-10-06T13:07:14Z) - Understanding the Role of Training Data in Test-Time Scaling [56.12341509545198]
線形回帰のための文脈内重み予測タスクを訓練した変圧器の試験時間スケーリング性能について検討した。
多様な、関連性があり、難しいタスクセットでのトレーニングが、テスト時間のスケーリングに最高のパフォーマンスをもたらすことを示す。
論文 参考訳(メタデータ) (2025-10-04T01:38:48Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Make Prompts Adaptable: Bayesian Modeling for Vision-Language Prompt
Learning with Data-Dependent Prior [14.232144691524528]
最近のVision-Language Pretrainedモデルは、多くの下流タスクのバックボーンとなっている。
MLEトレーニングは、トレーニングデータにおいて、コンテキストベクトルを過度に適合する画像特徴に導くことができる。
本稿では,素早い学習のためのベイズ的枠組みを提案する。
論文 参考訳(メタデータ) (2024-01-09T10:15:59Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - Instruction Tuned Models are Quick Learners [20.771930945083994]
そこで本研究では,各種タスクにおける指導調律モデルのサンプル効率について述べる。
STL設定では、下流列車データの25%を備えた指導調律モデルが下流タスクのSOTA性能を上回っている。
MTL設定では、下流のトレーニングデータの6%しか訓練されていない指導調律モデルがSOTAを達成する一方で、100%のトレーニングデータを使用することで3.69%の改善が達成される。
論文 参考訳(メタデータ) (2023-05-17T22:30:01Z) - INGENIOUS: Using Informative Data Subsets for Efficient Pre-Training of
Language Models [40.54353850357839]
トレーニングコーパスの高度に代表的なサブセットを選択するために、サブモジュラー最適化を利用する方法を示す。
その結果,完全学習モデルの性能の最大$sim99%が得られた。
論文 参考訳(メタデータ) (2023-05-11T09:24:41Z) - Task-Specific Skill Localization in Fine-tuned Language Models [36.53572616441048]
本稿では,この問題に対するスキルローカライゼーションという用語を紹介する。
単純な最適化は、非常に小さなパラメータのサブセットを特定するために使われる。
この小さなサブセットの微調整された値を事前訓練されたモデルに移植することで、微調整されたモデルとほぼ同等のパフォーマンスが得られる。
論文 参考訳(メタデータ) (2023-02-13T18:55:52Z) - Training Dynamics for Curriculum Learning: A Study on Monolingual and
Cross-lingual NLU [19.42920238320109]
カリキュラム学習(Curriculum Learning, CL)は、典型的に増加する困難傾向の中で、ランキングの例を通してモデルを訓練する技法である。
本研究では,学習力学を難易度指標として活用することにより,自然言語理解(NLU)タスクにCLを用いる。
実験によると、トレーニングのダイナミクスは、他の難しいメトリクスと比較して、スムーズなトレーニングでより良いパフォーマンスのモデルをもたらす可能性がある。
論文 参考訳(メタデータ) (2022-10-22T17:10:04Z) - Learning to be a Statistician: Learned Estimator for Number of Distinct
Values [54.629042119819744]
列内の異なる値の数(NDV)を推定することは、データベースシステムにおける多くのタスクに有用である。
本研究では、ランダム(オンライン/オフライン)サンプルから正確なNDV推定を導出する方法に焦点を当てる。
教師付き学習フレームワークにおいて,NDV推定タスクを定式化し,モデルを推定対象として学習することを提案する。
論文 参考訳(メタデータ) (2022-02-06T15:42:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。