論文の概要: Skill-Aware Data Selection and Fine-Tuning for Data-Efficient Reasoning Distillation
- arxiv url: http://arxiv.org/abs/2601.10109v1
- Date: Thu, 15 Jan 2026 06:31:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.01715
- Title: Skill-Aware Data Selection and Fine-Tuning for Data-Efficient Reasoning Distillation
- Title(参考訳): データ効率の良い推論蒸留のためのスキル・アウェアなデータ選択と微調整
- Authors: Lechen Zhang, Yunxiang Zhang, Wei Hu, Lu Wang,
- Abstract要約: 弱いモデルに推論能力を効率的に伝達する技術中心蒸留フレームワークを提案する。
本手法は, 5つの数学的推論ベンチマークにおいて, Qwen3-4B で +1.6%, Qwen3-8B で +1.4% のランダム SFT ベースラインを超える。
- 参考スコア(独自算出の注目度): 17.806014052746768
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large reasoning models such as DeepSeek-R1 and their distilled variants achieve strong performance on complex reasoning tasks. Yet, distilling these models often demands large-scale data for supervised fine-tuning (SFT), motivating the pursuit of data-efficient training methods. To address this, we propose a skill-centric distillation framework that efficiently transfers reasoning ability to weaker models with two components: (1) Skill-based data selection, which prioritizes examples targeting the student model's weaker skills, and (2) Skill-aware fine-tuning, which encourages explicit skill decomposition during problem solving. With only 1,000 training examples selected from a 100K teacher-generated corpus, our method surpasses random SFT baselines by +1.6% on Qwen3-4B and +1.4% on Qwen3-8B across five mathematical reasoning benchmarks. Further analysis confirms that these gains concentrate on skills emphasized during training, highlighting the effectiveness of skill-centric training for efficient reasoning distillation.
- Abstract(参考訳): DeepSeek-R1のような大きな推論モデルとその蒸留された変種は複雑な推論タスクにおいて強い性能を発揮する。
しかし、これらのモデルを蒸留するには、しばしば教師付き微調整(SFT)のための大規模なデータを必要とし、データ効率のトレーニング手法の追求を動機付けている。
そこで本研究では,(1)弱いモデルに推論能力を効率よく伝達する技術中心の蒸留フレームワークを提案する。(1)学生モデルの弱いスキルを対象とする事例を優先するスキルベースデータ選択,(2)問題解決における明示的なスキル分解を促すスキル意識の微調整である。
100Kの教師生成コーパスから選択されたトレーニング例は1,000に過ぎず、5つの数学的推論ベンチマークでランダムなSFTベースラインをQwen3-4Bで+1.6%、Qwen3-8Bで+1.4%超える。
さらなる分析により、これらの成果がトレーニング中に強調されるスキルに集中していることが確認され、効率のよい推論蒸留におけるスキル中心のトレーニングの有効性が強調された。
関連論文リスト
- When Actions Teach You to Think: Reasoning-Action Synergy via Reinforcement Learning in Conversational Agents [2.689316553293938]
Supervised Fine-tuning (SFT) は、下流タスクにおける大規模言語モデル(LLM)の性能を改善する最も効果的な方法の1つである。
本稿では,LLMがツールの呼び出しと対話エージェントの応答生成の両方を導く推論ステップを生成するパイプラインを提案する。
論文 参考訳(メタデータ) (2025-12-12T04:44:40Z) - Towards High Data Efficiency in Reinforcement Learning with Verifiable Reward [54.708851958671794]
オフラインとオンラインの両方のデータ選択のための最適化戦略を組み合わせた,データ効率のよいポリシ最適化パイプラインを提案する。
オフラインフェーズでは、多様性、影響、適切な難易度に基づいて、トレーニングサンプルの高品質なサブセットをキュレートする。
オンラインRLVRトレーニングにおいて、探索可能性の低いサンプルを動的にフィルタリングするサンプルレベルの探索性指標を導入する。
論文 参考訳(メタデータ) (2025-09-01T10:04:20Z) - SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。
トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文 参考訳(メタデータ) (2025-08-07T03:50:48Z) - Select2Reason: Efficient Instruction-Tuning Data Selection for Long-CoT Reasoning [24.33670771559359]
提案するSelect2Reasonは,Long-CoT推論のための新しい,効率的な命令チューニングデータ選択フレームワークである。
Select2Reasonは,3つの競合レベルと6つの総合的な数学的ベンチマークで,フルデータチューニングとオープンソースベースラインOpenR1-Qwen-7Bに比較して,性能を向上することを示す。
論文 参考訳(メタデータ) (2025-05-22T20:24:08Z) - LEAD: Iterative Data Selection for Efficient LLM Instruction Tuning [22.242445543184264]
我々は,標準トレーニングループ内でサンプルユーティリティを完全に正確に推定する,効率的な反復的データ選択フレームワークであるLEADを提案する。
実験の結果、LEADは最先端の手法を著しく上回り、平均モデル性能は6.1%-10.8%向上し、トレーニングデータの2.5%しか使用せず、全体のトレーニング時間を5-10倍短縮した。
論文 参考訳(メタデータ) (2025-05-12T10:57:51Z) - The Surprising Effectiveness of Test-Time Training for Few-Shot Learning [59.309477460893916]
言語モデル(LM)は、トレーニングディストリビューション内のタスクにおいて印象的なパフォーマンスを示しているが、しばしば構造的に新しいタスクで苦労している。
LMの推論と少数ショット学習能力を改善するメカニズムとして,テストタイムトレーニング(TTT)の有効性を検討する。
本研究は,新しいタスクにおける文脈内学習の限界を強調し,言語モデルの適応性を高めるためのテストタイムトレーニングの可能性を示した。
論文 参考訳(メタデータ) (2024-11-11T18:59:45Z) - Ranking-based Client Selection with Imitation Learning for Efficient Federated Learning [20.412469498888292]
フェデレートラーニング(FL)は、複数のデバイスが共同で共有モデルをトレーニングすることを可能にする。
各トレーニングラウンドにおける参加デバイスの選択は、モデル性能とトレーニング効率の両方に重大な影響を及ぼす。
我々は、エンドツーエンドのランキングベースのアプローチであるFedRankという新しいデバイス選択ソリューションを導入する。
論文 参考訳(メタデータ) (2024-05-07T08:44:29Z) - Skill-Based Few-Shot Selection for In-Context Learning [123.26522773708683]
Skill-KNNは、文脈内学習のためのスキルベースの少ショット選択手法である。
モデルはトレーニングや微調整を必要とせず、頻繁に銀行を拡大したり変更したりするのに適している。
5つのドメイン間セマンティックパーシングデータセットと6つのバックボーンモデルによる実験結果から、Skill-KNNは既存の手法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2023-05-23T16:28:29Z) - GAT: Guided Adversarial Training with Pareto-optimal Auxiliary Tasks [73.88590165742721]
本稿では,限られた訓練データの下で補助的なタスクを活用する新しい対人訓練手法を提案する。
本手法は, 対戦学習の最小値最適化において, シングルタスクモデルをマルチタスクモデルに拡張する。
我々は、ガイド付きマルチタスク学習が、モデルロバスト性の境界をさらに推し進めるために、実践的で有望な方法であることを実証する。
論文 参考訳(メタデータ) (2023-02-06T16:23:24Z) - Improving Few-Shot Generalization by Exploring and Exploiting Auxiliary
Data [100.33096338195723]
補助データを用いたFew-shot Learning(FLAD)に焦点を当てる。
FLADは、一般化を改善するために、数ショットの学習中に補助データへのアクセスを前提としている。
提案するアルゴリズムは EXP3-FLAD と UCB1-FLAD の2つである。
論文 参考訳(メタデータ) (2023-02-01T18:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。