論文の概要: Explain in Your Own Words: Improving Reasoning via Token-Selective Dual Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2603.13260v1
- Date: Wed, 25 Feb 2026 09:58:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:42.241232
- Title: Explain in Your Own Words: Improving Reasoning via Token-Selective Dual Knowledge Distillation
- Title(参考訳): 自分の言葉で説明する:Token-Selective Dual Knowledge Distillationによる推論の改善
- Authors: Minsang Kim, Seung Jun Baek,
- Abstract要約: Token-Selective Dual Knowledge Distillation (TSD-KD) は、学生中心の蒸留の枠組みである。
TSD-KDは、推論のために重要なトークンを蒸留することに焦点を当て、学生に自身の言葉で推論を説明するよう促す。
- 参考スコア(独自算出の注目度): 4.517380184758914
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge Distillation (KD) can transfer the reasoning abilities of large models to smaller ones, which can reduce the costs to generate Chain-of-Thoughts for reasoning tasks. KD methods typically ask the student to mimic the teacher's distribution over the entire output. However, a student with limited capacity can be overwhelmed by such extensive supervision causing a distribution mismatch, especially in complex reasoning tasks. We propose Token-Selective Dual Knowledge Distillation (TSD-KD), a framework for student-centric distillation. TSD-KD focuses on distilling important tokens for reasoning and encourages the student to explain reasoning in its own words. TSD-KD combines indirect and direct distillation. Indirect distillation uses a weak form of feedback based on preference ranking. The student proposes candidate responses generated on its own; the teacher re-ranks those candidates as indirect feedback without enforcing its entire distribution. Direct distillation uses distribution matching; however, it selectively distills tokens based on the relative confidence between teacher and student. Finally, we add entropy regularization to maintain the student's confidence during distillation. Overall, our method provides the student with targeted and indirect feedback to support its own reasoning process and to facilitate self-improvement. The experiments show the state-of-the-art performance of TSD-KD on 10 challenging reasoning benchmarks, outperforming the baseline and runner-up in accuracy by up to 54.4\% and 40.3\%, respectively. Notably, a student trained by TSD-KD even outperformed its own teacher model in four cases by up to 20.3\%. The source code is available at https://github.com/kmswin1/TSD-KD.
- Abstract(参考訳): 知識蒸留(KD)は、大きなモデルの推論能力をより小さなものに移し、推論タスクのためのチェーン・オブ・ソート(Chain-of-Thoughts)を生成するコストを削減できる。
KD法は通常、学生に出力全体にわたって教師の分布を模倣するように要求する。
しかし、限られた能力を持つ学生は、特に複雑な推論タスクにおいて、分布ミスマッチを引き起こす広範囲な監督によって圧倒される可能性がある。
本研究では, 学生中心蒸留の枠組みとして, Token-Selective Dual Knowledge Distillation (TSD-KD) を提案する。
TSD-KDは、推論のために重要なトークンを蒸留することに焦点を当て、学生に自身の言葉で推論を説明するよう促す。
TSD-KDは間接蒸留と直接蒸留を組み合わせる。
間接蒸留は、選好ランクに基づいて弱い形式のフィードバックを使用する。
教師は、これらの候補を、その分布全体を強制することなく、間接的なフィードバックとして再ランク付けする。
直接蒸留は分布マッチングを用いるが、教師と学生の相対的信頼度に基づいてトークンを選択的に蒸留する。
最後に, 蒸留における生徒の自信を維持するために, エントロピー正則化を加える。
全体として,本手法は,学習者に対して,自己の推論プロセスをサポートし,自己改善を促進するために,対象的かつ間接的なフィードバックを提供する。
実験の結果、TSD-KDの10の挑戦的推論ベンチマークにおける最先端の性能を示し、それぞれ54.4\%と40.3\%の精度でベースラインとランナアップを上回った。
特に、TSD-KDの訓練を受けた学生は、最大20.3\%の4つのケースで、自身の教師モデルよりも優れていた。
ソースコードはhttps://github.com/kmswin1/TSD-KDで入手できる。
関連論文リスト
- Reinforcement-aware Knowledge Distillation for LLM Reasoning [63.53679456364683]
強化学習(Reinforcement Learning, RL)ポストトレーニングは、最近、大型言語モデル(LLM)の長いチェーン・オブ・プリーティングにおいて、進歩をもたらした。
既存の知識蒸留法の多くは、教師による微調整(SFT)のために設計されており、固定された教師のトレースや教師の学生であるKulback-Leibler(KL)の発散に基づく正規化に依存している。
本稿では,RLにおける選択的な模倣を行うRL-aware distillation (RLAD)を提案する。
論文 参考訳(メタデータ) (2026-02-26T00:20:39Z) - SGD-Based Knowledge Distillation with Bayesian Teachers: Theory and Guidelines [82.00660447875266]
知識蒸留(英: Knowledge Distillation, KD)は、大きな教師ネットワークから、しばしばソフト確率出力を利用して、より小さな学生モデルに知識を伝達する中心的なパラダイムである。
グラディエント・Descent (SGD) を訓練した学生の収束行動の厳密に分析する。
分析の結果,BCPからの学習は分散の低減と収束境界の近傍項の除去に寄与することがわかった。
これらの知見に触発されて、我々は、通常、KDの教師として、BCPの見積もりを改善するベイズ深層学習モデルの使用を提唱する。
論文 参考訳(メタデータ) (2026-01-04T11:09:49Z) - SpecKD: Speculative Decoding for Effective Knowledge Distillation of LLMs [7.838632409628936]
Speculative Knowledge Distillation (SpecKD)は、動的でトークンレベルのゲーティング機構を導入した、新しいプラグアンドプレイフレームワークである。
SpecKDは、強い知識蒸留ベースラインを一貫して大幅に上回る。
論文 参考訳(メタデータ) (2025-10-28T03:02:22Z) - Warmup-Distill: Bridge the Distribution Mismatch between Teacher and Student before Knowledge Distillation [84.38105530043741]
本稿では, 学生の蒸留を教員の蒸留と整合させて, 蒸留に先立って行うワームアップ蒸留法を提案する。
7つのベンチマークの実験は、ウォームアップ・ディスティルが蒸留に適したウォームアップの学生を提供することを示した。
論文 参考訳(メタデータ) (2025-02-17T12:58:12Z) - Self-Evolution Knowledge Distillation for LLM-based Machine Translation [36.01859033056453]
我々は、自己進化KDと呼ばれる蒸留戦略を提案する。
このアプローチの核心は、教師の分布と基礎的真理の1ホット分布を、事前知識として学生の分布に動的に統合することである。
実験の結果,WMT22テストセットでは,4つの翻訳方向の約1.4のSacreBLEU点が平均的に改善されていることがわかった。
論文 参考訳(メタデータ) (2024-12-19T12:24:15Z) - On-Policy Distillation of Language Models: Learning from Self-Generated
Mistakes [44.97759066341107]
一般知識蒸留(GKD)は、教師からのフィードバックを活用して、学生を自己生成出力シーケンスで訓練する。
本稿では,自動回帰言語モデルの要約,翻訳,算術的推論におけるGKDの有効性を示す。
論文 参考訳(メタデータ) (2023-06-23T17:56:26Z) - Grouped Knowledge Distillation for Deep Face Recognition [53.57402723008569]
軽量の学生ネットワークは、モデル容量が低いため、ターゲットロジットの適合が困難である。
一次KDと二元KDを保持するが、最終的なKD損失計算では二次KDを省略するグループ知識蒸留(GKD)を提案する。
論文 参考訳(メタデータ) (2023-04-10T09:04:38Z) - Unbiased Knowledge Distillation for Recommendation [66.82575287129728]
知識蒸留(KD)は推論遅延を低減するためにレコメンダシステム(RS)に応用されている。
従来のソリューションは、まずトレーニングデータから完全な教師モデルを訓練し、その後、その知識を変換して、コンパクトな学生モデルの学習を監督する。
このような標準的な蒸留パラダイムは深刻なバイアス問題を引き起こし、蒸留後に人気アイテムがより強く推奨されることになる。
論文 参考訳(メタデータ) (2022-11-27T05:14:03Z) - Learning to Teach with Student Feedback [67.41261090761834]
対話的知識蒸留 (Interactive Knowledge Distillation, IKD) は、教師が生徒のフィードバックから教えることを学ぶことを可能にする。
IKDは教師モデルを訓練し、特定の学生のトレーニングステップごとに特定のソフトターゲットを生成する。
教師と生徒の協調的な最適化は2つの反復的なステップによって達成される。
論文 参考訳(メタデータ) (2021-09-10T03:01:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。