論文の概要: Revisiting the Capacity Gap in Chain-of-Thought Distillation from a Practical Perspective
- arxiv url: http://arxiv.org/abs/2604.08880v1
- Date: Fri, 10 Apr 2026 02:39:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.642923
- Title: Revisiting the Capacity Gap in Chain-of-Thought Distillation from a Practical Perspective
- Title(参考訳): 循環式蒸留における容量ギャップの再検討 : 実用的視点から
- Authors: Tokio Kajitsuka, Ukyo Honda, Sho Takase,
- Abstract要約: 思考の連鎖(CoT)蒸留は、強い教師から小さな学生へ推論の振る舞いを伝達する。
蒸留は、教師/学生の能力のミスマッチが大きいと失敗する可能性がある。
我々は、一般的に使用される実験環境を再検討することにより、現実的な視点からキャパシティギャップを再考する。
- 参考スコア(独自算出の注目度): 17.314709291353733
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chain-of-thought (CoT) distillation transfers reasoning behaviors from a strong teacher to a smaller student, but prior work reports a capacity gap: distillation may fail when the teacher-student capability mismatch is large. We revisit the capacity gap from a practical perspective by re-examining commonly used experimental settings. Notably, we find that CoT distillation often degrades performance compared to the student's pre-distillation baseline, an issue obscured when only post-distillation comparisons are reported. We therefore propose a more realistic evaluation protocol and find that the impact of capacity gap effects does not consistently dominate across tasks and settings, especially when candidate teachers differ substantially in performance. Our results offer practical guidance for selecting teacher-student pairs in CoT distillation.
- Abstract(参考訳): CoT(Chain-of- Thought)蒸留は、強い教師から小さな学生へ推論の振る舞いを伝達するが、以前の研究では能力格差が報告されている。
我々は、一般的に使用される実験環境を再検討することにより、現実的な視点からキャパシティギャップを再考する。
特に,CoT蒸留は, 留学生の蒸留前ベースラインと比較して性能が低下することが多く, 蒸留後比較のみを報告した場合の問題点が指摘されている。
そこで我々は,より現実的な評価プロトコルを提案し,能力格差の影響がタスクや設定において常に支配的でないこと,特に,性能が著しく異なる場合などを見出した。
以上の結果から,CoT蒸留における教師と学生のペア選択の実践的ガイダンスが得られた。
関連論文リスト
- Knowledge Distillation with Refined Logits [31.205248790623703]
本稿では,現在のロジット蒸留法の限界に対処するため,Refined Logit Distillation (RLD)を導入する。
我々のアプローチは、高性能な教師モデルでさえ誤った予測をすることができるという観察に動機づけられている。
本手法は,教師からの誤解を招く情報を,重要なクラス相関を保ちながら効果的に排除することができる。
論文 参考訳(メタデータ) (2024-08-14T17:59:32Z) - Logit Standardization in Knowledge Distillation [83.31794439964033]
教師と学生の共用温度の仮定は、ロジット範囲と分散の点で、ロジット間の厳密な一致を暗示している。
温度をロジットの重み付け標準偏差として設定し、ロジット標準化のプラグアンドプレイZスコア前処理を実行することを提案する。
我々の前処理により、学生はマグニチュードマッチを必要とせず、教師の本質的なロジット関係に集中することができ、既存のロジットベースの蒸留法の性能を向上させることができる。
論文 参考訳(メタデータ) (2024-03-03T07:54:03Z) - HomoDistil: Homotopic Task-Agnostic Distillation of Pre-trained
Transformers [49.79405257763856]
本稿では,タスク非依存蒸留に焦点をあてる。
これは、計算コストとメモリフットプリントを小さくして、様々なタスクで簡単に微調整できるコンパクトな事前訓練モデルを生成する。
本稿では, 反復刈り込みによる新規なタスク非依存蒸留法であるHomotopic Distillation (HomoDistil)を提案する。
論文 参考訳(メタデータ) (2023-02-19T17:37:24Z) - On student-teacher deviations in distillation: does it pay to disobey? [54.908344098305804]
知識蒸留は「学生」ネットワークのテスト精度を向上させるために広く用いられている。
教師の確率に合うように訓練されているにもかかわらず、生徒は教師の確率から大きく逸脱するだけでなく、パフォーマンスにおいて教師を上回ることもある。
論文 参考訳(メタデータ) (2023-01-30T14:25:02Z) - Teacher's pet: understanding and mitigating biases in distillation [61.44867470297283]
いくつかの研究により、蒸留によって学生の全体的なパフォーマンスが著しく向上することが示されている。
しかし、これらのゲインはすべてのデータサブグループに均一なのでしょうか?
蒸留が特定の部分群の性能に悪影響を及ぼすことを示す。
信頼性の低いサブグループに対して,教師の影響を和らげる手法を提案する。
論文 参考訳(メタデータ) (2021-06-19T13:06:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。