論文の概要: Task-Specific Knowledge Distillation via Intermediate Probes
- arxiv url: http://arxiv.org/abs/2603.12270v1
- Date: Wed, 18 Feb 2026 10:56:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:42.193473
- Title: Task-Specific Knowledge Distillation via Intermediate Probes
- Title(参考訳): 中間プローブによるタスク特異的知識蒸留
- Authors: Ryan Brown, Chris Russell,
- Abstract要約: 本研究では,教師が隠れた状態で探究を訓練し,学生の指導の監督として出力ロジットではなく,探究の予測を利用する手法を提案する。
メソッドは、学生や教師にアーキテクチャの変更を必要とせず、アーキテクチャに依存しず、プローブトレーニングが安価で教師表現をキャッシュできるため、最小限の計算を追加する。
- 参考スコア(独自算出の注目度): 5.183958775837362
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge distillation from large language models (LLMs) assumes that the teacher's output distribution is a high-quality training signal. On reasoning tasks, this assumption is frequently violated. A model's intermediate representations may encode the correct answer, yet this information is lost or distorted through the vocabulary projection, where prompt formatting and answer-token choices creates brittle, noisy outputs. We introduce \method{}, a distillation framework that bypasses this bottleneck by training lightweight probes on frozen teacher hidden states and using the probe's predictions, rather than output logits, as supervision for student training. This simple change yields consistent improvements across four reasoning benchmarks (AQuA-RAT, ARC Easy/Challenge, and MMLU), with gains most pronounced under limited data. Probes trained on intermediate representations provide cleaner labels than the teacher's own outputs, effectively denoising the distillation signal. \method{} requires no architectural changes to student or teacher, is architecture-agnostic, and adds minimal compute since probe training is cheap and teacher representations can be cached. By exploiting internal representations, \method{} enables practitioners to extract more value from large teacher models without additional training data or architectural complexity.
- Abstract(参考訳): 大規模言語モデル(LLM)からの知識蒸留は、教師の出力分布が高品質な訓練信号であると仮定する。
推論タスクでは、この仮定は頻繁に違反される。
モデルの中間表現は正しい答えを符号化するが、この情報は語彙射影によって失われたり歪んだりする。
本研究では, 凍結した教師の隠れ状態に対する軽量プローブの訓練と, 出力ロジットではなく, プローブの予測を学生訓練の監督として活用することにより, このボトルネックを回避する蒸留フレームワークである 'method{} を紹介する。
この単純な変更は、4つの推論ベンチマーク(AQuA-RAT、ARC Easy/Challenge、MMLU)で一貫した改善をもたらす。
中間表現で訓練されたプローブは、教師自身の出力よりもクリーンなラベルを提供し、蒸留信号を効果的に装飾する。
\method{}は、学生や教師にアーキテクチャの変更を一切必要とせず、アーキテクチャに依存しず、プローブトレーニングが安価で教師表現をキャッシュできるため、最小限の計算を追加する。
内部表現を活用することで、‘method{}’は、トレーニングデータやアーキテクチャの複雑さを増すことなく、大規模な教師モデルからより多くの価値を抽出することができる。
関連論文リスト
- Refinement Provenance Inference: Detecting LLM-Refined Training Prompts from Model Behavior [58.751981587234916]
本稿では,Refinement Provenance Inference (RPI)監査タスクをRefinement Provenance Inference (RPI)として定式化する。
本稿では,ロジットレベルの信号で教師が強制する可能性機能を融合させるロジットベースのフレームワークであるReProを提案する。
トレーニング中、ReProはシャドウファインチューニングを通じて転送可能な表現を学び、訓練データアクセスなしで、見えない犠牲者の証明を推測するために軽量のリニアヘッドを使用する。
論文 参考訳(メタデータ) (2026-01-05T10:16:41Z) - Learning from Stochastic Teacher Representations Using Student-Guided Knowledge Distillation [64.15918654558816]
教師表現のフィルタリングと重み付けのための自己蒸留(SSD)訓練戦略を導入し,タスク関連表現のみから抽出する。
UCR Archiveのウェアラブル/バイオサインデータセット、HARデータセット、画像分類データセットなどの実世界の感情コンピューティングに関する実験結果は、提案したSSD手法が最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2025-04-19T14:08:56Z) - Multi-Granularity Semantic Revision for Large Language Model Distillation [66.03746866578274]
LLM蒸留における多粒性セマンティックリビジョン法を提案する。
シーケンスレベルでは、シーケンス修正と再生戦略を提案する。
トークンレベルでは、蒸留目的関数として、Kulback-Leibler損失を補正する分布適応クリッピングを設計する。
スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と学生の確率相関を一貫性に制約する。
論文 参考訳(メタデータ) (2024-07-14T03:51:49Z) - Knowledge Diffusion for Distillation [53.908314960324915]
知識蒸留(KD)における教師と学生の表現ギャップ
これらの手法の本質は、ノイズ情報を捨て、その特徴の貴重な情報を蒸留することである。
DiffKDと呼ばれる新しいKD手法を提案し、拡散モデルを用いて特徴を明示的に識別し一致させる。
論文 参考訳(メタデータ) (2023-05-25T04:49:34Z) - Knowledge Distillation: Bad Models Can Be Good Role Models [35.92225943440252]
学習理論の文脈における条件付きサンプリング行動について検討する。
サンプルは悪い分類器でありながら、良い教師であることを示す。
論文 参考訳(メタデータ) (2022-03-28T11:13:53Z) - Deep Semi-supervised Knowledge Distillation for Overlapping Cervical
Cell Instance Segmentation [54.49894381464853]
本稿では, ラベル付きデータとラベルなしデータの両方を, 知識蒸留による精度向上に活用することを提案する。
摂動に敏感なサンプルマイニングを用いたマスク誘導型平均教師フレームワークを提案する。
実験の結果,ラベル付きデータのみから学習した教師付き手法と比較して,提案手法は性能を著しく向上することがわかった。
論文 参考訳(メタデータ) (2020-07-21T13:27:09Z) - Data-Efficient Ranking Distillation for Image Retrieval [15.88955427198763]
近年のアプローチでは、より深く重いアーキテクチャからより小さなネットワークへ知識を伝達するために、知識蒸留を用いてこの問題に対処している。
本稿では,計量学習問題に対する知識蒸留について述べる。
従来の手法とは違って,提案手法では,教師モデルに対する限定的なクエリ,最終出力表現へのアクセスを伴うブラックボックス教師モデル,および第3に,基本トラストラベルのないオリジナルトレーニングデータのごく一部に対処する。
論文 参考訳(メタデータ) (2020-07-10T10:59:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。