論文の概要: DistillLens: Symmetric Knowledge Distillation Through Logit Lens
- arxiv url: http://arxiv.org/abs/2602.13567v1
- Date: Sat, 14 Feb 2026 03:01:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.208123
- Title: DistillLens: Symmetric Knowledge Distillation Through Logit Lens
- Title(参考訳): DistillLens:ロジットレンズによる対称性の知識蒸留
- Authors: Manish Dhakal, Uthman Jinadu, Anjila Budathoki, Rajshekhar Sunderraman, Yi Ding,
- Abstract要約: 学生モデルと教師モデルの進化的思考過程を対称的に整列するフレームワークであるDistillLensを紹介する。
我々の分析は、この制約が両面の罰を課し、過信と過信の両方を防いでいることを証明している。
GPT-2 と Llama アーキテクチャの実験では、DistillLens が標準 KD を一貫して上回ることを示した。
- 参考スコア(独自算出の注目度): 6.545295906151773
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Standard Knowledge Distillation (KD) compresses Large Language Models (LLMs) by optimizing final outputs, yet it typically treats the teacher's intermediate layer's thought process as a black box. While feature-based distillation attempts to bridge this gap, existing methods (e.g., MSE and asymmetric KL divergence) ignore the rich uncertainty profiles required for the final output. In this paper, we introduce DistillLens, a framework that symmetrically aligns the evolving thought processes of student and teacher models. By projecting intermediate hidden states into the vocabulary space via the Logit Lens, we enforce structural alignment using a symmetric divergence objective. Our analysis proves that this constraint imposes a dual-sided penalty, preventing both overconfidence and underconfidence while preserving the high-entropy information conduits essential for final deduction. Extensive experiments on GPT-2 and Llama architectures demonstrate that DistillLens consistently outperforms standard KD and feature-transfer baselines on diverse instruction-following benchmarks. The code is available at https://github.com/manishdhakal/DistillLens.
- Abstract(参考訳): 標準知識蒸留(KD)は最終出力を最適化することでLarge Language Models(LLM)を圧縮するが、教師の中間層の思考プロセスをブラックボックスとして扱うのが一般的である。
特徴に基づく蒸留はこのギャップを埋めようとしているが、既存の方法(例えば、MSEと非対称KLの発散)は最終的な出力に必要な豊富な不確実性プロファイルを無視している。
本稿では,学生モデルと教師モデルの進化的思考過程を対称的に整合させるフレームワークであるDistillLensを紹介する。
中間隠蔽状態をロジットレンズを介して語彙空間に投影することにより、対称発散目標を用いて構造的アライメントを強制する。
分析の結果,この制約は両面のペナルティを課し,高いエントロピー情報を保持しつつも,過信と過信の両方を防ぎ,最終決定に不可欠であることが明らかとなった。
GPT-2 と Llama アーキテクチャに関する大規模な実験により、DistillLens は様々な命令追従ベンチマークにおいて標準 KD と特徴伝達ベースラインを一貫して上回ることを示した。
コードはhttps://github.com/manishdhakal/DistillLens.comで公開されている。
関連論文リスト
- Distillation of Large Language Models via Concrete Score Matching [28.320219993420434]
大規模言語モデル (LLM) は優れた性能を提供するが、効率的な推論のための知識蒸留 (KD) の展開に費用がかかる。
本稿では,ソフトマックスによる平滑化と最適解集合の制約を克服する離散的なスコアマッチング手法を提案する。
実験により、CSDは最近のKD目標を一貫して上回り、良好なフィデリティと多様性のトレードオフを達成し、オン・ポリティの技法と組み合わせることで補完的な利益を得ることが示された。
論文 参考訳(メタデータ) (2025-09-30T06:21:28Z) - Why Alignment Must Precede Distillation: A Minimal Working Explanation [50.784080714897776]
標準のKD -> Alignワークフローは、稀だが望ましい振る舞いを整列するためにモデルの能力を低下させる。
蒸留に先立って,まず高リコール基準でアライメントを行わなければならないことを示す。
論文 参考訳(メタデータ) (2025-09-28T06:12:19Z) - Knowledge distillation through geometry-aware representational alignment [3.901188865224763]
既存の特徴蒸留法では, 損失ゼロであっても, 特徴構造を捕捉できないことを示す。
次に、プロクリスト距離と特徴文法行列のフロベニウスノルムの使用を動機付け、すでに表現的アライメントの測定の文脈で一般的な距離である。
本手法による特徴蒸留は,言語モデルファミリー間での蒸留性能の統計的に有意な改善を示すことを示す。
論文 参考訳(メタデータ) (2025-09-27T09:59:46Z) - Generalized Kullback-Leibler Divergence Loss [105.66549870868971]
我々は、クルバック・リブラー(KL)の除算損失がデカップリングカルバック・リブラー(DKL)の除算損失と等価であることを証明した。
DKL損失の非結合構造により,我々は改善すべき2つの領域を特定した。
論文 参考訳(メタデータ) (2025-03-11T04:43:33Z) - CoT2Align: Cross-Chain of Thought Distillation via Optimal Transport Alignment for Language Models with Different Tokenizers [45.59157559718677]
大規模言語モデル(LLM)は、様々なNLPタスクにまたがる最先端のパフォーマンスを実現するが、高い計算コストとメモリ制約のためにデプロイメントの課題に直面している。
知識蒸留(KD)は、大きな教師モデルからより小さな学生モデルに知識を伝達する、有望なソリューションである。
CoT2Alignは,Chain-of-Thought(CoT)拡張を統合した普遍的なKDフレームワークであり,Cross-CoTアライメントを導入して推論伝達を強化する。
論文 参考訳(メタデータ) (2025-02-24T03:30:29Z) - Multi-Granularity Semantic Revision for Large Language Model Distillation [66.03746866578274]
LLM蒸留における多粒性セマンティックリビジョン法を提案する。
シーケンスレベルでは、シーケンス修正と再生戦略を提案する。
トークンレベルでは、蒸留目的関数として、Kulback-Leibler損失を補正する分布適応クリッピングを設計する。
スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と学生の確率相関を一貫性に制約する。
論文 参考訳(メタデータ) (2024-07-14T03:51:49Z) - Sinkhorn Distance Minimization for Knowledge Distillation [97.64216712016571]
知識蒸留(KD)は大規模言語モデル(LLM)の圧縮に広く採用されている。
本稿では,上述のKL,RKL,JSの発散が,それぞれモード緩和,モード崩壊,モード下推定といった問題に悩まされていることを示す。
本研究では,Sinkhorn 距離を利用した Sinkhorn Knowledge Distillation (SinKD) を提案する。
論文 参考訳(メタデータ) (2024-02-27T01:13:58Z) - Decoupled Kullback-Leibler Divergence Loss [90.54331083430597]
我々は、クルバック・リブラー(KL)の除算損失がデカップリングカルバック・リブラー(DKL)の除算損失と等価であることを証明した。
我々はKL/DKLにクラスワイドなグローバル情報を導入し、個々のサンプルからバイアスを取ります。
提案手法は,新たな最先端の対人ロバスト性を公衆のリーダーボード上で実現する。
論文 参考訳(メタデータ) (2023-05-23T11:17:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。