論文の概要: Knowledge distillation through geometry-aware representational alignment
- arxiv url: http://arxiv.org/abs/2509.25253v1
- Date: Sat, 27 Sep 2025 09:59:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.206333
- Title: Knowledge distillation through geometry-aware representational alignment
- Title(参考訳): 幾何認識型表現アライメントによる知識蒸留
- Authors: Prajjwal Bhattarai, Mohammad Amjad, Dmytro Zhylko, Tuka Alhanai,
- Abstract要約: 既存の特徴蒸留法では, 損失ゼロであっても, 特徴構造を捕捉できないことを示す。
次に、プロクリスト距離と特徴文法行列のフロベニウスノルムの使用を動機付け、すでに表現的アライメントの測定の文脈で一般的な距離である。
本手法による特徴蒸留は,言語モデルファミリー間での蒸留性能の統計的に有意な改善を示すことを示す。
- 参考スコア(独自算出の注目度): 3.901188865224763
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge distillation is a common paradigm for transferring capabilities from larger models to smaller ones. While traditional distillation methods leverage a probabilistic divergence over the output of the teacher and student models, feature-based distillation methods often minimize variants of Euclidean norms between the hidden layer representations. The main goal is for the student to mimic the structure of the feature space of the teacher. In this work, we theoretically show that existing feature distillation methods, such as projection based mean squared loss or Centered Kernel Alignment (CKA), cannot capture the feature structure, even under zero loss. We then motivate the use of Procrustes distance and the Frobenius norm of Feature Gram Matrix, distances already common in the context of measuring representational alignment, as distillation losses. We show that feature distillation through our method showcases statistically significant improvement in distillation performance across language models families (BERT and OPT) in classification and instruction-following tasks by up to 2 percentage points, showcasing the potential of integrating feature geometry into existing distillation methods.
- Abstract(参考訳): 知識蒸留は、より大きなモデルからより小さなモデルへ機能を移行するための共通のパラダイムである。
伝統的な蒸留法は教師と学生のモデルから得られる出力よりも確率的なばらつきを利用するが、特徴に基づく蒸留法は隠れた層表現の間のユークリッドのノルムの変種を最小化することが多い。
主目的は,教師の特徴空間の構造を模倣することである。
本研究では, 投射型平均二乗損失 (CKA) や中心核アライメント (CKA) といった既存の特徴蒸留法では, ゼロ損失下であっても, 特徴構造を捕捉できないことを示す。
そこで我々は,Procrustes 距離と Feature Gram Matrix の Frobenius ノルムの使用を動機づけた。
提案手法による特徴蒸留は,言語モデルファミリー(BERT, OPT)における分類および指示追従タスクにおいて,統計的に有意な蒸留性能の向上を示し,特徴幾何を既存の蒸留手法に統合する可能性を示している。
関連論文リスト
- Multi-Granularity Semantic Revision for Large Language Model Distillation [66.03746866578274]
LLM蒸留における多粒性セマンティックリビジョン法を提案する。
シーケンスレベルでは、シーケンス修正と再生戦略を提案する。
トークンレベルでは、蒸留目的関数として、Kulback-Leibler損失を補正する分布適応クリッピングを設計する。
スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と学生の確率相関を一貫性に制約する。
論文 参考訳(メタデータ) (2024-07-14T03:51:49Z) - f-Divergence Minimization for Sequence-Level Knowledge Distillation [23.513372304624486]
知識蒸留 (KD) は、大きなモデルから小さなモデルへ知識を伝達する過程である。
一般化f分割関数の最小化としてシーケンスレベルの知識蒸留を定式化するf-DISTILLフレームワークを提案する。
4つのデータセットで実験したところ、我々の手法は既存のKD手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-07-27T20:39:06Z) - Knowledge Distillation Performs Partial Variance Reduction [93.6365393721122]
知識蒸留は'学生'モデルの性能を高めるための一般的な手法である。
知識蒸留(KD)の背後にある力学は、まだ完全には理解されていない。
我々は,KDを新しいタイプの分散還元機構として解釈できることを示す。
論文 参考訳(メタデータ) (2023-05-27T21:25:55Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - Class-aware Information for Logit-based Knowledge Distillation [16.634819319915923]
そこで本研究では,ロジット蒸留をインスタンスレベルとクラスレベルの両方で拡張する,クラス対応ロジット知識蒸留法を提案する。
CLKDにより、教師モデルからより高度な意味情報を模倣し、蒸留性能を向上させることができる。
論文 参考訳(メタデータ) (2022-11-27T09:27:50Z) - Normalized Feature Distillation for Semantic Segmentation [6.882655287146012]
正規化特徴蒸留(NFD)と呼ばれる簡易かつ効果的な特徴蒸留法を提案する。
提案手法は,都市景観,VOC 2012,ADE20Kデータセットのセマンティックセマンティックセマンティックセグメンテーションのための,最先端の蒸留結果を実現する。
論文 参考訳(メタデータ) (2022-07-12T01:54:25Z) - Aligning Logits Generatively for Principled Black-Box Knowledge Distillation [49.43567344782207]
Black-Box Knowledge Distillation (B2KD)は、クラウドからエッジへのモデル圧縮において、サーバ上にホストされる見えないデータとモデルによって定式化された問題である。
民営化と蒸留による2段階のワークフローを形式化する。
そこで本研究では,ブラックボックスの煩雑なモデルを軽量に蒸留するKD (MEKD) を新たに提案する。
論文 参考訳(メタデータ) (2022-05-21T02:38:16Z) - Why distillation helps: a statistical perspective [69.90148901064747]
知識蒸留は、単純な「学生」モデルの性能を向上させる技術である。
この単純なアプローチは広く有効であることが証明されているが、基本的な問題は未解決のままである。
蒸留が既存の負の鉱業技術をどのように補完し, 極端に多層的検索を行うかを示す。
論文 参考訳(メタデータ) (2020-05-21T01:49:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。