論文の概要: Flexible Feature Distillation for Large Language Models
- arxiv url: http://arxiv.org/abs/2507.10155v2
- Date: Thu, 02 Oct 2025 14:05:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 19:26:07.865219
- Title: Flexible Feature Distillation for Large Language Models
- Title(参考訳): 大規模言語モデルのためのフレキシブルな特徴蒸留
- Authors: Khouloud Saadi, Di Wang,
- Abstract要約: 大規模言語モデル(LLM)のためのタスク駆動型特徴蒸留のためのパラメータフリーフレームワークを提案する。
教師の表現全体を投影する代わりに、Flex-KDは、教師の隠れた状態の最もタスク関連のある次元を特定するために勾配ベースのスコアを使用する。
実験の結果、Flex-KDは一貫して生徒のパフォーマンスを向上し、線形射影ベースラインよりも最大3.75パーセントのパフォーマンス向上を達成した。
- 参考スコア(独自算出の注目度): 4.277471273303775
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation (KD) has become a cornerstone for compressing large language models (LLMs). However, existing LLM-KD methods have primarily focused on logit-based approaches, which achieve good performance but overlook the rich internal representations of LLMs. Feature-level KD could leverage this structure to provide complementary benefits, yet it remains underexplored because current feature-KD approaches typically assume identical teacher-student hidden sizes, a restrictive and unrealistic assumption. A common workaround is to train a linear projector to align their feature spaces; however, this introduces additional parameters, distorts teacher embeddings, and often degrades downstream performance, especially in generative tasks. We propose Flex-KD, a parameter-free framework for task-driven feature distillation for LLMs. Instead of projecting the entire teacher representation, Flex-KD uses gradient-based scores to identify the most task-relevant dimensions of the teacher's hidden states and distills only this subspace into the student. This ensures that the student's limited capacity is allocated to informative components, while avoiding projector-induced distortion and extra parameters. Flex-KD integrates seamlessly with existing KD pipelines and supports differing teacher-student hidden sizes. Extensive experiments across both classification and generative tasks, i.e., instruction-following and summarization, show that Flex-KD consistently boosts student performance, achieving up to a 3.75 percent performance gain over the linear projection baseline.
- Abstract(参考訳): 知識蒸留(KD)は,大規模言語モデル(LLM)の圧縮の基礎となっている。
しかし、既存のLLM-KD法は主にロジットに基づく手法に重点を置いており、性能は良好だが、LLMの内部表現が豊富である。
特徴レベルKDは、この構造を利用して補完的な利点を提供することができるが、現在の特徴レベルKDアプローチでは、制限的かつ非現実的な仮定である教師と学生の隠れサイズを仮定することが多いため、探索は過小評価されている。
一般的な回避策は、線形プロジェクタを訓練して特徴空間を整列させることであるが、これは追加のパラメータを導入し、教師の埋め込みを歪め、特に生成タスクにおいて下流のパフォーマンスを劣化させる。
LLMのためのタスク駆動型特徴蒸留のためのパラメータフリーフレームワークFlex-KDを提案する。
教師の表現全体を投影する代わりに、Flex-KDは勾配に基づくスコアを使用して教師の隠れ状態の最もタスク関連のある次元を特定し、この部分空間のみを学生に蒸留する。
これにより、プロジェクタによる歪みや余分なパラメータを避けながら、学生の限られた能力が情報的コンポーネントに割り当てられることが保証される。
Flex-KDは既存のKDパイプラインとシームレスに統合され、異なる教師学生の隠れサイズをサポートする。
分類と生成タスクの両方にわたる広範な実験、すなわち命令追従と要約は、Flex-KDが一貫して学生のパフォーマンスを向上し、線形射影ベースラインよりも最大3.75パーセントのパフォーマンス向上を達成していることを示している。
関連論文リスト
- Intra-class Patch Swap for Self-Distillation [3.282914142012984]
単一学生ネットワークに基づく無教師蒸留フレームワークを提案する。
我々のアプローチは、クラス内パッチスワップスワップスワップスワップスワップスワップスワップスワップスワップスワップスワップスワップスワップスワップスワップスワップスワップスワップスワップスワップスワップスワップスワップスワップスワ
提案手法は,既存の自己蒸留ベースラインと従来の教師ベースのKDアプローチを一貫して上回る。
論文 参考訳(メタデータ) (2025-05-20T09:30:19Z) - Learning from Stochastic Teacher Representations Using Student-Guided Knowledge Distillation [64.15918654558816]
教師表現のフィルタリングと重み付けのための自己蒸留(SSD)訓練戦略を導入し,タスク関連表現のみから抽出する。
UCR Archiveのウェアラブル/バイオサインデータセット、HARデータセット、画像分類データセットなどの実世界の感情コンピューティングに関する実験結果は、提案したSSD手法が最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2025-04-19T14:08:56Z) - Linear Projections of Teacher Embeddings for Few-Class Distillation [14.99228980898161]
知識蒸留(KD)は、より大規模で複雑な教師モデルからより小さな学生モデルへ知識を移行するための有望なアプローチとして登場した。
学習埋め込み線形射影(LELP)と呼ばれる教師のモデル表現から知識を抽出する新しい手法を提案する。
Amazon ReviewsやSentiment140のような大規模NLPベンチマークの実験的な評価では、LELPはバイナリや少数クラスの問題に対する既存の最先端蒸留アルゴリズムと一貫して競合し、典型的には優れていることが示されている。
論文 参考訳(メタデータ) (2024-09-30T16:07:34Z) - Multi-Granularity Semantic Revision for Large Language Model Distillation [66.03746866578274]
LLM蒸留における多粒性セマンティックリビジョン法を提案する。
シーケンスレベルでは、シーケンス修正と再生戦略を提案する。
トークンレベルでは、蒸留目的関数として、Kulback-Leibler損失を補正する分布適応クリッピングを設計する。
スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と学生の確率相関を一貫性に制約する。
論文 参考訳(メタデータ) (2024-07-14T03:51:49Z) - Fully Fine-tuned CLIP Models are Efficient Few-Shot Learners [8.707819647492467]
視覚言語モデル全体(VLM)の精巧な精細化によるタスク固有情報の取得について検討する。
これらの問題を緩和するために,識別的視覚テキストタスクを設計するCLIP-CITEというフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-04T15:22:54Z) - PLaD: Preference-based Large Language Model Distillation with Pseudo-Preference Pairs [47.35598271306371]
大きな言語モデル(LLM)は、様々なタスクにおいて印象的な機能を示しているが、その膨大なパラメータサイズは、リソース制約のある設定での適用性を制限している。
知識蒸留(KD)は、大規模な教師モデルからコンパクトな学生モデルに専門知識を移すことによって、実行可能なソリューションを提供する。
PLaD は新規な嗜好に基づく LLM 蒸留フレームワークである。
論文 参考訳(メタデータ) (2024-06-05T03:08:25Z) - Attention-guided Feature Distillation for Semantic Segmentation [8.344263189293578]
本稿では,改良された特徴写像を用いて注目を伝達するための簡易かつ強力な手法の有効性を示す。
CBAM(Convolutional Block Attention Module)を用いたAttnFD(AttnFD)法の提案
これはPascalVoc 2012、Cityscapes、COCO、CamVidデータセット上の学生ネットワークの平均的相互接続(mIoU)を改善するという観点から、最先端の結果を達成する。
論文 参考訳(メタデータ) (2024-03-08T16:57:47Z) - Knowledge Diffusion for Distillation [53.908314960324915]
知識蒸留(KD)における教師と学生の表現ギャップ
これらの手法の本質は、ノイズ情報を捨て、その特徴の貴重な情報を蒸留することである。
DiffKDと呼ばれる新しいKD手法を提案し、拡散モデルを用いて特徴を明示的に識別し一致させる。
論文 参考訳(メタデータ) (2023-05-25T04:49:34Z) - Efficient Feature Transformations for Discriminative and Generative
Continual Learning [98.10425163678082]
継続的学習のための簡易タスク特化機能マップ変換戦略を提案する。
これらは新しいタスクを学習するための強力な柔軟性を提供し、ベースアーキテクチャに最小パラメータを追加することで実現される。
本手法の有効性と効率を,判別(cifar-100およびimagenet-1k)および生成的タスクの一連の実験を用いて実証する。
論文 参考訳(メタデータ) (2021-03-25T01:48:14Z) - Task-Feature Collaborative Learning with Application to Personalized
Attribute Prediction [166.87111665908333]
本稿では,TFCL(Task-Feature Collaborative Learning)と呼ばれる新しいマルチタスク学習手法を提案する。
具体的には、まず、特徴とタスクの協調的なグループ化を活用するために、不均一なブロック対角構造正規化器を用いたベースモデルを提案する。
実際の拡張として,重なり合う機能と難易度を区別することで,基本モデルを拡張します。
論文 参考訳(メタデータ) (2020-04-29T02:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。