論文の概要: Task-Based Flexible Feature Distillation for LLMs
- arxiv url: http://arxiv.org/abs/2507.10155v1
- Date: Mon, 14 Jul 2025 11:10:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:24.759864
- Title: Task-Based Flexible Feature Distillation for LLMs
- Title(参考訳): LLM用タスクベースフレキシブル機能蒸留
- Authors: Khouloud Saadi, Di Wang,
- Abstract要約: 大規模言語モデル(LLM)のためのタスクベース特徴蒸留法を提案する。
提案手法は,教師のタスク関連隠蔽ユニットを識別し,生徒に直接そのアクティベーションを蒸留する。
実証的な結果は、様々なタスクにまたがる以前のアプローチよりも一貫した改善を示している。
- 参考スコア(独自算出の注目度): 5.1581069235093295
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge Distillation (KD) in general and feature distillation in particular are promising techniques for reducing the high computational demand of large language models (LLMs). However, traditional feature KD methods typically assume that the teacher and the student share the same hidden size, limiting the flexibility of the student's architecture. A common solution to this problem involves training a linear projector to align their feature spaces, but this introduces additional parameters that must be learned from scratch and often degrades performance on downstream tasks, especially in generative settings. To address this issue, in this work, we propose a novel task-based feature distillation method that enables knowledge transfer between teacher and student models with different hidden layer dimensions, without introducing any new parameters. Leveraging the insight that only a subset of LLM components contribute significantly to a specific downstream task, our approach identifies the most task-relevant hidden units in the teacher and directly distills their activations to the student. Our method is flexible and easily integrates with other distillation frameworks. Empirical results show consistent improvements over prior approaches across diverse tasks, including classification, instruction-following, and summarization, achieving up to a 3\% performance gain over the linear projection baseline.
- Abstract(参考訳): 知識蒸留(KD)、特に特徴蒸留は、大規模言語モデル(LLM)の高い計算要求を減らすための有望な技術である。
しかしながら、伝統的なKD手法は、教師と生徒が同じ隠れたサイズを共有し、学生の建築の柔軟性を制限していると仮定する。
この問題に対する一般的な解決策は、線形プロジェクタをトレーニングして特徴空間を整列させることであるが、これはスクラッチから学ばなければならない追加パラメータを導入し、特に生成的設定において、下流タスクのパフォーマンスを劣化させる。
この問題に対処するため,本研究では,新しいパラメータを導入することなく,隠蔽層次元の異なる教師モデルと生徒モデル間の知識伝達を可能にする,タスクベースの特徴蒸留手法を提案する。
LLMのサブセットだけが特定のダウンストリームタスクに大きく寄与するという知見を活かして、本手法は教師のタスク関連隠蔽ユニットを識別し、生徒に直接それらのアクティベーションを蒸留する。
我々の方法は柔軟で、他の蒸留フレームワークと容易に統合できる。
経験的結果は、分類、命令追従、要約を含む様々なタスクにまたがる以前のアプローチよりも一貫した改善を示し、線形射影ベースラインよりも最大3倍の性能向上を達成する。
関連論文リスト
- Intra-class Patch Swap for Self-Distillation [3.282914142012984]
単一学生ネットワークに基づく無教師蒸留フレームワークを提案する。
我々のアプローチは、クラス内パッチスワップスワップスワップスワップスワップスワップスワップスワップスワップスワップスワップスワップスワップスワップスワップスワップスワップスワップスワップスワップスワップスワップスワップスワップスワ
提案手法は,既存の自己蒸留ベースラインと従来の教師ベースのKDアプローチを一貫して上回る。
論文 参考訳(メタデータ) (2025-05-20T09:30:19Z) - Learning from Stochastic Teacher Representations Using Student-Guided Knowledge Distillation [64.15918654558816]
教師表現のフィルタリングと重み付けのための自己蒸留(SSD)訓練戦略を導入し,タスク関連表現のみから抽出する。
UCR Archiveのウェアラブル/バイオサインデータセット、HARデータセット、画像分類データセットなどの実世界の感情コンピューティングに関する実験結果は、提案したSSD手法が最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2025-04-19T14:08:56Z) - Linear Projections of Teacher Embeddings for Few-Class Distillation [14.99228980898161]
知識蒸留(KD)は、より大規模で複雑な教師モデルからより小さな学生モデルへ知識を移行するための有望なアプローチとして登場した。
学習埋め込み線形射影(LELP)と呼ばれる教師のモデル表現から知識を抽出する新しい手法を提案する。
Amazon ReviewsやSentiment140のような大規模NLPベンチマークの実験的な評価では、LELPはバイナリや少数クラスの問題に対する既存の最先端蒸留アルゴリズムと一貫して競合し、典型的には優れていることが示されている。
論文 参考訳(メタデータ) (2024-09-30T16:07:34Z) - Multi-Granularity Semantic Revision for Large Language Model Distillation [66.03746866578274]
LLM蒸留における多粒性セマンティックリビジョン法を提案する。
シーケンスレベルでは、シーケンス修正と再生戦略を提案する。
トークンレベルでは、蒸留目的関数として、Kulback-Leibler損失を補正する分布適応クリッピングを設計する。
スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と学生の確率相関を一貫性に制約する。
論文 参考訳(メタデータ) (2024-07-14T03:51:49Z) - Fully Fine-tuned CLIP Models are Efficient Few-Shot Learners [8.707819647492467]
視覚言語モデル全体(VLM)の精巧な精細化によるタスク固有情報の取得について検討する。
これらの問題を緩和するために,識別的視覚テキストタスクを設計するCLIP-CITEというフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-04T15:22:54Z) - PLaD: Preference-based Large Language Model Distillation with Pseudo-Preference Pairs [47.35598271306371]
大きな言語モデル(LLM)は、様々なタスクにおいて印象的な機能を示しているが、その膨大なパラメータサイズは、リソース制約のある設定での適用性を制限している。
知識蒸留(KD)は、大規模な教師モデルからコンパクトな学生モデルに専門知識を移すことによって、実行可能なソリューションを提供する。
PLaD は新規な嗜好に基づく LLM 蒸留フレームワークである。
論文 参考訳(メタデータ) (2024-06-05T03:08:25Z) - Attention-guided Feature Distillation for Semantic Segmentation [8.344263189293578]
本稿では,改良された特徴写像を用いて注目を伝達するための簡易かつ強力な手法の有効性を示す。
CBAM(Convolutional Block Attention Module)を用いたAttnFD(AttnFD)法の提案
これはPascalVoc 2012、Cityscapes、COCO、CamVidデータセット上の学生ネットワークの平均的相互接続(mIoU)を改善するという観点から、最先端の結果を達成する。
論文 参考訳(メタデータ) (2024-03-08T16:57:47Z) - Knowledge Diffusion for Distillation [53.908314960324915]
知識蒸留(KD)における教師と学生の表現ギャップ
これらの手法の本質は、ノイズ情報を捨て、その特徴の貴重な情報を蒸留することである。
DiffKDと呼ばれる新しいKD手法を提案し、拡散モデルを用いて特徴を明示的に識別し一致させる。
論文 参考訳(メタデータ) (2023-05-25T04:49:34Z) - Efficient Feature Transformations for Discriminative and Generative
Continual Learning [98.10425163678082]
継続的学習のための簡易タスク特化機能マップ変換戦略を提案する。
これらは新しいタスクを学習するための強力な柔軟性を提供し、ベースアーキテクチャに最小パラメータを追加することで実現される。
本手法の有効性と効率を,判別(cifar-100およびimagenet-1k)および生成的タスクの一連の実験を用いて実証する。
論文 参考訳(メタデータ) (2021-03-25T01:48:14Z) - Task-Feature Collaborative Learning with Application to Personalized
Attribute Prediction [166.87111665908333]
本稿では,TFCL(Task-Feature Collaborative Learning)と呼ばれる新しいマルチタスク学習手法を提案する。
具体的には、まず、特徴とタスクの協調的なグループ化を活用するために、不均一なブロック対角構造正規化器を用いたベースモデルを提案する。
実際の拡張として,重なり合う機能と難易度を区別することで,基本モデルを拡張します。
論文 参考訳(メタデータ) (2020-04-29T02:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。