論文の概要: Few-Shot Knowledge Distillation of LLMs With Counterfactual Explanations
- arxiv url: http://arxiv.org/abs/2510.21631v1
- Date: Fri, 24 Oct 2025 16:36:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-27 15:45:42.339864
- Title: Few-Shot Knowledge Distillation of LLMs With Counterfactual Explanations
- Title(参考訳): LLMの非現実的説明による知識の希薄化
- Authors: Faisal Hamman, Pasan Dissanayake, Yanjun Fu, Sanghamitra Dutta,
- Abstract要約: 本研究は, タスク認識型知識蒸留における非現実的拡散拡散蒸留法(DED)という新しい手法を導入する。
数学的にCFEは教師の判断境界付近でより情報的な例を提供することでパラメータ推定を改善することができることを示す。
各種データセットおよびLCMを用いて実験を行い,数発のレギュレーションにおいて,CoDが標準的な蒸留法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 11.869032690386524
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge distillation is a promising approach to transfer capabilities from complex teacher models to smaller, resource-efficient student models that can be deployed easily, particularly in task-aware scenarios. However, existing methods of task-aware distillation typically require substantial quantities of data which may be unavailable or expensive to obtain in many practical scenarios. In this paper, we address this challenge by introducing a novel strategy called Counterfactual-explanation-infused Distillation CoD for few-shot task-aware knowledge distillation by systematically infusing counterfactual explanations. Counterfactual explanations (CFEs) refer to inputs that can flip the output prediction of the teacher model with minimum perturbation. Our strategy CoD leverages these CFEs to precisely map the teacher's decision boundary with significantly fewer samples. We provide theoretical guarantees for motivating the role of CFEs in distillation, from both statistical and geometric perspectives. We mathematically show that CFEs can improve parameter estimation by providing more informative examples near the teacher's decision boundary. We also derive geometric insights on how CFEs effectively act as knowledge probes, helping the students mimic the teacher's decision boundaries more effectively than standard data. We perform experiments across various datasets and LLMs to show that CoD outperforms standard distillation approaches in few-shot regimes (as low as 8-512 samples). Notably, CoD only uses half of the original samples used by the baselines, paired with their corresponding CFEs and still improves performance.
- Abstract(参考訳): 知識蒸留は、複雑な教師モデルから、特にタスク認識シナリオにおいて、容易に展開可能な、リソース効率の小さい学生モデルへの伝達能力への有望なアプローチである。
しかし、既存のタスク対応蒸留法では、多くの現実的なシナリオにおいて入手できない、あるいはコストのかかる大量のデータを必要とするのが普通である。
本稿では, 対物的説明を体系的に注入し, タスク認識型知識蒸留のための, 対物的説明拡散蒸留法(英語版)と呼ばれる新しい戦略を導入することで, この問題に対処する。
対実的説明(英: Counterfactual explanations, CFE)とは、教師モデルの出力予測を最小の摂動で反転させることができる入力を指す。
我々の戦略CoDは、これらのCFEを活用して、教師の判断境界をはるかに少ないサンプルで正確にマッピングする。
我々は, 統計的および幾何学的観点から, 蒸留におけるCFEの役割を動機付ける理論的保証を提供する。
数学的にCFEは教師の判断境界付近でより情報的な例を提供することでパラメータ推定を改善することができることを示す。
また、CFEが知識プローブとして効果的に機能し、教師の判断境界を標準データよりも効果的に模倣するのに役立つ、幾何学的な洞察を導出する。
種々のデータセットおよびLCMを用いて実験を行い、CoDが標準蒸留法(8-512サンプル)よりも優れていることを示す。
特に、CoDはベースラインで使用される元のサンプルの半分しか使用せず、対応するCFEと組み合わせてパフォーマンスを改善している。
関連論文リスト
- Flexible Feature Distillation for Large Language Models [4.277471273303775]
大規模言語モデル(LLM)のためのタスク駆動型特徴蒸留のためのパラメータフリーフレームワークを提案する。
教師の表現全体を投影する代わりに、Flex-KDは、教師の隠れた状態の最もタスク関連のある次元を特定するために勾配ベースのスコアを使用する。
実験の結果、Flex-KDは一貫して生徒のパフォーマンスを向上し、線形射影ベースラインよりも最大3.75パーセントのパフォーマンス向上を達成した。
論文 参考訳(メタデータ) (2025-07-14T11:10:02Z) - Honey, I Shrunk the Language Model: Impact of Knowledge Distillation Methods on Performance and Explainability [3.224880576815583]
大規模言語モデルの高い計算とストレージ要求は、リソース制約のある環境への展開を制限する。
これまでの研究では, 学習データの生成と学生モデルの訓練のための蒸留法がいくつか導入されている。
その関連性にも拘わらず, 現状蒸留法がモデル性能および説明可能性に与える影響については, 十分に検討されていない。
論文 参考訳(メタデータ) (2025-04-22T17:32:48Z) - Learning from Stochastic Teacher Representations Using Student-Guided Knowledge Distillation [64.15918654558816]
教師表現のフィルタリングと重み付けのための自己蒸留(SSD)訓練戦略を導入し,タスク関連表現のみから抽出する。
UCR Archiveのウェアラブル/バイオサインデータセット、HARデータセット、画像分類データセットなどの実世界の感情コンピューティングに関する実験結果は、提案したSSD手法が最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2025-04-19T14:08:56Z) - Linear Projections of Teacher Embeddings for Few-Class Distillation [14.99228980898161]
知識蒸留(KD)は、より大規模で複雑な教師モデルからより小さな学生モデルへ知識を移行するための有望なアプローチとして登場した。
学習埋め込み線形射影(LELP)と呼ばれる教師のモデル表現から知識を抽出する新しい手法を提案する。
Amazon ReviewsやSentiment140のような大規模NLPベンチマークの実験的な評価では、LELPはバイナリや少数クラスの問題に対する既存の最先端蒸留アルゴリズムと一貫して競合し、典型的には優れていることが示されている。
論文 参考訳(メタデータ) (2024-09-30T16:07:34Z) - Multi-Granularity Semantic Revision for Large Language Model Distillation [66.03746866578274]
LLM蒸留における多粒性セマンティックリビジョン法を提案する。
シーケンスレベルでは、シーケンス修正と再生戦略を提案する。
トークンレベルでは、蒸留目的関数として、Kulback-Leibler損失を補正する分布適応クリッピングを設計する。
スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と学生の確率相関を一貫性に制約する。
論文 参考訳(メタデータ) (2024-07-14T03:51:49Z) - ELAD: Explanation-Guided Large Language Models Active Distillation [16.243249111524403]
LLM(Large Language Models)のデプロイメントと適用は、そのメモリ非効率性、計算要求、API推論の高コストによって妨げられている。
LLMの能力をより小さなモデルに伝達する伝統的な蒸留法は、知識が十分に伝達されているかどうかを判断できないことが多い。
本稿では,アノテーションコストとモデル性能のバランスを最適化するために,アクティブラーニング戦略を用いた説明誘導型ELAD(Explaination-Guided LLMs Active Distillation)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-20T15:47:59Z) - MinT: Boosting Generalization in Mathematical Reasoning via Multi-View
Fine-Tuning [53.90744622542961]
数学領域における推論は、小言語モデル(LM)にとって重要な課題である。
多様なアノテーションスタイルで既存の数学的問題データセットを利用する新しい手法を提案する。
実験結果から,LLaMA-7Bモデルが先行手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-16T05:41:53Z) - Heterogeneous Knowledge Distillation using Information Flow Modeling [82.83891707250926]
教師モデルの様々な層を流れる情報の流れをモデル化して機能する新しいKD手法を提案する。
提案手法は, トレーニング過程の異なる段階において, 適切な監督手法を用いて, 上記の制限を克服することができる。
論文 参考訳(メタデータ) (2020-05-02T06:56:56Z) - Knowledge distillation via adaptive instance normalization [52.91164959767517]
本稿では,教師から生徒への特徴統計の伝達に基づく新しい知識蒸留法を提案する。
本手法は,教師に類似する生徒の平均と分散を強制する標準的な方法を超えている。
以上の結果から, 蒸留法は他の蒸留法よりも高い性能を示した。
論文 参考訳(メタデータ) (2020-03-09T17:50:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。