論文の概要: Rethinking Selective Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2602.01395v1
- Date: Sun, 01 Feb 2026 18:58:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.766062
- Title: Rethinking Selective Knowledge Distillation
- Title(参考訳): 選択的知識蒸留の再考
- Authors: Almog Tavor, Itay Ebenspanger, Neil Cnaan, Mor Geva,
- Abstract要約: どの重要信号、選択ポリシー、そしてそれらの相互作用が最も効果的かは、いまだ不明である。
学生エントロピー誘導位置選択(SE-KD)をクラスとサンプル軸間で導入する。
このアプローチは、オフラインの教師キャッシングを可能にする補完的な効率向上をもたらす。
- 参考スコア(独自算出の注目度): 21.167064592056196
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Growing efforts to improve knowledge distillation (KD) in large language models (LLMs) replace dense teacher supervision with selective distillation, which uses a subset of token positions, vocabulary classes, or training samples for supervision. However, it remains unclear which importance signals, selection policies, and their interplay are most effective. In this work, we revisit where and how to distill in autoregressive LLMs. We disentangle selective KD along the position, class, and sample axes and systematically compare importance signals and selection policies. Then, guided by this analysis, we identify underexplored opportunities and introduce student-entropy-guided position selection (SE-KD). Across a suite of benchmarks, SE-KD often improves accuracy, downstream task adherence, and memory efficiency over dense distillation. Extending this approach across the class and sample axes (SE-KD 3X) yields complementary efficiency gains that make offline teacher caching feasible. In practice, this reduces wall time by 70% and peak memory by 18%, while cutting storage usage by 80% over prior methods without sacrificing performance.
- Abstract(参考訳): 大規模言語モデル(LLM)における知識蒸留(KD)の改善への取り組みは、密集した教師の指導を、トークンの位置、語彙のサブセット、または監督のためのトレーニングサンプルを使用する選択的な蒸留に置き換える。
しかし、どの重要信号、選択方針、およびそれらの相互作用が最も効果的かは定かではない。
本研究では, 自己回帰式LLMの蒸留方法について検討する。
我々は、選択的なKDを位置、クラス、サンプル軸に沿って切り離し、重要信号と選択ポリシーを体系的に比較する。
そして,この分析により,未探索の機会を特定し,学生エントロピー誘導位置選択(SE-KD)を導入する。
一連のベンチマークにおいて、SE-KDは高密度蒸留よりも精度、ダウンストリームタスクの順守、メモリ効率を向上させる。
このアプローチをクラス全体に拡張し、サンプルx(SE-KD 3X)は、オフラインの教師キャッシングを可能にする補完的な効率向上をもたらす。
実際には、ウォール時間を70%削減し、ピークメモリを18%削減すると同時に、以前の方法よりも80%削減する。
関連論文リスト
- Distillation of Large Language Models via Concrete Score Matching [28.320219993420434]
大規模言語モデル (LLM) は優れた性能を提供するが、効率的な推論のための知識蒸留 (KD) の展開に費用がかかる。
本稿では,ソフトマックスによる平滑化と最適解集合の制約を克服する離散的なスコアマッチング手法を提案する。
実験により、CSDは最近のKD目標を一貫して上回り、良好なフィデリティと多様性のトレードオフを達成し、オン・ポリティの技法と組み合わせることで補完的な利益を得ることが示された。
論文 参考訳(メタデータ) (2025-09-30T06:21:28Z) - PCoreSet: Effective Active Learning through Knowledge Distillation from Vision-Language Models [44.421994768941126]
本稿では,能動学習と知識蒸留を統合したフレームワークであるActiveKDを紹介する。
ActiveKDの重要な側面は、大きな視覚言語モデル(VLM)の構造的予測バイアスである。
本稿では,特徴空間ではなく,確率空間のカバレッジを最大化する選択戦略として,確率的コアセット(PCoreSet)を提案する。
論文 参考訳(メタデータ) (2025-06-01T08:54:37Z) - Direct Preference Knowledge Distillation for Large Language Models [73.50849692633953]
大規模言語モデル(LLM)のためのDPKD(Direct Preference Knowledge Distillation)を提案する。
我々はLLMのKDを、暗黙の報酬と逆のKL分岐からなる最適化と目的の2段階に再構成する。
実験と理論的解析により,KDにおける暗黙の報酬と出力選好の価値と効果を証明した。
論文 参考訳(メタデータ) (2024-06-28T09:23:40Z) - Densely Distilling Cumulative Knowledge for Continual Learning [14.343655566551213]
多様なタスクのシーケンシャルなトレーニングを含む継続的な学習は、しばしば破滅的な忘れに直面します。
本稿では,従来の課題の累積知識を抽出するために,Dense Knowledge Distillation (DKD)を提案する。
我々のDKDは、様々なベンチマークやシナリオで最新の最先端のベースラインを上回っています。
論文 参考訳(メタデータ) (2024-05-16T05:37:06Z) - CrossKD: Cross-Head Knowledge Distillation for Object Detection [69.16346256926842]
知識蒸留(KD)は、コンパクト物体検出器の学習に有効なモデル圧縮技術として検証されている。
そこで本研究では,学生の検知ヘッドの中間的特徴を教師の検知ヘッドに伝達する,CrossKDと呼ばれる蒸留方式を模倣する予測手法を提案する。
われわれのCrossKDはGFL ResNet-50の平均精度を40.2から43.7に向上させ、既存のKD手法を上回ります。
論文 参考訳(メタデータ) (2023-06-20T08:19:51Z) - Unbiased Knowledge Distillation for Recommendation [66.82575287129728]
知識蒸留(KD)は推論遅延を低減するためにレコメンダシステム(RS)に応用されている。
従来のソリューションは、まずトレーニングデータから完全な教師モデルを訓練し、その後、その知識を変換して、コンパクトな学生モデルの学習を監督する。
このような標準的な蒸留パラダイムは深刻なバイアス問題を引き起こし、蒸留後に人気アイテムがより強く推奨されることになる。
論文 参考訳(メタデータ) (2022-11-27T05:14:03Z) - Localization Distillation for Object Detection [134.12664548771534]
物体検出のための従来の知識蒸留法(KD)は、分類ロジットを模倣するのではなく、主に特徴模倣に焦点を当てている。
本稿では,教師から生徒に効率よくローカライズ知識を伝達できる新しいローカライズ蒸留法を提案する。
われわれは,ロジット模倣が特徴模倣より優れることを示すとともに,ロージット模倣が何年もの間,ロージット模倣が不十分であった理由として,ロージット蒸留が欠如していることが重要である。
論文 参考訳(メタデータ) (2022-04-12T17:14:34Z) - Deep Semi-supervised Knowledge Distillation for Overlapping Cervical
Cell Instance Segmentation [54.49894381464853]
本稿では, ラベル付きデータとラベルなしデータの両方を, 知識蒸留による精度向上に活用することを提案する。
摂動に敏感なサンプルマイニングを用いたマスク誘導型平均教師フレームワークを提案する。
実験の結果,ラベル付きデータのみから学習した教師付き手法と比較して,提案手法は性能を著しく向上することがわかった。
論文 参考訳(メタデータ) (2020-07-21T13:27:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。