論文の概要: Distilling Lightweight Domain Experts from Large ML Models by Identifying Relevant Subspaces
- arxiv url: http://arxiv.org/abs/2601.05913v1
- Date: Fri, 09 Jan 2026 16:28:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:50.03806
- Title: Distilling Lightweight Domain Experts from Large ML Models by Identifying Relevant Subspaces
- Title(参考訳): 関連部分空間の同定による大規模MLモデルからの軽量ドメインエキスパートの蒸留
- Authors: Pattarawat Chormai, Ali Hashemi, Klaus-Robert Müller, Grégoire Montavon,
- Abstract要約: 「SubDistill」は、各層における教師モデルの関連成分のみを蒸留する数値特性を改良した新しい蒸留アルゴリズムである。
ベンチマーク評価は, 蒸留した学生モデルが元の教師モデルの判断構造とより密に一致していることを示す説明可能なAI分析によって補完される。
- 参考スコア(独自算出の注目度): 17.627125013326175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation involves transferring the predictive capabilities of large, high-performing AI models (teachers) to smaller models (students) that can operate in environments with limited computing power. In this paper, we address the scenario in which only a few classes and their associated intermediate concepts are relevant to distill. This scenario is common in practice, yet few existing distillation methods explicitly focus on the relevant subtask. To address this gap, we introduce 'SubDistill', a new distillation algorithm with improved numerical properties that only distills the relevant components of the teacher model at each layer. Experiments on CIFAR-100 and ImageNet with Convolutional and Transformer models demonstrate that SubDistill outperforms existing layer-wise distillation techniques on a representative set of subtasks. Our benchmark evaluations are complemented by Explainable AI analyses showing that our distilled student models more closely match the decision structure of the original teacher model.
- Abstract(参考訳): 知識蒸留は、大規模で高性能なAIモデル(教師)の予測能力を、限られた計算能力を持つ環境で動作可能なより小さなモデル(学生)に転送することを含む。
本稿では,いくつかのクラスとその関連する中間概念が蒸留に関係しているシナリオに対処する。
このシナリオは実際には一般的であるが、関連するサブタスクに明示的にフォーカスする既存の蒸留方法はほとんどない。
このギャップに対処するため、各層で教師モデルの関連成分のみを蒸留する数値特性を改良した新しい蒸留アルゴリズム「SubDistill」を導入する。
CIFAR-100 と ImageNet の畳み込みおよび変圧器モデルによる実験により,SubDistill が既存の層ワイド蒸留技術よりも優れた性能を示した。
ベンチマーク評価は, 蒸留した学生モデルが元の教師モデルの判断構造とより密に一致していることを示す説明可能なAI分析によって補完される。
関連論文リスト
- Why Knowledge Distillation Works in Generative Models: A Minimal Working Explanation [50.784080714897776]
知識蒸留(KD)は、現代の生産モデルの訓練と展開における中核的な要素である。
我々は,KDが学生モデルにおける精度とリコールのトレードオフを引き起こすことを示す。
本分析は、生成モデルにおけるKDの有効性について、単純かつ一般的な説明を提供する。
論文 参考訳(メタデータ) (2025-05-19T13:39:47Z) - Honey, I Shrunk the Language Model: Impact of Knowledge Distillation Methods on Performance and Explainability [3.224880576815583]
大規模言語モデルの高い計算とストレージ要求は、リソース制約のある環境への展開を制限する。
これまでの研究では, 学習データの生成と学生モデルの訓練のための蒸留法がいくつか導入されている。
その関連性にも拘わらず, 現状蒸留法がモデル性能および説明可能性に与える影響については, 十分に検討されていない。
論文 参考訳(メタデータ) (2025-04-22T17:32:48Z) - Learning from Stochastic Teacher Representations Using Student-Guided Knowledge Distillation [64.15918654558816]
教師表現のフィルタリングと重み付けのための自己蒸留(SSD)訓練戦略を導入し,タスク関連表現のみから抽出する。
UCR Archiveのウェアラブル/バイオサインデータセット、HARデータセット、画像分類データセットなどの実世界の感情コンピューティングに関する実験結果は、提案したSSD手法が最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2025-04-19T14:08:56Z) - AMD: Automatic Multi-step Distillation of Large-scale Vision Models [39.70559487432038]
本稿では,大規模視覚モデル圧縮のための自動多段階蒸留法(AMD)を提案する。
生徒のパフォーマンスを最大化する最適な教師支援者を自動的に識別する,効率的かつ効果的な最適化フレームワークが導入された。
論文 参考訳(メタデータ) (2024-07-05T01:35:42Z) - Progressive Distillation Based on Masked Generation Feature Method for Knowledge Graph Completion [29.297959023968165]
そこで本稿では,KGCタスクのためのマスク生成機能に基づくプログレッシブ蒸留法を提案する。
具体的には、PLMの予蒸留を行い、高品質の教師モデルを取得し、PLMネットワークを圧縮し、マルチグレードの学生モデルを得る。
実験により, 予蒸留段階のモデルが, 既存の最先端手法を超越していることが実証された。
論文 参考訳(メタデータ) (2024-01-19T07:34:36Z) - Education distillation:getting student models to learn in shcools [11.017346789801238]
本稿では,教育蒸留(ED)と呼ばれる新しい知識蒸留法を紹介する。
EDは小学校、中学校、大学の教育段階を模倣し、参照ブロックをデザインする。
CIFAR100、Tiny Imagenet、Caltech、Food-101データセットの実験結果は、指導基準ブロックが忘れることの問題を効果的に回避できることを示している。
論文 参考訳(メタデータ) (2023-11-23T05:20:18Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - Pre-trained Summarization Distillation [121.14806854092672]
近年の分類・回帰作業におけるBERT蒸留の研究は, 直接的知識蒸留による高い性能を示している。
あるいは、機械翻訳の実践者は擬似ラベルを用いて蒸留し、小さなモデルをより大きなモデルの翻訳に基づいて訓練する。
第三に、より単純なアプローチは'shrink and fine-tune' (SFT) であり、より小さな学生モデルにパラメータをコピーして微調整することで、明示的な蒸留を避ける。
論文 参考訳(メタデータ) (2020-10-24T23:15:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。