論文の概要: Knowledge Distillation in Deep Learning and its Applications
- arxiv url: http://arxiv.org/abs/2007.09029v1
- Date: Fri, 17 Jul 2020 14:43:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 13:11:21.302747
- Title: Knowledge Distillation in Deep Learning and its Applications
- Title(参考訳): 深層学習における知識蒸留とその応用
- Authors: Abdolmaged Alkhulaifi, Fahad Alsahli, Irfan Ahmad
- Abstract要約: ディープラーニングモデルは比較的大きく、リソース制限されたデバイスにそのようなモデルをデプロイすることは困難である。
1つの解決策は知識蒸留であり、より小さなモデル(学生モデル)がより大きなモデル(教師モデル)からの情報を利用して訓練される。
- 参考スコア(独自算出の注目度): 0.6875312133832078
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning based models are relatively large, and it is hard to deploy
such models on resource-limited devices such as mobile phones and embedded
devices. One possible solution is knowledge distillation whereby a smaller
model (student model) is trained by utilizing the information from a larger
model (teacher model). In this paper, we present a survey of knowledge
distillation techniques applied to deep learning models. To compare the
performances of different techniques, we propose a new metric called
distillation metric. Distillation metric compares different knowledge
distillation algorithms based on sizes and accuracy scores. Based on the
survey, some interesting conclusions are drawn and presented in this paper.
- Abstract(参考訳): ディープラーニングベースのモデルは比較的大きく、そのようなモデルを携帯電話や組み込みデバイスといったリソース制限されたデバイスにデプロイすることは困難である。
1つの解決策は知識蒸留であり、より小さなモデル(学生モデル)がより大きなモデル(教師モデル)の情報を利用して訓練される。
本稿では,ディープラーニングモデルに適用した知識蒸留技術について調査する。
異なる技術の性能を比較するために,蒸留計量という新しい指標を提案する。
蒸留計量は、サイズと精度スコアに基づいて異なる知識蒸留アルゴリズムを比較する。
調査の結果から,本論文ではいくつかの興味深い結論が得られた。
関連論文リスト
- LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。
本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。
異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文 参考訳(メタデータ) (2024-07-28T06:10:47Z) - Learning Lightweight Object Detectors via Multi-Teacher Progressive
Distillation [56.053397775016755]
本稿では,教師検出器の知識を学生に段階的に伝達する,知識蒸留への逐次的アプローチを提案する。
私たちの知識を最大限に活用するために、私たちはTransformerベースの教師検出器から、畳み込みベースの学生まで、初めて知識を抽出しました。
論文 参考訳(メタデータ) (2023-08-17T17:17:08Z) - Multi-teacher knowledge distillation as an effective method for
compressing ensembles of neural networks [0.0]
大規模深層モデルは非常に成功したが、膨大な計算複雑性と巨大なストレージ要件により、リアルタイムアプリケーションでは実装が困難である。
単一モデルの重み空間に全アンサンブルモデルを圧縮できる改良された知識蒸留フレームワークを提案する。
知識蒸留は,1つの学生モデルで複数の教師の知識を集約し,同じ計算量で,標準手法で訓練したモデルと比較して,優れた性能のモデルが得られることを示す。
論文 参考訳(メタデータ) (2023-02-14T17:40:36Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - Extracting knowledge from features with multilevel abstraction [3.4443503349903124]
自己知識蒸留(SKD)は、大きな教師モデルから小さな学生モデルに知識を移すことを目的としている。
本稿では,本手法と異なる方法で,新しいSKD手法を提案する。
実験とアブレーション研究は、様々なタスクにおいて、その大きな効果と一般化を示している。
論文 参考訳(メタデータ) (2021-12-04T02:25:46Z) - Distill on the Go: Online knowledge distillation in self-supervised
learning [1.1470070927586016]
最近の研究では、より広範でより深いモデルは、小さなモデルよりも自己監督学習の恩恵を受けることが示されている。
単段階オンライン知識蒸留を用いた自己指導型学習パラダイムであるDistill-on-the-Go(DoGo)を提案する。
以上の結果から,ノイズラベルや限定ラベルの存在下でのパフォーマンス向上がみられた。
論文 参考訳(メタデータ) (2021-04-20T09:59:23Z) - Towards Understanding Ensemble, Knowledge Distillation and
Self-Distillation in Deep Learning [93.18238573921629]
本研究では,学習モデルのアンサンブルがテスト精度を向上させる方法と,アンサンブルの優れた性能を単一モデルに蒸留する方法について検討する。
深層学習におけるアンサンブル/知識蒸留は,従来の学習理論とは大きく異なる。
また, 自己蒸留は, アンサンブルと知識蒸留を暗黙的に組み合わせて, 試験精度を向上させることができることを示した。
論文 参考訳(メタデータ) (2020-12-17T18:34:45Z) - Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。
現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。
既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。
本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文 参考訳(メタデータ) (2020-12-11T08:56:39Z) - Knowledge Distillation: A Survey [87.51063304509067]
ディープニューラルネットワークは、特にコンピュータビジョンタスクにおいて、産業と学術の両方で成功している。
リソースが限られているデバイスに、これらの面倒なディープモデルをデプロイすることは難しい。
知識蒸留は、大きな教師モデルから小さな学生モデルを効果的に学習する。
論文 参考訳(メタデータ) (2020-06-09T21:47:17Z) - Triplet Loss for Knowledge Distillation [2.683996597055128]
知識蒸留の目的は,教師モデルと学生モデルとの類似性を高めることである。
計量学習では、類似したサンプルの出力の類似性を高めるモデルを構築する方法が研究されている。
メトリック学習は,異なる出力の差を明らかにすることができ,学生モデルの性能を向上させることができると考えている。
論文 参考訳(メタデータ) (2020-04-17T08:48:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。