論文の概要: Knowledge Distillation: A Survey
- arxiv url: http://arxiv.org/abs/2006.05525v7
- Date: Thu, 20 May 2021 13:45:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 14:19:33.781167
- Title: Knowledge Distillation: A Survey
- Title(参考訳): 知識蒸留:調査
- Authors: Jianping Gou, Baosheng Yu, Stephen John Maybank, Dacheng Tao
- Abstract要約: ディープニューラルネットワークは、特にコンピュータビジョンタスクにおいて、産業と学術の両方で成功している。
リソースが限られているデバイスに、これらの面倒なディープモデルをデプロイすることは難しい。
知識蒸留は、大きな教師モデルから小さな学生モデルを効果的に学習する。
- 参考スコア(独自算出の注目度): 87.51063304509067
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, deep neural networks have been successful in both industry
and academia, especially for computer vision tasks. The great success of deep
learning is mainly due to its scalability to encode large-scale data and to
maneuver billions of model parameters. However, it is a challenge to deploy
these cumbersome deep models on devices with limited resources, e.g., mobile
phones and embedded devices, not only because of the high computational
complexity but also the large storage requirements. To this end, a variety of
model compression and acceleration techniques have been developed. As a
representative type of model compression and acceleration, knowledge
distillation effectively learns a small student model from a large teacher
model. It has received rapid increasing attention from the community. This
paper provides a comprehensive survey of knowledge distillation from the
perspectives of knowledge categories, training schemes, teacher-student
architecture, distillation algorithms, performance comparison and applications.
Furthermore, challenges in knowledge distillation are briefly reviewed and
comments on future research are discussed and forwarded.
- Abstract(参考訳): 近年、ディープニューラルネットワークは、特にコンピュータビジョンタスクにおいて、産業と学術の両方で成功している。
ディープラーニングの大きな成功は主に、大規模なデータをエンコードし、数十億のモデルパラメータを操作するスケーラビリティにある。
しかし、携帯電話や組み込みデバイスのような限られたリソースを持つデバイスにこれらの面倒なディープモデルをデプロイすることは、高い計算複雑性だけでなく、大きなストレージ要求のために困難である。
この目的のために、様々なモデル圧縮と加速技術が開発されている。
モデル圧縮と加速の代表的なタイプとして、知識蒸留は、大きな教師モデルから小さな学生モデルを効果的に学習する。
コミュニティから急速に注目を集めている。
本稿では,知識カテゴリ,トレーニングスキーム,教員学生アーキテクチャ,蒸留アルゴリズム,性能比較,応用の観点から,知識蒸留に関する総合的な調査を行う。
さらに, 知識蒸留における課題を概観し, 今後の研究へのコメントを述べる。
関連論文リスト
- Comprehensive Study on Performance Evaluation and Optimization of Model Compression: Bridging Traditional Deep Learning and Large Language Models [0.0]
世界中のコネクテッドデバイスの数の増加は、計算能力の低いローカルデバイスに容易に展開できる圧縮モデルを保証する。
画像分類,オブジェクト検出,言語モデル,生成モデルに基づく問題文に使用される一般的なディープラーニングモデルに対して,量子化とプルーニングの両方を実装した。
論文 参考訳(メタデータ) (2024-07-22T14:20:53Z) - A Comprehensive Review of Knowledge Distillation in Computer Vision [4.9407806800208816]
本稿では, 複雑なモデルをより小さく, より単純なものに圧縮する技術である, 知識蒸留研究の現状について検討する。
本稿では,知識蒸留に関する主要な原則と技術の概要を述べるとともに,コンピュータビジョン分野における知識蒸留の応用について概説する。
論文 参考訳(メタデータ) (2024-04-01T05:46:15Z) - Computation-efficient Deep Learning for Computer Vision: A Survey [121.84121397440337]
ディープラーニングモデルは、さまざまな視覚的知覚タスクにおいて、人間レベルのパフォーマンスに到達または超えた。
ディープラーニングモデルは通常、重要な計算資源を必要とし、現実のシナリオでは非現実的な電力消費、遅延、または二酸化炭素排出量につながる。
新しい研究の焦点は計算効率のよいディープラーニングであり、推論時の計算コストを最小限に抑えつつ、良好な性能を達成することを目指している。
論文 参考訳(メタデータ) (2023-08-27T03:55:28Z) - Multi-teacher knowledge distillation as an effective method for
compressing ensembles of neural networks [0.0]
大規模深層モデルは非常に成功したが、膨大な計算複雑性と巨大なストレージ要件により、リアルタイムアプリケーションでは実装が困難である。
単一モデルの重み空間に全アンサンブルモデルを圧縮できる改良された知識蒸留フレームワークを提案する。
知識蒸留は,1つの学生モデルで複数の教師の知識を集約し,同じ計算量で,標準手法で訓練したモデルと比較して,優れた性能のモデルが得られることを示す。
論文 参考訳(メタデータ) (2023-02-14T17:40:36Z) - From Actions to Events: A Transfer Learning Approach Using Improved Deep
Belief Networks [1.0554048699217669]
本稿では,エネルギーモデルを用いた行動認識からイベント認識への知識マッピング手法を提案する。
このようなモデルはすべてのフレームを同時に処理し、学習プロセスを通じて空間的および時間的情報を運ぶことができる。
論文 参考訳(メタデータ) (2022-11-30T14:47:10Z) - Learnware: Small Models Do Big [69.88234743773113]
自然言語処理やコンピュータビジョンの応用で目覚ましい成果を上げてきた、一般的なビッグモデルパラダイムは、これらの問題にまだ対応していないが、炭素排出量の深刻な源となっている。
この記事では、マシンラーニングモデルをスクラッチから構築する必要がないようにするための学習ソフトウェアパラダイムの概要を紹介します。
論文 参考訳(メタデータ) (2022-10-07T15:55:52Z) - Design Automation for Fast, Lightweight, and Effective Deep Learning
Models: A Survey [53.258091735278875]
本調査では,エッジコンピューティングを対象としたディープラーニングモデルの設計自動化技術について述べる。
これは、有効性、軽量性、計算コストの観点からモデルの習熟度を定量化するために一般的に使用される主要なメトリクスの概要と比較を提供する。
この調査は、ディープモデル設計自動化技術の最先端の3つのカテゴリをカバーしている。
論文 参考訳(メタデータ) (2022-08-22T12:12:43Z) - Neural Architecture Search for Dense Prediction Tasks in Computer Vision [74.9839082859151]
ディープラーニングは、ニューラルネットワークアーキテクチャエンジニアリングに対する需要の高まりにつながっている。
ニューラルネットワーク検索(NAS)は、手動ではなく、データ駆動方式でニューラルネットワークアーキテクチャを自動設計することを目的としている。
NASはコンピュータビジョンの幅広い問題に適用されている。
論文 参考訳(メタデータ) (2022-02-15T08:06:50Z) - Knowledge Distillation in Deep Learning and its Applications [0.6875312133832078]
ディープラーニングモデルは比較的大きく、リソース制限されたデバイスにそのようなモデルをデプロイすることは困難である。
1つの解決策は知識蒸留であり、より小さなモデル(学生モデル)がより大きなモデル(教師モデル)からの情報を利用して訓練される。
論文 参考訳(メタデータ) (2020-07-17T14:43:52Z) - Neural Networks Are More Productive Teachers Than Human Raters: Active
Mixup for Data-Efficient Knowledge Distillation from a Blackbox Model [57.41841346459995]
我々は,ブラックボックス教師モデルから知識を抽出し,学生の深層ニューラルネットワークを視覚認識のために訓練する方法を,データ効率のよい方法で研究する。
混合学習とアクティブラーニングを融合した手法を提案する。
論文 参考訳(メタデータ) (2020-03-31T05:44:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。