論文の概要: A Selective Survey on Versatile Knowledge Distillation Paradigm for
Neural Network Models
- arxiv url: http://arxiv.org/abs/2011.14554v1
- Date: Mon, 30 Nov 2020 05:22:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-07 06:15:51.298091
- Title: A Selective Survey on Versatile Knowledge Distillation Paradigm for
Neural Network Models
- Title(参考訳): ニューラルネットワークモデルのための揮発性知識蒸留パラダイムの選択的調査
- Authors: Jeong-Hoe Ku, JiHun Oh, YoungYoon Lee, Gaurav Pooniwala, SangJeong Lee
- Abstract要約: 本稿では, 知識蒸留の3つの重要な要素が, 知識と損失である, 教師-学生パラダイム, 蒸留プロセスである,という仮説から, 知識蒸留の特徴を概観する。
本稿では, 知識蒸留における今後の課題として, 性能向上の分析分析を研究対象とする説明可能な知識蒸留と, 深層学習コミュニティにおける熱い研究課題である自己教師型学習について述べる。
- 参考スコア(独自算出の注目度): 3.770437296936382
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper aims to provide a selective survey about knowledge
distillation(KD) framework for researchers and practitioners to take advantage
of it for developing new optimized models in the deep neural network field. To
this end, we give a brief overview of knowledge distillation and some related
works including learning using privileged information(LUPI) and generalized
distillation(GD). Even though knowledge distillation based on the
teacher-student architecture was initially devised as a model compression
technique, it has found versatile applications over various frameworks.
In this paper, we review the characteristics of knowledge distillation from
the hypothesis that the three important ingredients of knowledge distillation
are distilled knowledge and loss,teacher-student paradigm, and the distillation
process. In addition, we survey the versatility of the knowledge distillation
by studying its direct applications and its usage in combination with other
deep learning paradigms. Finally we present some future works in knowledge
distillation including explainable knowledge distillation where the analytical
analysis of the performance gain is studied and the self-supervised learning
which is a hot research topic in deep learning community.
- Abstract(参考訳): 本稿では,知識蒸留(KD)フレームワークを研究者や実践者が活用し,深層ニューラルネットワーク分野における新しい最適化モデルの開発を目的とする。
この目的のために,我々は知識蒸留の概要と,特権情報を用いた学習(lupi)や一般化蒸留(gd)を含む関連研究について述べる。
教師-学生アーキテクチャに基づく知識蒸留は、当初はモデル圧縮技術として考案されたが、様々なフレームワークにまたがって多用途に応用されている。
本稿では,知識蒸留の重要な成分は,知識と損失の3つ,教師と学生のパラダイム,そして蒸留プロセスである,という仮説から,知識蒸留の特徴を考察する。
さらに,その直接的応用と,他の深層学習パラダイムと組み合わせて,知識蒸留の汎用性について検討した。
最後に,演奏利得の分析分析を研究するための説明可能な知識蒸留や,深層学習コミュニティにおけるホットな研究テーマである自己教師あり学習など,今後の知識蒸留の研究について述べる。
関連論文リスト
- Teaching with Uncertainty: Unleashing the Potential of Knowledge Distillation in Object Detection [47.0507287491627]
本稿では,物体検出のための知識の不確実性を考慮した特徴量に基づく蒸留パラダイムを提案する。
モンテカルロのドロップアウト手法を利用して,学生モデルの学習過程に知識の不確実性を導入する。
本手法は,複雑な構造や計算資源を必要とせずに,KDプロセス中に効果的に機能する。
論文 参考訳(メタデータ) (2024-06-11T06:51:02Z) - Knowledge Distillation via Token-level Relationship Graph [12.356770685214498]
token-level Relation Graph (TRG) を用いた知識蒸留法を提案する。
TRGを利用することで、教師モデルから高レベルの意味情報を効果的にエミュレートすることができる。
我々は,提案手法の有効性を,いくつかの最先端手法に対して評価する実験を行った。
論文 参考訳(メタデータ) (2023-06-20T08:16:37Z) - AD-KD: Attribution-Driven Knowledge Distillation for Language Model
Compression [26.474962405945316]
本稿では,事前学習言語モデルを圧縮するための新しい帰属駆動型知識蒸留手法を提案する。
モデル推論と一般化の知識伝達を強化するため,教師のすべての潜在的判断に対する多視点帰属蒸留について検討する。
論文 参考訳(メタデータ) (2023-05-17T07:40:12Z) - A Survey on Recent Teacher-student Learning Studies [0.0]
知識蒸留は、複雑なディープニューラルネットワーク(DNN)からより小さくより高速なDNNに知識を伝達する方法である。
近年の知識蒸留には、補助蒸留、カリキュラム蒸留、マスク蒸留、デカップリング蒸留などがある。
論文 参考訳(メタデータ) (2023-04-10T14:30:28Z) - Improved Knowledge Distillation for Pre-trained Language Models via
Knowledge Selection [35.515135913846386]
本稿では, 知識蒸留プロセスにおいて, 適切な知識を選択するためのアクター批判的アプローチを提案する。
GLUEデータセットによる実験結果から,本手法はいくつかの強い知識蒸留基準を著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-02-01T13:40:19Z) - Knowledge-augmented Deep Learning and Its Applications: A Survey [60.221292040710885]
知識強化ディープラーニング(KADL)は、ドメイン知識を特定し、それをデータ効率、一般化可能、解釈可能なディープラーニングのためのディープモデルに統合することを目的としている。
本調査は,既存の研究成果を補足し,知識強化深層学習の一般分野における鳥眼研究の展望を提供する。
論文 参考訳(メタデータ) (2022-11-30T03:44:15Z) - Knowledge Distillation Meets Open-Set Semi-Supervised Learning [69.21139647218456]
本研究では,事前学習した教師から対象学生へ,表現的知識を意味的に蒸留する新しいモデル名(bfem shortname)を提案する。
問題レベルでは、これは知識蒸留とオープンセット半教師付き学習(SSL)との興味深い関係を確立する。
我々のショートネームは、粗い物体分類と微妙な顔認識タスクの両方において、最先端の知識蒸留法よりもかなり優れている。
論文 参考訳(メタデータ) (2022-05-13T15:15:27Z) - A Closer Look at Knowledge Distillation with Features, Logits, and
Gradients [81.39206923719455]
知識蒸留(KD)は、学習した知識をあるニューラルネットワークモデルから別のニューラルネットワークモデルに転送するための重要な戦略である。
この研究は、古典的なKL分割基準を異なる知識源で近似することで、一連の知識蒸留戦略を動機付ける新しい視点を提供する。
分析の結果,ロジットは一般的により効率的な知識源であり,十分な特徴次元を持つことがモデル設計に不可欠であることが示唆された。
論文 参考訳(メタデータ) (2022-03-18T21:26:55Z) - Extracting knowledge from features with multilevel abstraction [3.4443503349903124]
自己知識蒸留(SKD)は、大きな教師モデルから小さな学生モデルに知識を移すことを目的としている。
本稿では,本手法と異なる方法で,新しいSKD手法を提案する。
実験とアブレーション研究は、様々なタスクにおいて、その大きな効果と一般化を示している。
論文 参考訳(メタデータ) (2021-12-04T02:25:46Z) - Collaborative Teacher-Student Learning via Multiple Knowledge Transfer [79.45526596053728]
複数知識伝達(CTSL-MKT)による協調学習を提案する。
複数の学生が協調的な方法で個々のインスタンスとインスタンスの関係の両方から知識を学ぶことができます。
4つの画像データセットの実験とアブレーション研究は、提案したCTSL-MKTが最先端のKD法よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2021-01-21T07:17:04Z) - Towards Understanding Ensemble, Knowledge Distillation and
Self-Distillation in Deep Learning [93.18238573921629]
本研究では,学習モデルのアンサンブルがテスト精度を向上させる方法と,アンサンブルの優れた性能を単一モデルに蒸留する方法について検討する。
深層学習におけるアンサンブル/知識蒸留は,従来の学習理論とは大きく異なる。
また, 自己蒸留は, アンサンブルと知識蒸留を暗黙的に組み合わせて, 試験精度を向上させることができることを示した。
論文 参考訳(メタデータ) (2020-12-17T18:34:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。