論文の概要: A Survey on Recent Teacher-student Learning Studies
- arxiv url: http://arxiv.org/abs/2304.04615v1
- Date: Mon, 10 Apr 2023 14:30:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-11 14:40:28.961262
- Title: A Survey on Recent Teacher-student Learning Studies
- Title(参考訳): 最近の教員-学生学習研究に関する調査
- Authors: Minghong Gao
- Abstract要約: 知識蒸留は、複雑なディープニューラルネットワーク(DNN)からより小さくより高速なDNNに知識を伝達する方法である。
近年の知識蒸留には、補助蒸留、カリキュラム蒸留、マスク蒸留、デカップリング蒸留などがある。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation is a method of transferring the knowledge from a
complex deep neural network (DNN) to a smaller and faster DNN, while preserving
its accuracy. Recent variants of knowledge distillation include teaching
assistant distillation, curriculum distillation, mask distillation, and
decoupling distillation, which aim to improve the performance of knowledge
distillation by introducing additional components or by changing the learning
process. Teaching assistant distillation involves an intermediate model called
the teaching assistant, while curriculum distillation follows a curriculum
similar to human education. Mask distillation focuses on transferring the
attention mechanism learned by the teacher, and decoupling distillation
decouples the distillation loss from the task loss. Overall, these variants of
knowledge distillation have shown promising results in improving the
performance of knowledge distillation.
- Abstract(参考訳): 知識蒸留は、複雑なディープニューラルネットワーク(DNN)からより小さくより高速なDNNへ知識を伝達する手法であり、精度を保っている。
最近の知識蒸留の変種としては、補助蒸留、カリキュラム蒸留、マスク蒸留、脱カップリング蒸留があり、追加部品の導入や学習プロセスの変更によって知識蒸留の性能を向上させることを目的としている。
教育補助蒸留は教育アシスタントと呼ばれる中間モデルを含み、カリキュラム蒸留は人間教育と同様のカリキュラムに従っている。
マスク蒸留は教師が学習した注意機構の伝達に焦点を合わせ、蒸留の分離はタスク損失から蒸留損失を分離する。
全体として、これらの知識蒸留の変種は、知識蒸留の性能向上に有望な結果を示している。
関連論文リスト
- Tailoring Instructions to Student's Learning Levels Boosts Knowledge Distillation [52.53446712834569]
LGTM(Learning Good Teacher Matters)は,教師の学習プロセスに蒸留の影響を組み込むための効果的な訓練手法である。
我々のLGTMはGLUEベンチマークで6つのテキスト分類タスクに基づいて10の共通知識蒸留基準を上回ります。
論文 参考訳(メタデータ) (2023-05-16T17:50:09Z) - Learning the Wrong Lessons: Inserting Trojans During Knowledge
Distillation [68.8204255655161]
トロイの木馬の攻撃は、ディープラーニングモデルの基本的脆弱性を明らかにし、同時に顕著に有名になった。
我々は,教師に顕著な振る舞いを導入することなく,生徒モデルにトロイの木馬を埋め込むために,乱れのないデータ知識蒸留プロセスを活用することを目的とする。
我々は、生徒の精度を効果的に低減し、教師のパフォーマンスを変えず、実際に効率的に構築可能なトロイの木馬攻撃を考案した。
論文 参考訳(メタデータ) (2023-03-09T21:37:50Z) - Supervision Complexity and its Role in Knowledge Distillation [65.07910515406209]
蒸留した学生の一般化行動について検討する。
この枠組みは、教師の精度、教師の予測に対する生徒の差、教師の予測の複雑さの間の微妙な相互作用を強調している。
オンライン蒸留の有効性を実証し,様々な画像分類ベンチマークとモデルアーキテクチャに関する理論的知見を検証した。
論文 参考訳(メタデータ) (2023-01-28T16:34:47Z) - Class-aware Information for Logit-based Knowledge Distillation [16.634819319915923]
そこで本研究では,ロジット蒸留をインスタンスレベルとクラスレベルの両方で拡張する,クラス対応ロジット知識蒸留法を提案する。
CLKDにより、教師モデルからより高度な意味情報を模倣し、蒸留性能を向上させることができる。
論文 参考訳(メタデータ) (2022-11-27T09:27:50Z) - DETRDistill: A Universal Knowledge Distillation Framework for
DETR-families [11.9748352746424]
トランスフォーマーベースの検出器(DETR)は、訓練パラダイムの疎さと後処理操作の除去により、大きな注目を集めている。
知識蒸留(KD)は、普遍的な教師学習フレームワークを構築することで、巨大なモデルを圧縮するために用いられる。
論文 参考訳(メタデータ) (2022-11-17T13:35:11Z) - Spot-adaptive Knowledge Distillation [39.23627955442595]
我々はスポット適応型KD(SAKD)と呼ばれる新しい蒸留戦略を提案する。
SAKDは、全蒸留期間中のトレーニングイテレーション毎に、サンプルごとの教師ネットワーク内の蒸留スポットを適応的に決定する。
SAKDの有効性を実証するために10種類の最先端蒸留器を用いた実験を行った。
論文 参考訳(メタデータ) (2022-05-05T02:21:32Z) - Controlling the Quality of Distillation in Response-Based Network
Compression [0.0]
圧縮ネットワークの性能は蒸留の品質によって管理される。
教師と学生のペアは、教師の訓練中にバッチサイズとエポック数のスイートスポットを見つけることで、蒸留の質を向上させることができる。
論文 参考訳(メタデータ) (2021-12-19T02:53:51Z) - Fixing the Teacher-Student Knowledge Discrepancy in Distillation [72.4354883997316]
本稿では,教師の知識を学生とより整合させる,新たな学生依存型蒸留法である知識一貫型蒸留を提案する。
この手法は非常に柔軟で,他の最先端手法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2021-03-31T06:52:20Z) - Collaborative Teacher-Student Learning via Multiple Knowledge Transfer [79.45526596053728]
複数知識伝達(CTSL-MKT)による協調学習を提案する。
複数の学生が協調的な方法で個々のインスタンスとインスタンスの関係の両方から知識を学ぶことができます。
4つの画像データセットの実験とアブレーション研究は、提案したCTSL-MKTが最先端のKD法よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2021-01-21T07:17:04Z) - A Selective Survey on Versatile Knowledge Distillation Paradigm for
Neural Network Models [3.770437296936382]
本稿では, 知識蒸留の3つの重要な要素が, 知識と損失である, 教師-学生パラダイム, 蒸留プロセスである,という仮説から, 知識蒸留の特徴を概観する。
本稿では, 知識蒸留における今後の課題として, 性能向上の分析分析を研究対象とする説明可能な知識蒸留と, 深層学習コミュニティにおける熱い研究課題である自己教師型学習について述べる。
論文 参考訳(メタデータ) (2020-11-30T05:22:02Z) - Why distillation helps: a statistical perspective [69.90148901064747]
知識蒸留は、単純な「学生」モデルの性能を向上させる技術である。
この単純なアプローチは広く有効であることが証明されているが、基本的な問題は未解決のままである。
蒸留が既存の負の鉱業技術をどのように補完し, 極端に多層的検索を行うかを示す。
論文 参考訳(メタデータ) (2020-05-21T01:49:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。