論文の概要: Controlling the Quality of Distillation in Response-Based Network
Compression
- arxiv url: http://arxiv.org/abs/2112.10047v1
- Date: Sun, 19 Dec 2021 02:53:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-21 14:54:50.762380
- Title: Controlling the Quality of Distillation in Response-Based Network
Compression
- Title(参考訳): 応答型ネットワーク圧縮における蒸留品質の制御
- Authors: Vibhas Vats and David Crandall
- Abstract要約: 圧縮ネットワークの性能は蒸留の品質によって管理される。
教師と学生のペアは、教師の訓練中にバッチサイズとエポック数のスイートスポットを見つけることで、蒸留の質を向上させることができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The performance of a distillation-based compressed network is governed by the
quality of distillation. The reason for the suboptimal distillation of a large
network (teacher) to a smaller network (student) is largely attributed to the
gap in the learning capacities of given teacher-student pair. While it is hard
to distill all the knowledge of a teacher, the quality of distillation can be
controlled to a large extent to achieve better performance. Our experiments
show that the quality of distillation is largely governed by the quality of
teacher's response, which in turn is heavily affected by the presence of
similarity information in its response. A well-trained large capacity teacher
loses similarity information between classes in the process of learning
fine-grained discriminative properties for classification. The absence of
similarity information causes the distillation process to be reduced from one
example-many class learning to one example-one class learning, thereby
throttling the flow of diverse knowledge from the teacher. With the implicit
assumption that only the instilled knowledge can be distilled, instead of
focusing only on the knowledge distilling process, we scrutinize the knowledge
inculcation process. We argue that for a given teacher-student pair, the
quality of distillation can be improved by finding the sweet spot between batch
size and number of epochs while training the teacher. We discuss the steps to
find this sweet spot for better distillation. We also propose the distillation
hypothesis to differentiate the behavior of the distillation process between
knowledge distillation and regularization effect. We conduct all our
experiments on three different datasets.
- Abstract(参考訳): 蒸留に基づく圧縮ネットワークの性能は蒸留の品質によって制御される。
大規模ネットワーク(教師)からより小さなネットワーク(学生)への準最適蒸留の理由は、与えられた教師と学生のペアの学習能力の欠如に起因している。
教師のすべての知識を蒸留することは難しいが、蒸留の質は高い範囲で制御でき、より良い性能を達成することができる。
実験の結果, 蒸留の質は教師の反応の質に大きく左右され, 反応における類似性情報の存在の影響を強く受けていることがわかった。
十分に訓練された大容量教師は、分類のためのきめ細かな判別特性を学習する過程でクラス間の類似性情報を失う。
類似性情報の欠如は、蒸留過程を1つの例-多類学習から1つの例-一類学習に還元し、教師からの多様な知識の流れを減速させる。
人工的な知識のみを蒸留できるという暗黙の仮定で、知識の蒸留プロセスのみに焦点を当てるのではなく、知識の計算過程を精査する。
教師と学生のペアの場合、教師の訓練中にバッチサイズとエポック数のスイートスポットを見つけることで、蒸留の質を向上させることができると論じる。
我々はこの甘い場所を見つけるためのより良い蒸留法について論じる。
また, 蒸留プロセスの挙動を知識蒸留と正則化効果とを区別する蒸留仮説を提案する。
私たちは3つの異なるデータセットで全ての実験を行います。
関連論文リスト
- Knowledge Distillation with Refined Logits [31.205248790623703]
本稿では,現在のロジット蒸留法の限界に対処するため,Refined Logit Distillation (RLD)を導入する。
我々のアプローチは、高性能な教師モデルでさえ誤った予測をすることができるという観察に動機づけられている。
本手法は,教師からの誤解を招く情報を,重要なクラス相関を保ちながら効果的に排除することができる。
論文 参考訳(メタデータ) (2024-08-14T17:59:32Z) - A Survey on Recent Teacher-student Learning Studies [0.0]
知識蒸留は、複雑なディープニューラルネットワーク(DNN)からより小さくより高速なDNNに知識を伝達する方法である。
近年の知識蒸留には、補助蒸留、カリキュラム蒸留、マスク蒸留、デカップリング蒸留などがある。
論文 参考訳(メタデータ) (2023-04-10T14:30:28Z) - Supervision Complexity and its Role in Knowledge Distillation [65.07910515406209]
蒸留した学生の一般化行動について検討する。
この枠組みは、教師の精度、教師の予測に対する生徒の差、教師の予測の複雑さの間の微妙な相互作用を強調している。
オンライン蒸留の有効性を実証し,様々な画像分類ベンチマークとモデルアーキテクチャに関する理論的知見を検証した。
論文 参考訳(メタデータ) (2023-01-28T16:34:47Z) - Revisiting Self-Distillation [50.29938732233947]
自己蒸留とは、大きなモデル(教師)からよりコンパクトなモデル(生徒)に「知識」を移す手順である。
いくつかの作品では、自給自足の生徒が保持されたデータで教師より優れているという逸話がある。
我々は、自己蒸留がより平坦なミニマムをもたらすことを示すための広範な実験を行い、その結果、より良い一般化をもたらす。
論文 参考訳(メタデータ) (2022-06-17T00:18:51Z) - Spot-adaptive Knowledge Distillation [39.23627955442595]
我々はスポット適応型KD(SAKD)と呼ばれる新しい蒸留戦略を提案する。
SAKDは、全蒸留期間中のトレーニングイテレーション毎に、サンプルごとの教師ネットワーク内の蒸留スポットを適応的に決定する。
SAKDの有効性を実証するために10種類の最先端蒸留器を用いた実験を行った。
論文 参考訳(メタデータ) (2022-05-05T02:21:32Z) - Unified and Effective Ensemble Knowledge Distillation [92.67156911466397]
知識蒸留は、複数の教師モデルから知識を抽出し、それを1人の学生モデルにエンコードする。
既存の多くの手法は、ラベル付きデータのみに基づいて学生モデルを学習し、蒸留する。
本研究では,教師モデルのアンサンブルから,ラベル付きデータとラベルなしデータの両方から単一学生モデルを蒸留する,統一的で効果的なアンサンブル知識蒸留法を提案する。
論文 参考訳(メタデータ) (2022-04-01T16:15:39Z) - Teacher's pet: understanding and mitigating biases in distillation [61.44867470297283]
いくつかの研究により、蒸留によって学生の全体的なパフォーマンスが著しく向上することが示されている。
しかし、これらのゲインはすべてのデータサブグループに均一なのでしょうか?
蒸留が特定の部分群の性能に悪影響を及ぼすことを示す。
信頼性の低いサブグループに対して,教師の影響を和らげる手法を提案する。
論文 参考訳(メタデータ) (2021-06-19T13:06:25Z) - Fixing the Teacher-Student Knowledge Discrepancy in Distillation [72.4354883997316]
本稿では,教師の知識を学生とより整合させる,新たな学生依存型蒸留法である知識一貫型蒸留を提案する。
この手法は非常に柔軟で,他の最先端手法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2021-03-31T06:52:20Z) - Why distillation helps: a statistical perspective [69.90148901064747]
知識蒸留は、単純な「学生」モデルの性能を向上させる技術である。
この単純なアプローチは広く有効であることが証明されているが、基本的な問題は未解決のままである。
蒸留が既存の負の鉱業技術をどのように補完し, 極端に多層的検索を行うかを示す。
論文 参考訳(メタデータ) (2020-05-21T01:49:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。