論文の概要: Rethinking the Knowledge Distillation From the Perspective of Model
Calibration
- arxiv url: http://arxiv.org/abs/2111.01684v2
- Date: Wed, 3 Nov 2021 07:16:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-04 11:31:23.315188
- Title: Rethinking the Knowledge Distillation From the Perspective of Model
Calibration
- Title(参考訳): モデル校正の観点からの知識蒸留の再考
- Authors: Lehan Yang, Jincen Song
- Abstract要約: より大規模な教師モデルは自信過剰である可能性があり,学生モデルは効果的に模倣できないことがわかった。
一方、教師モデルの簡易校正後、教師モデルのサイズは生徒モデルの性能と正の相関関係を持つ。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent years have witnessed dramatically improvements in the knowledge
distillation, which can generate a compact student model for better efficiency
while retaining the model effectiveness of the teacher model. Previous studies
find that: more accurate teachers do not necessary make for better teachers due
to the mismatch of abilities. In this paper, we aim to analysis the phenomenon
from the perspective of model calibration. We found that the larger teacher
model may be too over-confident, thus the student model cannot effectively
imitate. While, after the simple model calibration of the teacher model, the
size of the teacher model has a positive correlation with the performance of
the student model.
- Abstract(参考訳): 近年、知識蒸留の大幅な改善が見られ、教師モデルのモデルの有効性を維持しつつ、より効率的な生徒モデルを生成することができる。
より正確な教師は、能力のミスマッチのためにより良い教師を作る必要はない。
本稿では,モデルキャリブレーションの観点からその現象を分析することを目的とする。
より大規模な教師モデルは自信過剰である可能性があり,学生モデルは効果的に模倣できない。
教師モデルの簡易モデルキャリブレーションを行った結果,教師モデルのサイズは,生徒モデルの性能と正の相関を示した。
関連論文リスト
- Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - CLDA: Collaborative Learning for Enhanced Unsupervised Domain Adaptation [15.97351561456467]
コラボレーティブ・ラーニング(Collaborative Learning)とは、学生モデルを用いて教師の非塩分パラメータを更新し、同時に生徒のパフォーマンスを向上させる手法である。
CLDAは、教師の+0.7% mIoUと生徒の+1.4% mIoUを、GTAのベースラインモデルとシティスケープのベースラインモデルに比較して改善する。
論文 参考訳(メタデータ) (2024-09-04T13:35:15Z) - Comparative Knowledge Distillation [102.35425896967791]
伝統的な知識蒸留(KD)は、頻繁な推論のために教師モデルに容易にアクセスできることを前提としている。
本稿では,教師モデルにおけるサンプルの解釈の微妙な違いを学生モデルに理解させるための比較知識蒸留(CKD)を提案する。
CKDは、アートデータ拡張とKDテクニックの状態を一貫して上回る。
論文 参考訳(メタデータ) (2023-11-03T21:55:33Z) - Efficient Knowledge Distillation from Model Checkpoints [36.329429655242535]
同じ訓練軌道から複数の中間モデルの弱いスナップショットアンサンブルは、独立に訓練された完全収束モデルの強いアンサンブルより優れていることを示す。
本稿では,タスク関連相互情報の最大化に基づく最適中間教師選択アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-12T17:55:30Z) - Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge
Distillation [70.92135839545314]
本研究では,教師の持つ特徴の一部を,特徴蒸留前の先行知識として統合した動的事前知識(DPK)を提案する。
DPKは,教員モデルと生徒モデルのパフォーマンスを正に相関させ,より大きな教員を適用することで生徒の精度をさらに高めることができる。
論文 参考訳(メタデータ) (2022-06-13T11:52:13Z) - Knowledge distillation: A good teacher is patient and consistent [71.14922743774864]
最先端のパフォーマンスを実現する大規模モデルと、実用的な用途で手頃な価格のモデルとの間には、コンピュータビジョンの相違が増えている。
蒸留の有効性に大きな影響を及ぼす可能性のある,特定の暗黙的な設計選択を同定する。
ImageNetの最先端ResNet-50モデルが82.8%の精度で実現されている。
論文 参考訳(メタデータ) (2021-06-09T17:20:40Z) - Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。
現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。
既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。
本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文 参考訳(メタデータ) (2020-12-11T08:56:39Z) - Learning to Reweight with Deep Interactions [104.68509759134878]
本稿では,教師モデルに内部状態を提供する改良型データ再重み付けアルゴリズムを提案する。
クリーン/ノイズラベルとニューラルマシン翻訳を用いた画像分類実験は、我々のアルゴリズムが従来の手法よりも大幅に改善されていることを実証的に実証した。
論文 参考訳(メタデータ) (2020-07-09T09:06:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。