論文の概要: AdaKD: Dynamic Knowledge Distillation of ASR models using Adaptive Loss Weighting
- arxiv url: http://arxiv.org/abs/2405.08019v1
- Date: Sat, 11 May 2024 15:06:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-15 18:03:09.912113
- Title: AdaKD: Dynamic Knowledge Distillation of ASR models using Adaptive Loss Weighting
- Title(参考訳): AdaKD:適応損失重み付けを用いたASRモデルの動的知識蒸留
- Authors: Shreyan Ganguly, Roshan Nayak, Rakshith Rao, Ujan Deb, Prathosh AP,
- Abstract要約: 適応的知識蒸留(Adaptive Knowledge Distillation, Adaptive Knowledge Distillation)は, カリキュラム学習にインスパイアされた新しい手法であり, 事例レベルでの損失を適応的に評価する。
提案手法は,任意のタスク固有および蒸留目的に対して適用可能なプラグアンドプレイパラダイムに従っている。
- 参考スコア(独自算出の注目度): 5.818420448447701
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge distillation, a widely used model compression technique, works on the basis of transferring knowledge from a cumbersome teacher model to a lightweight student model. The technique involves jointly optimizing the task specific and knowledge distillation losses with a weight assigned to them. Despite these weights playing a crucial role in the performance of the distillation process, current methods provide equal weight to both losses, leading to suboptimal performance. In this paper, we propose Adaptive Knowledge Distillation, a novel technique inspired by curriculum learning to adaptively weigh the losses at instance level. This technique goes by the notion that sample difficulty increases with teacher loss. Our method follows a plug-and-play paradigm that can be applied on top of any task-specific and distillation objectives. Experiments show that our method performs better than conventional knowledge distillation method and existing instance-level loss functions.
- Abstract(参考訳): 知識蒸留は、複雑な教師モデルから軽量の学生モデルへの知識の伝達に基づく、広く使われているモデル圧縮技術である。
この技術は、タスク特定と知識蒸留の損失を、それらに割り当てられた重量で共同最適化することを含む。
これらの重みは蒸留プロセスの性能において重要な役割を担っているが、現在の方法は双方の損失に等しく重みを与え、最適以下の性能をもたらす。
本稿では,カリキュラム学習にヒントを得た新しい手法であるAdaptive Knowledge Distillationを提案し,事例レベルでの損失を適応的に評価する。
この手法は、教師の損失によってサンプルの難易度が増加するという概念によって成り立っている。
提案手法は,任意のタスク固有および蒸留目的に対して適用可能なプラグアンドプレイパラダイムに従っている。
実験により,本手法は従来の知識蒸留法や既存インスタンスレベルの損失関数よりも優れた性能を示した。
関連論文リスト
- Teaching with Uncertainty: Unleashing the Potential of Knowledge Distillation in Object Detection [47.0507287491627]
本稿では,物体検出のための知識の不確実性を考慮した特徴量に基づく蒸留パラダイムを提案する。
モンテカルロのドロップアウト手法を利用して,学生モデルの学習過程に知識の不確実性を導入する。
本手法は,複雑な構造や計算資源を必要とせずに,KDプロセス中に効果的に機能する。
論文 参考訳(メタデータ) (2024-06-11T06:51:02Z) - Improving Knowledge Distillation for BERT Models: Loss Functions,
Mapping Methods, and Weight Tuning [1.1510009152620668]
本研究は, BERTモデル圧縮のための知識蒸留について検討し, 適用する。
本研究では, 損失関数を用いた実験, トランスフォーマー層マッピング法, 注意の重み付けと表現損失の調整など, 知識蒸留を改善するための様々な手法について検討する。
この研究の目的は、知識蒸留の効率性と効率を改善し、自然言語処理タスクのより効率的で正確なモデルの開発を可能にすることである。
論文 参考訳(メタデータ) (2023-08-26T20:59:21Z) - Learning Lightweight Object Detectors via Multi-Teacher Progressive
Distillation [56.053397775016755]
本稿では,教師検出器の知識を学生に段階的に伝達する,知識蒸留への逐次的アプローチを提案する。
私たちの知識を最大限に活用するために、私たちはTransformerベースの教師検出器から、畳み込みベースの学生まで、初めて知識を抽出しました。
論文 参考訳(メタデータ) (2023-08-17T17:17:08Z) - The Staged Knowledge Distillation in Video Classification: Harmonizing
Student Progress by a Complementary Weakly Supervised Framework [21.494759678807686]
ビデオ分類における知識蒸留のための弱教師付き学習フレームワークを提案する。
本手法は,サブステージ学習の概念を利用して,学生のサブステージの組み合わせと,それに対応するサブステージの相関に基づく知識を抽出する。
提案手法は,ビデオデータに対するラベル効率学習の今後の研究の可能性を秘めている。
論文 参考訳(メタデータ) (2023-07-11T12:10:42Z) - Normalized Feature Distillation for Semantic Segmentation [6.882655287146012]
正規化特徴蒸留(NFD)と呼ばれる簡易かつ効果的な特徴蒸留法を提案する。
提案手法は,都市景観,VOC 2012,ADE20Kデータセットのセマンティックセマンティックセマンティックセグメンテーションのための,最先端の蒸留結果を実現する。
論文 参考訳(メタデータ) (2022-07-12T01:54:25Z) - Parameter-Efficient and Student-Friendly Knowledge Distillation [83.56365548607863]
本稿では, PESF-KDというパラメータ効率と学生に優しい知識蒸留法を提案し, 効率的かつ十分な知識伝達を実現する。
各種ベンチマーク実験により,PESF-KDは,高度オンライン蒸留法と比較して,競争力のある結果を得ながら,トレーニングコストを大幅に削減できることが示された。
論文 参考訳(メタデータ) (2022-05-28T16:11:49Z) - On the benefits of knowledge distillation for adversarial robustness [53.41196727255314]
知識蒸留は, 対向ロバスト性において, 最先端モデルの性能を高めるために直接的に利用できることを示す。
本稿では,モデルの性能向上のための新しいフレームワークであるAdversarial Knowledge Distillation (AKD)を提案する。
論文 参考訳(メタデータ) (2022-03-14T15:02:13Z) - Knowledge distillation via adaptive instance normalization [52.91164959767517]
本稿では,教師から生徒への特徴統計の伝達に基づく新しい知識蒸留法を提案する。
本手法は,教師に類似する生徒の平均と分散を強制する標準的な方法を超えている。
以上の結果から, 蒸留法は他の蒸留法よりも高い性能を示した。
論文 参考訳(メタデータ) (2020-03-09T17:50:12Z) - Residual Knowledge Distillation [96.18815134719975]
本研究は,アシスタント(A)を導入し,さらに知識を蒸留する残留知識蒸留(RKD)を提案する。
このように、S は T の特徴写像を模倣するように訓練され、A はそれらの間の残差を学習することでこの過程を支援する。
提案手法は,CIFAR-100 と ImageNet という,一般的な分類データセットにおいて魅力的な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-02-21T07:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。