論文の概要: ALM-KD: Knowledge Distillation with noisy labels via adaptive loss
mixing
- arxiv url: http://arxiv.org/abs/2202.03250v1
- Date: Mon, 7 Feb 2022 14:53:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-08 16:58:14.815457
- Title: ALM-KD: Knowledge Distillation with noisy labels via adaptive loss
mixing
- Title(参考訳): alm-kd:適応損失混合による雑音ラベル付き知識蒸留
- Authors: Durga Sivasubramanian, Pradeep Shenoy, Prathosh AP and Ganesh
Ramakrishnan
- Abstract要約: 知識蒸留は、教師付き環境で学生モデルを訓練するために、事前訓練されたモデルの出力を使用する技術である。
KD中の適応損失混合方式を用いてこの問題に対処する。
提案手法は, 標準KD設定, マルチ教師, 自己蒸留設定において, 提案手法を用いて得られた性能向上を示す。
- 参考スコア(独自算出の注目度): 25.49637460661711
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Knowledge distillation is a technique where the outputs of a pretrained
model, often known as the teacher model is used for training a student model in
a supervised setting. The teacher model outputs being a richer distribution
over labels should improve the student model's performance as opposed to
training with the usual hard labels. However, the label distribution imposed by
the logits of the teacher network may not be always informative and may lead to
poor student performance. We tackle this problem via the use of an adaptive
loss mixing scheme during KD. Specifically, our method learns an
instance-specific convex combination of the teacher-matching and label
supervision objectives, using meta learning on a validation metric signalling
to the student `how much' of KD is to be used. Through a range of experiments
on controlled synthetic data and real-world datasets, we demonstrate
performance gains obtained using our approach in the standard KD setting as
well as in multi-teacher and self-distillation settings.
- Abstract(参考訳): 知識蒸留とは、教師モデルとして知られる事前訓練されたモデルの出力を、教師付き環境で生徒モデルを訓練するために使用する技術である。
教師モデル出力は, 従来のハードラベルを用いた学習よりも, 生徒モデルの性能を向上させる必要がある。
しかし、教師ネットワークのロジットによって課されるラベルの分布は、必ずしも情報であり、学生のパフォーマンスが低下する可能性がある。
我々はkd中の適応損失混合方式を用いてこの問題に取り組む。
具体的には,KDの「どの程度」の学生に信号を送る検証メトリック上で,メタラーニングを用いて,教師マッチングとラベル監督の目的のインスタンス固有の凸の組み合わせを学習する。
制御された合成データと実世界のデータセットに関する様々な実験を通じて、標準kd設定とマルチ教師および自己蒸留設定で得られた性能向上を実証する。
関連論文リスト
- Understanding Self-Distillation and Partial Label Learning in
Multi-Class Classification with Label Noise [12.636657455986144]
自己蒸留(英: Self-distillation, SD)とは、教師モデルの出力を用いて学生モデルを訓練する過程である。
本研究は,クロスエントロピー損失を伴う多クラス分類におけるSDを理論的に検討する。
論文 参考訳(メタデータ) (2024-02-16T07:13:12Z) - Comparative Knowledge Distillation [102.35425896967791]
伝統的な知識蒸留(KD)は、頻繁な推論のために教師モデルに容易にアクセスできることを前提としている。
本稿では,教師モデルにおけるサンプルの解釈の微妙な違いを学生モデルに理解させるための比較知識蒸留(CKD)を提案する。
CKDは、アートデータ拡張とKDテクニックの状態を一貫して上回る。
論文 参考訳(メタデータ) (2023-11-03T21:55:33Z) - Adapt Your Teacher: Improving Knowledge Distillation for Exemplar-free
Continual Learning [14.379472108242235]
正規化戦略として知識蒸留(KD)を併用した模範自由クラスインクリメンタルラーニング(CIL)について検討した。
KDベースの手法はCILでうまく使われているが、以前のタスクからトレーニングデータの例にアクセスできることなくモデルを規則化するのに苦労することが多い。
近年の試験時間適応法に触発されて,インクリメンタルトレーニング中に教師と主要モデルを同時に更新する手法であるTeacher Adaptation (TA)を紹介した。
論文 参考訳(メタデータ) (2023-08-18T13:22:59Z) - On-Policy Distillation of Language Models: Learning from Self-Generated
Mistakes [44.97759066341107]
一般知識蒸留(GKD)は、教師からのフィードバックを活用して、学生を自己生成出力シーケンスで訓練する。
本稿では,自動回帰言語モデルの要約,翻訳,算術的推論におけるGKDの有効性を示す。
論文 参考訳(メタデータ) (2023-06-23T17:56:26Z) - Unbiased Knowledge Distillation for Recommendation [66.82575287129728]
知識蒸留(KD)は推論遅延を低減するためにレコメンダシステム(RS)に応用されている。
従来のソリューションは、まずトレーニングデータから完全な教師モデルを訓練し、その後、その知識を変換して、コンパクトな学生モデルの学習を監督する。
このような標準的な蒸留パラダイムは深刻なバイアス問題を引き起こし、蒸留後に人気アイテムがより強く推奨されることになる。
論文 参考訳(メタデータ) (2022-11-27T05:14:03Z) - Exploring Inconsistent Knowledge Distillation for Object Detection with
Data Augmentation [66.25738680429463]
物体検出のための知識蒸留(KD)は、教師モデルから知識を伝達することで、コンパクトな検出器を訓練することを目的としている。
教師モデルの反直感的知覚に固有の知識を蒸留することを目的とした,一貫性のない知識蒸留(IKD)を提案する。
本手法は, 1段, 2段, アンカーフリーの物体検出器において, 最先端のKDベースラインより優れる。
論文 参考訳(メタデータ) (2022-09-20T16:36:28Z) - Parameter-Efficient and Student-Friendly Knowledge Distillation [83.56365548607863]
本稿では, PESF-KDというパラメータ効率と学生に優しい知識蒸留法を提案し, 効率的かつ十分な知識伝達を実現する。
各種ベンチマーク実験により,PESF-KDは,高度オンライン蒸留法と比較して,競争力のある結果を得ながら,トレーニングコストを大幅に削減できることが示された。
論文 参考訳(メタデータ) (2022-05-28T16:11:49Z) - Oracle Teacher: Leveraging Target Information for Better Knowledge
Distillation of CTC Models [10.941519846908697]
我々は、コネクショニスト時間分類(CTC)に基づくシーケンスモデル、すなわち、Oracle Teacherのための新しいタイプの教師モデルを導入する。
Oracle Teacherは、ターゲット情報を参照することによって、より正確なCTCアライメントを学ぶため、より最適なガイダンスを提供することができる。
CTCアルゴリズムの多対一マッピング特性に基づいて、自明な解を効果的に防止できるトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2021-11-05T14:14:05Z) - How and When Adversarial Robustness Transfers in Knowledge Distillation? [137.11016173468457]
本稿では,教師モデルから学生モデルへの知識蒸留(KD)における対向ロバスト性の移行について検討する。
我々は,標準的なKDトレーニングが対向的堅牢性を維持するのに失敗することを示すとともに,KDIGA(入力勾配アライメント)を併用したKDを提案する。
特定の前提の下では、提案したKDIGAを用いた学生モデルは、少なくとも教師モデルと同じ確証された堅牢性を達成することができることを証明している。
論文 参考訳(メタデータ) (2021-10-22T21:30:53Z) - MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。
妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。
限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文 参考訳(メタデータ) (2020-11-01T18:47:51Z) - Learning from a Lightweight Teacher for Efficient Knowledge Distillation [14.865673786025525]
本稿では,軽量な知識蒸留のためのLW-KDを提案する。
まず、合成された単純なデータセット上に軽量な教師ネットワークをトレーニングし、ターゲットデータセットのそれと同等の調整可能なクラス番号を付ける。
そして、教師はソフトターゲットを生成し、強化されたKD損失は、教師の出力と区別不能にするためのKD損失と敵対的損失の組合せである、学生の学習を誘導する。
論文 参考訳(メタデータ) (2020-05-19T01:54:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。