論文の概要: Avatar Knowledge Distillation: Self-ensemble Teacher Paradigm with
Uncertainty
- arxiv url: http://arxiv.org/abs/2305.02722v4
- Date: Mon, 20 Nov 2023 06:34:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 19:49:20.123849
- Title: Avatar Knowledge Distillation: Self-ensemble Teacher Paradigm with
Uncertainty
- Title(参考訳): アバターの知識蒸留:不確かさを自称する教師パラダイム
- Authors: Yuan Zhang, Weihua Chen, Yichen Lu, Tao Huang, Xiuyu Sun, Jian Cao
- Abstract要約: 使い捨て蒸留のための多様な教師モデルを訓練するのは経済的ではない。
我々は,教師の推論アンサンブルモデルである蒸留用Avatarsという新しい概念を導入した。
Avatar Knowledge Distillation AKDは、既存の方法や洗練と根本的に異なる。
- 参考スコア(独自算出の注目度): 21.082196680422328
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Knowledge distillation is an effective paradigm for boosting the performance
of pocket-size model, especially when multiple teacher models are available,
the student would break the upper limit again. However, it is not economical to
train diverse teacher models for the disposable distillation. In this paper, we
introduce a new concept dubbed Avatars for distillation, which are the
inference ensemble models derived from the teacher. Concretely, (1) For each
iteration of distillation training, various Avatars are generated by a
perturbation transformation. We validate that Avatars own higher upper limit of
working capacity and teaching ability, aiding the student model in learning
diverse and receptive knowledge perspectives from the teacher model. (2) During
the distillation, we propose an uncertainty-aware factor from the variance of
statistical differences between the vanilla teacher and Avatars, to adjust
Avatars' contribution on knowledge transfer adaptively. Avatar Knowledge
Distillation AKD is fundamentally different from existing methods and refines
with the innovative view of unequal training. Comprehensive experiments
demonstrate the effectiveness of our Avatars mechanism, which polishes up the
state-of-the-art distillation methods for dense prediction without more extra
computational cost. The AKD brings at most 0.7 AP gains on COCO 2017 for Object
Detection and 1.83 mIoU gains on Cityscapes for Semantic Segmentation,
respectively. Code is available at https://github.com/Gumpest/AvatarKD.
- Abstract(参考訳): 知識蒸留はpocket-sizeモデルのパフォーマンスを高める効果的なパラダイムであり、特に複数の教師モデルが利用可能であれば、生徒は再び上限を破る。
しかし、使い捨て蒸留のために多様な教師モデルを訓練するのは経済的ではない。
本稿では,教師から導かれた推論アンサンブルモデルである蒸留用アバターという新しい概念を提案する。
具体的には,(1)蒸留訓練の各イテレーションにおいて,摂動変換によって様々なアバターが生成される。
我々は,教師モデルから多様で受容的な知識の視点を学習する学生モデルを支援するために,アバターが作業能力と教育能力の上限が高いことを検証した。
2) 蒸留において, バニラ教師とアバターの統計的差異のばらつきから, アバターの知識伝達に対する貢献を適応的に調整する不確実性認識因子を提案する。
Avatar Knowledge Distillation AKDは、既存の方法や洗練と根本的に異なる。
包括的実験により,高濃度予測のための最先端蒸留法を,計算コストを増すことなく洗練するアバター機構の有効性が実証された。
AKDはCOCO 2017では0.7AP、セマンティックセグメンテーションでは1.83mIoU、セマンティックセグメンテーションでは1.83mIoUとなっている。
コードはhttps://github.com/Gumpest/AvatarKDで入手できる。
関連論文リスト
- What is Left After Distillation? How Knowledge Transfer Impacts Fairness and Bias [1.03590082373586]
クラスの41%は、クラス単位の精度を比較する際に、蒸留によって統計的に有意な影響を受けている。
本研究は, あるクラスに対する知識蒸留の不均一な影響と, その公正性における潜在的役割を明らかにする。
論文 参考訳(メタデータ) (2024-10-10T22:43:00Z) - AdaDistill: Adaptive Knowledge Distillation for Deep Face Recognition [8.045296450065019]
知識蒸留は、高性能な教師モデルから知識を蒸留することで、コンパクトな学生モデルの性能を向上させることを目的としている。
AdaDistillはKDの概念をソフトマックスの損失に組み込み、教師から蒸留されたクラスセンターでマージンペナルティのソフトマックスの損失を学習する。
大規模な実験とアブレーション研究により、AdaDistillは生徒の差別的学習能力を高めることができることが示された。
論文 参考訳(メタデータ) (2024-07-01T14:39:55Z) - Improving Knowledge Distillation with Teacher's Explanation [14.935696904019146]
本稿では,KED(Knowledge Explaining Distillation)フレームワークを紹介する。
KEDは、教師の予測だけでなく、教師の説明からも学べるようにしている。
様々なデータセットに対する実験により,KEDの学生はKDの学生と同じような複雑さを著しく上回る結果が得られた。
論文 参考訳(メタデータ) (2023-10-04T04:18:01Z) - HomoDistil: Homotopic Task-Agnostic Distillation of Pre-trained
Transformers [49.79405257763856]
本稿では,タスク非依存蒸留に焦点をあてる。
これは、計算コストとメモリフットプリントを小さくして、様々なタスクで簡単に微調整できるコンパクトな事前訓練モデルを生成する。
本稿では, 反復刈り込みによる新規なタスク非依存蒸留法であるHomotopic Distillation (HomoDistil)を提案する。
論文 参考訳(メタデータ) (2023-02-19T17:37:24Z) - Unbiased Knowledge Distillation for Recommendation [66.82575287129728]
知識蒸留(KD)は推論遅延を低減するためにレコメンダシステム(RS)に応用されている。
従来のソリューションは、まずトレーニングデータから完全な教師モデルを訓練し、その後、その知識を変換して、コンパクトな学生モデルの学習を監督する。
このような標準的な蒸留パラダイムは深刻なバイアス問題を引き起こし、蒸留後に人気アイテムがより強く推奨されることになる。
論文 参考訳(メタデータ) (2022-11-27T05:14:03Z) - Exploring Inconsistent Knowledge Distillation for Object Detection with
Data Augmentation [66.25738680429463]
物体検出のための知識蒸留(KD)は、教師モデルから知識を伝達することで、コンパクトな検出器を訓練することを目的としている。
教師モデルの反直感的知覚に固有の知識を蒸留することを目的とした,一貫性のない知識蒸留(IKD)を提案する。
本手法は, 1段, 2段, アンカーフリーの物体検出器において, 最先端のKDベースラインより優れる。
論文 参考訳(メタデータ) (2022-09-20T16:36:28Z) - Revisiting Self-Distillation [50.29938732233947]
自己蒸留とは、大きなモデル(教師)からよりコンパクトなモデル(生徒)に「知識」を移す手順である。
いくつかの作品では、自給自足の生徒が保持されたデータで教師より優れているという逸話がある。
我々は、自己蒸留がより平坦なミニマムをもたらすことを示すための広範な実験を行い、その結果、より良い一般化をもたらす。
論文 参考訳(メタデータ) (2022-06-17T00:18:51Z) - Parameter-Efficient and Student-Friendly Knowledge Distillation [83.56365548607863]
本稿では, PESF-KDというパラメータ効率と学生に優しい知識蒸留法を提案し, 効率的かつ十分な知識伝達を実現する。
各種ベンチマーク実験により,PESF-KDは,高度オンライン蒸留法と比較して,競争力のある結果を得ながら,トレーニングコストを大幅に削減できることが示された。
論文 参考訳(メタデータ) (2022-05-28T16:11:49Z) - Iterative Self Knowledge Distillation -- From Pothole Classification to
Fine-Grained and COVID Recognition [6.744385328015559]
ポトホールの分類は、自動車事故や修理法案からドライバーを救うための道路検査車両にとって重要な課題となっている。
軽量ポットホール分類器を訓練するための反復自己知識蒸留(ISKD)を提案する。
論文 参考訳(メタデータ) (2022-02-04T17:47:43Z) - Dynamic Rectification Knowledge Distillation [0.0]
ダイナミック・リクティフィケーション・ナレッジ蒸留(DR-KD)は、知識蒸留の枠組みである。
DR-KDは生徒を自身の教師に転換し、自己学習者が情報を蒸留しながら誤った予測を行った場合、知識が蒸留される前に誤りが修正される。
提案するDR-KDは, 複雑な教師モデルが存在しない場合, 極めて良好に機能する。
論文 参考訳(メタデータ) (2022-01-27T04:38:01Z) - Fixing the Teacher-Student Knowledge Discrepancy in Distillation [72.4354883997316]
本稿では,教師の知識を学生とより整合させる,新たな学生依存型蒸留法である知識一貫型蒸留を提案する。
この手法は非常に柔軟で,他の最先端手法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2021-03-31T06:52:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。