論文の概要: Robust Distillation for Worst-class Performance
- arxiv url: http://arxiv.org/abs/2206.06479v1
- Date: Mon, 13 Jun 2022 21:17:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-16 09:32:24.236363
- Title: Robust Distillation for Worst-class Performance
- Title(参考訳): 最悪の性能のためのロバスト蒸留
- Authors: Serena Wang and Harikrishna Narasimhan and Yichen Zhou and Sara Hooker
and Michal Lukasik and Aditya Krishna Menon
- Abstract要約: 我々は,学生の最低級のパフォーマンス向上に適した蒸留技術を開発した。
我々は,我々の頑健な蒸留技術が最悪の性能を向上させることを実証的に示す。
私たちは、堅牢な学生のトレーニングを目標とするときに、良い教師を何にするかについて、洞察を与えます。
- 参考スコア(独自算出の注目度): 38.80008602644002
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge distillation has proven to be an effective technique in improving
the performance a student model using predictions from a teacher model.
However, recent work has shown that gains in average efficiency are not uniform
across subgroups in the data, and in particular can often come at the cost of
accuracy on rare subgroups and classes. To preserve strong performance across
classes that may follow a long-tailed distribution, we develop distillation
techniques that are tailored to improve the student's worst-class performance.
Specifically, we introduce robust optimization objectives in different
combinations for the teacher and student, and further allow for training with
any tradeoff between the overall accuracy and the robust worst-class objective.
We show empirically that our robust distillation techniques not only achieve
better worst-class performance, but also lead to Pareto improvement in the
tradeoff between overall performance and worst-class performance compared to
other baseline methods. Theoretically, we provide insights into what makes a
good teacher when the goal is to train a robust student.
- Abstract(参考訳): 知識蒸留は教師モデルからの予測を用いた生徒モデルの性能向上に有効な手法であることが証明されている。
しかし、最近の研究では、平均効率の利得はデータのサブグループ間で均一ではなく、特に稀なサブグループやクラスにおいて精度の犠牲となることが示されている。
長期分布に追随する可能性のあるクラス間での強い性能を維持するため,学生の最悪のクラスパフォーマンスを改善するために調整された蒸留技術を開発した。
具体的には、教師と生徒の異なる組み合わせで頑健な最適化目標を導入し、さらに、全体的な精度と頑健な最悪の目標とのトレードオフを伴うトレーニングを可能にする。
実験結果から, 我々のロバスト蒸留技術は, より良い最低級性能を達成するだけでなく, 総合的性能と最低級性能のトレードオフを他の基準法と比較し, パレート的に改善することを示した。
理論的には、ロバストな学生の教育を目標とするときに、良い教師になるものについての洞察を提供する。
関連論文リスト
- Towards Fairness-Aware Adversarial Learning [13.932705960012846]
フェアネス・アウェア・アドバーサリアル・ラーニング(FAAL)という新しい学習パラダイムを提案する。
提案手法は,異なるカテゴリ間で最悪の分布を求めることを目的としており,高い確率で上界性能が得られることを保証している。
特にFAALは、不公平なロバストモデルを2つのエポックで公平に調整できるが、全体的なクリーンで堅牢なアキュラシーを損なうことはない。
論文 参考訳(メタデータ) (2024-02-27T18:01:59Z) - Understanding the Detrimental Class-level Effects of Data Augmentation [63.1733767714073]
最適な平均精度を達成するには、ImageNetで最大20%の個々のクラスの精度を著しく損なうコストがかかる。
本稿では,DAがクラスレベルの学習力学とどのように相互作用するかを理解するためのフレームワークを提案する。
そこで本研究では, クラス条件拡張戦略により, 負の影響を受けるクラスの性能が向上することを示す。
論文 参考訳(メタデータ) (2023-12-07T18:37:43Z) - Tailoring Instructions to Student's Learning Levels Boosts Knowledge Distillation [52.53446712834569]
LGTM(Learning Good Teacher Matters)は,教師の学習プロセスに蒸留の影響を組み込むための効果的な訓練手法である。
我々のLGTMはGLUEベンチマークで6つのテキスト分類タスクに基づいて10の共通知識蒸留基準を上回ります。
論文 参考訳(メタデータ) (2023-05-16T17:50:09Z) - DisWOT: Student Architecture Search for Distillation WithOut Training [0.0]
我々は,教師にとって最高の学生アーキテクチャを探すための,新しい学習自由フレームワークを探究する。
我々の研究は、バニラトレーニングにおける最適モデルが蒸留の勝者にはならないことを実証的に示している。
CIFAR, ImageNet, NAS-Bench-201 を用いた実験により, 異なる検索空間における最先端の結果が得られた。
論文 参考訳(メタデータ) (2023-03-28T01:58:45Z) - Efficient Knowledge Distillation from Model Checkpoints [36.329429655242535]
同じ訓練軌道から複数の中間モデルの弱いスナップショットアンサンブルは、独立に訓練された完全収束モデルの強いアンサンブルより優れていることを示す。
本稿では,タスク関連相互情報の最大化に基づく最適中間教師選択アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-12T17:55:30Z) - Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge
Distillation [70.92135839545314]
本研究では,教師の持つ特徴の一部を,特徴蒸留前の先行知識として統合した動的事前知識(DPK)を提案する。
DPKは,教員モデルと生徒モデルのパフォーマンスを正に相関させ,より大きな教員を適用することで生徒の精度をさらに高めることができる。
論文 参考訳(メタデータ) (2022-06-13T11:52:13Z) - On the benefits of knowledge distillation for adversarial robustness [53.41196727255314]
知識蒸留は, 対向ロバスト性において, 最先端モデルの性能を高めるために直接的に利用できることを示す。
本稿では,モデルの性能向上のための新しいフレームワークであるAdversarial Knowledge Distillation (AKD)を提案する。
論文 参考訳(メタデータ) (2022-03-14T15:02:13Z) - Teacher's pet: understanding and mitigating biases in distillation [61.44867470297283]
いくつかの研究により、蒸留によって学生の全体的なパフォーマンスが著しく向上することが示されている。
しかし、これらのゲインはすべてのデータサブグループに均一なのでしょうか?
蒸留が特定の部分群の性能に悪影響を及ぼすことを示す。
信頼性の低いサブグループに対して,教師の影響を和らげる手法を提案する。
論文 参考訳(メタデータ) (2021-06-19T13:06:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。