論文の概要: AI-KD: Adversarial learning and Implicit regularization for self-Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2211.10938v2
- Date: Thu, 21 Mar 2024 13:51:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-22 20:49:10.229390
- Title: AI-KD: Adversarial learning and Implicit regularization for self-Knowledge Distillation
- Title(参考訳): AI-KD:自己知識蒸留のための逆学習と命令正規化
- Authors: Hyungmin Kim, Sungho Suh, Sunghyun Baek, Daehwan Kim, Daun Jeong, Hansang Cho, Junmo Kim,
- Abstract要約: 本稿では, 自己知識蒸留(AI-KD)における対向学習と暗黙の正則化という, 対向的ペナル化自己知識蒸留法を提案する。
我々のモデルは,事前学習と過去の予測確率から得られた決定論的および進歩的知識を蒸留するだけでなく,逆学習を用いて決定論的予測分布の知識を伝達する。
提案手法の有効性を実証し,提案手法が最先端手法よりも優れた性能を実現することを示す。
- 参考スコア(独自算出の注目度): 20.80341206396388
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel adversarial penalized self-knowledge distillation method, named adversarial learning and implicit regularization for self-knowledge distillation (AI-KD), which regularizes the training procedure by adversarial learning and implicit distillations. Our model not only distills the deterministic and progressive knowledge which are from the pre-trained and previous epoch predictive probabilities but also transfers the knowledge of the deterministic predictive distributions using adversarial learning. The motivation is that the self-knowledge distillation methods regularize the predictive probabilities with soft targets, but the exact distributions may be hard to predict. Our method deploys a discriminator to distinguish the distributions between the pre-trained and student models while the student model is trained to fool the discriminator in the trained procedure. Thus, the student model not only can learn the pre-trained model's predictive probabilities but also align the distributions between the pre-trained and student models. We demonstrate the effectiveness of the proposed method with network architectures on multiple datasets and show the proposed method achieves better performance than state-of-the-art methods.
- Abstract(参考訳): 本稿では, 自己知識蒸留法(AI-KD)について, 対人学習と暗黙の蒸留によるトレーニング手順を規則化する, 対人学習と暗黙の正則化という新しい自己知識蒸留法を提案する。
我々のモデルは,事前学習と過去の予測確率から得られた決定論的および進歩的知識を蒸留するだけでなく,逆学習を用いて決定論的予測分布の知識を伝達する。
動機は、自己知識蒸留法が予測確率をソフトターゲットで規則化するが、正確な分布は予測が難しいことである。
本手法では,事前学習したモデルと学生モデルとの分布を識別するために識別器を配置し,学生モデルが訓練された手順で識別器を騙すように訓練する。
このように、学生モデルは、事前訓練されたモデルの予測確率を学習できるだけでなく、事前訓練されたモデルと学生モデルの分布を調整できる。
提案手法の有効性を実証し,提案手法が最先端手法よりも優れた性能を実現することを示す。
関連論文リスト
- Self-Knowledge Distillation for Learning Ambiguity [11.755814660833549]
最近の言語モデルは、その正確さを考慮せずに単一のラベルを過度に予測することが多い。
本稿では,ラベル分布をより正確に学習できる新しい自己知識蒸留法を提案する。
本手法を多種多様なNLUベンチマークデータセットで検証し,実験結果から,より優れたラベル分布を生成する上での有効性を実証した。
論文 参考訳(メタデータ) (2024-06-14T05:11:32Z) - Selective Learning: Towards Robust Calibration with Dynamic Regularization [79.92633587914659]
ディープラーニングにおけるミススキャリブレーションとは、予測された信頼とパフォーマンスの間には相違がある、という意味である。
トレーニング中に何を学ぶべきかを学ぶことを目的とした動的正規化(DReg)を導入し、信頼度調整のトレードオフを回避する。
論文 参考訳(メタデータ) (2024-02-13T11:25:20Z) - Self-Knowledge Distillation via Dropout [0.7883397954991659]
ドロップアウト(SD-Dropout)を用いた簡便かつ効果的な自己知識蒸留法を提案する。
我々の方法は、追加のトレーニング可能なモジュールを必要とせず、データに依存しず、単純な操作しか必要としない。
論文 参考訳(メタデータ) (2022-08-11T05:08:55Z) - Agree to Disagree: Diversity through Disagreement for Better
Transferability [54.308327969778155]
本稿では,D-BAT(Diversity-By-dis-Agreement Training)を提案する。
我々は、D-BATが一般化された相違の概念から自然に現れることを示す。
論文 参考訳(メタデータ) (2022-02-09T12:03:02Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Contrastive Learning for Fair Representations [50.95604482330149]
訓練された分類モデルは、意図せずバイアスのある表現や予測につながる可能性がある。
対戦訓練のような既存の分類モデルのデバイアス化手法は、訓練に高価であり、最適化が困難であることが多い。
比較学習を取り入れたバイアス軽減手法を提案し、同じクラスラベルを共有するインスタンスに類似した表現を推奨する。
論文 参考訳(メタデータ) (2021-09-22T10:47:51Z) - A Simple Framework for Uncertainty in Contrastive Learning [11.64841553345271]
我々は、事前訓練されたコントラッシブ表現に対して不確実性を割り当てることを学ぶための単純なアプローチを導入する。
我々は、表現から表現空間の分布への深いネットワークを訓練し、その分散を信頼度尺度として用いることができる。
本実験では,(1) モデル動作の視覚的解釈,(2) 展開モデルへの入力における新しいノイズの検出,(3) 異常検出,そして,11タスクで10のベースライン手法を上回り,最大14%の絶対性向上を実現していることを示す。
論文 参考訳(メタデータ) (2020-10-05T14:17:42Z) - Learning Diverse Representations for Fast Adaptation to Distribution
Shift [78.83747601814669]
本稿では,複数のモデルを学習する手法を提案する。
分散シフトへの迅速な適応を促進するフレームワークの能力を実証する。
論文 参考訳(メタデータ) (2020-06-12T12:23:50Z) - Incremental Learning for End-to-End Automatic Speech Recognition [41.297106772785206]
エンドツーエンド自動音声認識(ASR)のための漸進的学習法を提案する。
本稿では, ASRモデルに対する新しい説明可能性に基づく知識蒸留を設計し, 応答に基づく知識蒸留と組み合わせて, 元のモデルの予測と予測の「理性」を維持する。
多段階連続訓練タスクの結果,提案手法は忘れを緩和する上で,既存の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-05-11T08:18:08Z) - Binary Classification from Positive Data with Skewed Confidence [85.18941440826309]
肯定的信頼度(Pconf)分類は、有望な弱教師付き学習法である。
実際には、信頼はアノテーションプロセスで生じるバイアスによって歪められることがある。
本稿では、スキュード信頼度のパラメータ化モデルを導入し、ハイパーパラメータを選択する方法を提案する。
論文 参考訳(メタデータ) (2020-01-29T00:04:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。