論文の概要: Diversity Matters When Learning From Ensembles
- arxiv url: http://arxiv.org/abs/2110.14149v1
- Date: Wed, 27 Oct 2021 03:44:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-28 14:47:50.519287
- Title: Diversity Matters When Learning From Ensembles
- Title(参考訳): アンサンブルから学ぶときの多様性
- Authors: Giung Nam, Jongmin Yoon, Yoonho Lee, Juho Lee
- Abstract要約: 深層アンサンブルは、予測精度とキャリブレーションの両方において、大規模な画像分類タスクにおいて優れている。
訓練が簡単であるにもかかわらず、ディープアンサンブルの計算とメモリコストは、その実行可能性を制限する。
本稿では,このギャップを減らすための簡単な手法,すなわち蒸留した性能を全アンサンブルに近づける手法を提案する。
- 参考スコア(独自算出の注目度): 20.05842308307947
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep ensembles excel in large-scale image classification tasks both in terms
of prediction accuracy and calibration. Despite being simple to train, the
computation and memory cost of deep ensembles limits their practicability.
While some recent works propose to distill an ensemble model into a single
model to reduce such costs, there is still a performance gap between the
ensemble and distilled models. We propose a simple approach for reducing this
gap, i.e., making the distilled performance close to the full ensemble. Our key
assumption is that a distilled model should absorb as much function diversity
inside the ensemble as possible. We first empirically show that the typical
distillation procedure does not effectively transfer such diversity, especially
for complex models that achieve near-zero training error. To fix this, we
propose a perturbation strategy for distillation that reveals diversity by
seeking inputs for which ensemble member outputs disagree. We empirically show
that a model distilled with such perturbed samples indeed exhibits enhanced
diversity, leading to improved performance.
- Abstract(参考訳): ディープアンサンブルは、予測精度とキャリブレーションの両面で、大規模な画像分類タスクに優れている。
訓練は簡単だが、深いアンサンブルの計算とメモリコストは実用性を制限している。
近年の研究では、アンサンブルモデルを1つのモデルに蒸留してコストを下げることを提案しているが、アンサンブルモデルと蒸留モデルの間には依然として性能の差がある。
本稿では,このギャップを減らすための簡単な手法,すなわち蒸留した性能を全アンサンブルに近づける手法を提案する。
私たちの重要な前提は、蒸留されたモデルがアンサンブル内でできるだけ多くの関数の多様性を吸収すべきだということです。
まず, 典型的蒸留法ではその多様性を効果的に伝達できないこと, 特に, 訓練誤差がゼロに近い複雑なモデルの場合について, 実験的検討を行った。
そこで本研究では,アンサンブル部材の出力が一致しない入力を求めることで多様性を明らかにする蒸留の摂動戦略を提案する。
このような摂動試料を蒸留したモデルでは,多様性が向上し,性能が向上することを示す。
関連論文リスト
- Distilling Diffusion Models into Conditional GANs [90.76040478677609]
複雑な多段階拡散モデルを1段階条件付きGAN学生モデルに蒸留する。
E-LatentLPIPSは,拡散モデルの潜在空間で直接動作する知覚的損失である。
我々は, 最先端の1ステップ拡散蒸留モデルよりも優れた1ステップ発生器を実証した。
論文 参考訳(メタデータ) (2024-05-09T17:59:40Z) - One-Step Diffusion Distillation via Deep Equilibrium Models [64.11782639697883]
本稿では,拡散モデルを初期雑音から得られた画像に直接蒸留する簡易かつ効果的な方法を提案する。
本手法は,拡散モデルからノイズ/イメージペアのみによる完全オフライントレーニングを可能にする。
GET は FID スコアの点で 5 倍の ViT と一致するので,DEC アーキテクチャがこの能力に不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-12T07:28:40Z) - Mitigating Biases with Diverse Ensembles and Diffusion Models [99.6100669122048]
拡散確率モデル(DPM)を利用したアンサンブル多様化フレームワークを提案する。
DPMは、相関した入力特徴を示すサンプルを用いて訓練しても、新しい特徴の組み合わせで画像を生成することができることを示す。
そこで本研究では,DPM誘導の多様化は,制御信号の追加を必要とせず,一次ショートカットキューへの依存を取り除くのに十分であることを示す。
論文 参考訳(メタデータ) (2023-11-23T15:47:33Z) - HomoDistil: Homotopic Task-Agnostic Distillation of Pre-trained
Transformers [49.79405257763856]
本稿では,タスク非依存蒸留に焦点をあてる。
これは、計算コストとメモリフットプリントを小さくして、様々なタスクで簡単に微調整できるコンパクトな事前訓練モデルを生成する。
本稿では, 反復刈り込みによる新規なタスク非依存蒸留法であるHomotopic Distillation (HomoDistil)を提案する。
論文 参考訳(メタデータ) (2023-02-19T17:37:24Z) - Functional Ensemble Distillation [18.34081591772928]
本研究では,効率的なモデルを用いて,アンサンブルの予測を最もよく蒸留する方法を検討する。
混合増量方式による簡易増量方式による蒸留モデルの学習により, 性能が著しく向上することが判明した。
論文 参考訳(メタデータ) (2022-06-05T14:07:17Z) - Structured Pruning Learns Compact and Accurate Models [28.54826400747667]
タスク固有の構造化プルーニング法CoFi(粗粒および細粒のプルーニング)を提案する。
CoFiは高度に並列化可能なワークを提供し、蒸留方法を精度とレイテンシの両方で一致させる。
GLUEおよびSQuADデータセットを用いた実験により、CoFiは10倍以上のスピードアップと小さな精度低下でモデルを生成することが示された。
論文 参考訳(メタデータ) (2022-04-01T13:09:56Z) - A Closer Look at Codistillation for Distributed Training [21.08740153686464]
分散トレーニング環境における共蒸留について検討する。
適度なバッチサイズであっても、共蒸留で訓練されたモデルだけでなく、同期データ並列メソッドで訓練されたモデルも実行可能であることが分かりました。
論文 参考訳(メタデータ) (2020-10-06T16:01:34Z) - Learning Diverse Representations for Fast Adaptation to Distribution
Shift [78.83747601814669]
本稿では,複数のモデルを学習する手法を提案する。
分散シフトへの迅速な適応を促進するフレームワークの能力を実証する。
論文 参考訳(メタデータ) (2020-06-12T12:23:50Z) - A general framework for ensemble distribution distillation [14.996944635904402]
ニューラルネットワークのアンサンブルは、予測や不確実性推定の観点から、シングルネットワークよりも優れたパフォーマンスを示すことが示されている。
本稿では,分解の保存方法として,回帰アンサンブルと分類アンサンブルの両方を蒸留する枠組みを提案する。
論文 参考訳(メタデータ) (2020-02-26T14:34:43Z) - Hydra: Preserving Ensemble Diversity for Model Distillation [46.677567663908185]
モデルのアンサンブルは、予測性能を改善し、不確実性の堅牢な測定値を得るために経験的に示されている。
最近の研究は、アンサンブルを単一コンパクトモデルに蒸留することに集中しており、アンサンブルの計算と記憶の負担を軽減している。
本稿では,Hydraと呼ぶ単一マルチヘッドニューラルネットワークに基づく蒸留手法を提案する。
論文 参考訳(メタデータ) (2020-01-14T10:13:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。