論文の概要: Scaling Ensemble Distribution Distillation to Many Classes with Proxy
Targets
- arxiv url: http://arxiv.org/abs/2105.06987v1
- Date: Fri, 14 May 2021 17:50:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-17 12:55:42.847970
- Title: Scaling Ensemble Distribution Distillation to Many Classes with Proxy
Targets
- Title(参考訳): プロキシターゲットを持つ多数のクラスへのアンサンブル分布蒸留のスケーリング
- Authors: Max Ryabinin, Andrey Malinin, Mark Gales
- Abstract要約: emphEnsemble Distribution Distillationは、単一のモデルが、アンサンブルの予測性能と不確実性の両方を効率的にキャプチャできるアプローチである。
分類では、最大確率基準を通じてアンサンブルメンバーの出力分布の上のディリクレ分布を訓練することで達成される。
理論的には、この基準はクラス数が非常に高い大規模タスクに適用される場合の収束性に乏しい。
- 参考スコア(独自算出の注目度): 12.461503242570643
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ensembles of machine learning models yield improved system performance as
well as robust and interpretable uncertainty estimates; however, their
inference costs may often be prohibitively high. \emph{Ensemble Distribution
Distillation} is an approach that allows a single model to efficiently capture
both the predictive performance and uncertainty estimates of an ensemble. For
classification, this is achieved by training a Dirichlet distribution over the
ensemble members' output distributions via the maximum likelihood criterion.
Although theoretically principled, this criterion exhibits poor convergence
when applied to large-scale tasks where the number of classes is very high. In
our work, we analyze this effect and show that the Dirichlet log-likelihood
criterion classes with low probability induce larger gradients than
high-probability classes. This forces the model to focus on the distribution of
the ensemble tail-class probabilities. We propose a new training objective that
minimizes the reverse KL-divergence to a \emph{Proxy-Dirichlet} target derived
from the ensemble. This loss resolves the gradient issues of Ensemble
Distribution Distillation, as we demonstrate both theoretically and empirically
on the ImageNet and WMT17 En-De datasets containing 1000 and 40,000 classes,
respectively.
- Abstract(参考訳): 機械学習モデルのアンサンブルは、システム性能の改善と、堅牢で解釈可能な不確実性推定をもたらすが、その推論コストは、しばしば違法に高い。
emph{ensemble distribution distillation} は、1つのモデルがアンサンブルの予測性能と不確実性の両方を効率的に捉えることができるアプローチである。
分類では、最大確率基準を通じてアンサンブルメンバーの出力分布の上のディリクレ分布を訓練することで達成される。
理論上は原則だが、クラス数が非常に高い大規模タスクに適用すると、この基準は収束性に乏しい。
本研究では,この効果を分析し,確率の低いディリクレ対数様条件クラスが,高確率クラスよりも大きな勾配を生じさせることを示した。
これによりモデルは、アンサンブルのテールクラス確率の分布に焦点を合わせることができる。
アンサンブルから派生した \emph{Proxy-Dirichlet} ターゲットに対する逆 KL 分割を最小化する新たな学習目標を提案する。
この損失は,1000および40,000のクラスを含むImageNetおよびWMT17 En-Deデータセットにおいて,理論的および実証的に,Ensemble Distribution Distillationの勾配問題を解消する。
関連論文リスト
- Theory on Score-Mismatched Diffusion Models and Zero-Shot Conditional Samplers [49.97755400231656]
本報告では,明示的な次元の一般スコアミスマッチ拡散サンプリング器を用いた最初の性能保証について述べる。
その結果, スコアミスマッチは, 目標分布とサンプリング分布の分布バイアスとなり, 目標分布とトレーニング分布の累積ミスマッチに比例することがわかった。
この結果は、測定ノイズに関係なく、任意の条件モデルに対するゼロショット条件付きサンプリングに直接適用することができる。
論文 参考訳(メタデータ) (2024-10-17T16:42:12Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Contrastive Learning for Fair Representations [50.95604482330149]
訓練された分類モデルは、意図せずバイアスのある表現や予測につながる可能性がある。
対戦訓練のような既存の分類モデルのデバイアス化手法は、訓練に高価であり、最適化が困難であることが多い。
比較学習を取り入れたバイアス軽減手法を提案し、同じクラスラベルを共有するインスタンスに類似した表現を推奨する。
論文 参考訳(メタデータ) (2021-09-22T10:47:51Z) - Distribution of Classification Margins: Are All Data Equal? [61.16681488656473]
我々は理論的に動機付け、トレーニングセット上のマージン分布の曲線の下の領域が実際は一般化のよい尺度であることを実証的に示す。
結果として生じる"高いキャパシティ"機能のサブセットは、異なるトレーニング実行間で一貫性がない。
論文 参考訳(メタデータ) (2021-07-21T16:41:57Z) - Two-stage Training for Learning from Label Proportions [18.78148397471913]
ラベルパーセンテージ(LLP)からの学習は、グループ化されたトレーニングデータにおいてラベルパーセンテージを持つインスタンスレベルの分類器を学習することを目的としている。
ラベルノイズをさらに低減するために,混合戦略と対称クロスエントロピーを導入する。
我々のフレームワークはモデルに依存しず、広範な実験において魅力的なパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2021-05-22T03:55:35Z) - Beyond cross-entropy: learning highly separable feature distributions
for robust and accurate classification [22.806324361016863]
本稿では, 対角的ロバスト性を提供する, ディープロバストなマルチクラス分類器を訓練するための新しい手法を提案する。
提案手法に基づく潜在空間の正則化は,優れた分類精度が得られることを示す。
論文 参考訳(メタデータ) (2020-10-29T11:15:17Z) - Efficient Marginalization of Discrete and Structured Latent Variables
via Sparsity [26.518803984578867]
離散的な(分類的または構造化された)潜在変数を持つニューラルネットワークモデルを訓練することは、計算的に困難である。
典型的には、真の限界のサンプリングに基づく近似に頼っている。
そこで本研究では,これらの推定器を高精度かつ効率的なマージン化によって置き換える新たなトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2020-07-03T19:36:35Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - Learning Diverse Representations for Fast Adaptation to Distribution
Shift [78.83747601814669]
本稿では,複数のモデルを学習する手法を提案する。
分散シフトへの迅速な適応を促進するフレームワークの能力を実証する。
論文 参考訳(メタデータ) (2020-06-12T12:23:50Z) - Adversarial Classification via Distributional Robustness with
Wasserstein Ambiguity [12.576828231302134]
ワッサーシュタインの曖昧さの下では、モデルは誤分類のリスクを最小限にすることを目的としている。
この分類の非整合性にもかかわらず、標準降下法はこの問題に対して収束しているように見える。
論文 参考訳(メタデータ) (2020-05-28T07:28:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。