Fugu-MT 論文翻訳(概要): Hydra: Preserving Ensemble Diversity for Model Distillation

論文の概要: Hydra: Preserving Ensemble Diversity for Model Distillation

arxiv url: http://arxiv.org/abs/2001.04694v2
Date: Fri, 19 Mar 2021 11:25:46 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-11 11:56:56.241983
Title: Hydra: Preserving Ensemble Diversity for Model Distillation
Title（参考訳）: Hydra: モデル蒸留のためのアンサンブル多様性の保存
Authors: Linh Tran, Bastiaan S. Veeling, Kevin Roth, Jakub Swiatkowski, Joshua V. Dillon, Jasper Snoek, Stephan Mandt, Tim Salimans, Sebastian Nowozin, Rodolphe Jenatton
Abstract要約: モデルのアンサンブルは、予測性能を改善し、不確実性の堅牢な測定値を得るために経験的に示されている。最近の研究は、アンサンブルを単一コンパクトモデルに蒸留することに集中しており、アンサンブルの計算と記憶の負担を軽減している。本稿では,Hydraと呼ぶ単一マルチヘッドニューラルネットワークに基づく蒸留手法を提案する。
参考スコア（独自算出の注目度）: 46.677567663908185
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Ensembles of models have been empirically shown to improve predictive performance and to yield robust measures of uncertainty. However, they are expensive in computation and memory. Therefore, recent research has focused on distilling ensembles into a single compact model, reducing the computational and memory burden of the ensemble while trying to preserve its predictive behavior. Most existing distillation formulations summarize the ensemble by capturing its average predictions. As a result, the diversity of the ensemble predictions, stemming from each member, is lost. Thus, the distilled model cannot provide a measure of uncertainty comparable to that of the original ensemble. To retain more faithfully the diversity of the ensemble, we propose a distillation method based on a single multi-headed neural network, which we refer to as Hydra. The shared body network learns a joint feature representation that enables each head to capture the predictive behavior of each ensemble member. We demonstrate that with a slight increase in parameter count, Hydra improves distillation performance on classification and regression settings while capturing the uncertainty behavior of the original ensemble over both in-domain and out-of-distribution tasks.
Abstract（参考訳）: モデルのアンサンブルは予測性能を改善し、確固たる不確実性の尺度を与えるために実証的に示されてきた。しかし、計算とメモリでは高価である。したがって、近年の研究は、アンサンブルを単一のコンパクトモデルに蒸留することに集中し、アンサンブルの計算と記憶の負担を減らしつつ、その予測挙動を保とうとしている。既存の蒸留式の多くは、平均的な予測を捉えてアンサンブルをまとめている。その結果、各メンバーから派生したアンサンブル予測の多様性が失われる。したがって、蒸留モデルは元のアンサンブルに匹敵する不確かさの尺度を与えることができない。アンサンブルの多様性をより忠実に維持するために,Hydraと呼ばれる単一マルチヘッドニューラルネットワークに基づく蒸留法を提案する。共有体ネットワークは、各ヘッドが各アンサンブル部材の予測挙動をキャプチャできるジョイント特徴表現を学習する。パラメータ数の増加に伴い,Hydraは,ドメイン内およびアウト・オブ・ディストリビューション上の元のアンサンブルの不確かさを把握しながら,分類および回帰設定における蒸留性能を向上させる。

関連論文リスト

Dynamic Post-Hoc Neural Ensemblers [55.15643209328513]
本研究では,ニューラルネットワークをアンサンブル手法として活用することを検討する。低多様性のアンサンブルを学習するリスクを動機として,ベースモデル予測をランダムにドロップすることでモデルの正規化を提案する。このアプローチはアンサンブル内の多様性を低くし、オーバーフィッティングを減らし、一般化能力を向上させる。
論文参考訳（メタデータ） (2024-10-06T15:25:39Z)
Collaborative Heterogeneous Causal Inference Beyond Meta-analysis [68.4474531911361]
異種データを用いた因果推論のための協調的逆確率スコア推定器を提案する。異質性の増加に伴うメタアナリシスに基づく手法に対して,本手法は有意な改善を示した。
論文参考訳（メタデータ） (2024-04-24T09:04:36Z)
Structured Radial Basis Function Network: Modelling Diversity for Multiple Hypotheses Prediction [51.82628081279621]
多重モード回帰は非定常過程の予測や分布の複雑な混合において重要である。構造的放射基底関数ネットワークは回帰問題に対する複数の仮説予測器のアンサンブルとして提示される。この構造モデルにより, このテッセルレーションを効率よく補間し, 複数の仮説対象分布を近似することが可能であることが証明された。
論文参考訳（メタデータ） (2023-09-02T01:27:53Z)
Functional Ensemble Distillation [18.34081591772928]
本研究では,効率的なモデルを用いて,アンサンブルの予測を最もよく蒸留する方法を検討する。混合増量方式による簡易増量方式による蒸留モデルの学習により, 性能が著しく向上することが判明した。
論文参考訳（メタデータ） (2022-06-05T14:07:17Z)
Trustworthy Multimodal Regression with Mixture of Normal-inverse Gamma Distributions [91.63716984911278]
このアルゴリズムは、異なるモードの適応的統合の原理における不確かさを効率的に推定し、信頼できる回帰結果を生成する。実世界のデータと実世界のデータの両方に対する実験結果から,多モード回帰タスクにおける本手法の有効性と信頼性が示された。
論文参考訳（メタデータ） (2021-11-11T14:28:12Z)
Diversity Matters When Learning From Ensembles [20.05842308307947]
深層アンサンブルは、予測精度とキャリブレーションの両方において、大規模な画像分類タスクにおいて優れている。訓練が簡単であるにもかかわらず、ディープアンサンブルの計算とメモリコストは、その実行可能性を制限する。本稿では,このギャップを減らすための簡単な手法,すなわち蒸留した性能を全アンサンブルに近づける手法を提案する。
論文参考訳（メタデータ） (2021-10-27T03:44:34Z)
Repulsive Deep Ensembles are Bayesian [6.544954579068863]
ディープアンサンブルの更新規則にカーネル化された反発項を導入する。この単純な修正は、メンバー間の多様性を強制し維持するだけでなく、さらに重要なことは、最大後の推論を適切なベイズ推論に変換することである。
論文参考訳（メタデータ） (2021-06-22T09:50:28Z)
DICE: Diversity in Deep Ensembles via Conditional Redundancy Adversarial Estimation [109.11580756757611]
メンバー間の多様性のおかげで、ディープアンサンブルは単一のネットワークよりもパフォーマンスが良い。最近のアプローチでは、多様性を高めるための予測を規則化していますが、個々のメンバーのパフォーマンスも大幅に減少します。 DICEと呼ばれる新しいトレーニング基準を導入し、特徴間の素早い相関を減らして多様性を高める。
論文参考訳（メタデータ） (2021-01-14T10:53:26Z)
A Closer Look at Codistillation for Distributed Training [21.08740153686464]
分散トレーニング環境における共蒸留について検討する。適度なバッチサイズであっても、共蒸留で訓練されたモデルだけでなく、同期データ並列メソッドで訓練されたモデルも実行可能であることが分かりました。
論文参考訳（メタデータ） (2020-10-06T16:01:34Z)
A general framework for ensemble distribution distillation [14.996944635904402]
ニューラルネットワークのアンサンブルは、予測や不確実性推定の観点から、シングルネットワークよりも優れたパフォーマンスを示すことが示されている。本稿では,分解の保存方法として,回帰アンサンブルと分類アンサンブルの両方を蒸留する枠組みを提案する。
論文参考訳（メタデータ） (2020-02-26T14:34:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。