論文の概要: Anti-Distillation: Improving reproducibility of deep networks
- arxiv url: http://arxiv.org/abs/2010.09923v1
- Date: Mon, 19 Oct 2020 23:47:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 20:12:03.368385
- Title: Anti-Distillation: Improving reproducibility of deep networks
- Title(参考訳): 脱蒸留:深層ネットワークの再現性の向上
- Authors: Gil I. Shamir and Lorenzo Coviello
- Abstract要約: 同一のアーキテクチャと同一の訓練されたパラメータセットを持つとされる2つのモデルであっても、以前は見えなかった個々の例で非常に異なる予測を行うことができる。
アンチ蒸留は、サンプルのミニバッチよりも出力を非相関化する技術によって、コンポーネントを互いにアンサンブルする。
実験結果から, ベンチマークおよび実データセット上でのアンチ蒸留により, 精度の高い予測差の低減が得られた。
- 参考スコア(独自算出の注目度): 3.7311680121118345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep networks have been revolutionary in improving performance of machine
learning and artificial intelligence systems. Their high prediction accuracy,
however, comes at a price of \emph{model irreproducibility\/} in very high
levels that do not occur with classical linear models. Two models, even if they
are supposedly identical, with identical architecture and identical trained
parameter sets, and that are trained on the same set of training examples,
while possibly providing identical average prediction accuracies, may predict
very differently on individual, previously unseen, examples. \emph{Prediction
differences\/} may be as large as the order of magnitude of the predictions
themselves. Ensembles have been shown to somewhat mitigate this behavior, but
without an extra push, may not be utilizing their full potential. In this work,
a novel approach, \emph{Anti-Distillation\/}, is proposed to address
irreproducibility in deep networks, where ensemble models are used to generate
predictions. Anti-Distillation forces ensemble components away from one another
by techniques like de-correlating their outputs over mini-batches of examples,
forcing them to become even more different and more diverse. Doing so enhances
the benefit of ensembles, making the final predictions more reproducible.
Empirical results demonstrate substantial prediction difference reductions
achieved by Anti-Distillation on benchmark and real datasets.
- Abstract(参考訳): ディープネットワークは、機械学習と人工知能システムのパフォーマンス向上に革命的だった。
しかし、それらの高い予測精度は古典的線形モデルでは起こらない非常に高いレベルでの \emph{model irreproducibility\/} の価格で得られる。
2つのモデルは、同一のアーキテクチャと同一の訓練されたパラメータセットを持ち、同一のトレーニング例でトレーニングされるが、同じ平均予測精度を提供する可能性はある。
\emph{Prediction difference\/} は予測そのものの桁数と同じ大きさである。
アンサンブルはこの動作を多少緩和することが示されているが、追加のプッシュがなければ、その可能性を最大限活用していない可能性がある。
本研究は, アンサンブルモデルを用いて予測を生成する深層ネットワークにおける非再現性に対処するために, 新規なアプローチである \emph{anti-distillation\/} を提案する。
アンチ蒸留は、サンプルのミニバッチよりもアウトプットを非相関化する技術によって、コンポーネントを互いに分離させ、より異なる、より多様なものにする。
そうすることでアンサンブルの利点が向上し、最終的な予測が再現性を高めます。
実験により, ベンチマークおよび実データセット上でのアンチ蒸留による予測差の大幅な低減が示された。
関連論文リスト
- Improving Network Interpretability via Explanation Consistency Evaluation [56.14036428778861]
本稿では、より説明可能なアクティベーションヒートマップを取得し、同時にモデル性能を向上させるフレームワークを提案する。
具体的には、モデル学習において、トレーニングサンプルを適応的に重み付けするために、新しいメトリクス、すなわち説明整合性を導入する。
そこで,本フレームワークは,これらのトレーニングサンプルに深い注意を払ってモデル学習を促進する。
論文 参考訳(メタデータ) (2024-08-08T17:20:08Z) - Functional Ensemble Distillation [18.34081591772928]
本研究では,効率的なモデルを用いて,アンサンブルの予測を最もよく蒸留する方法を検討する。
混合増量方式による簡易増量方式による蒸留モデルの学習により, 性能が著しく向上することが判明した。
論文 参考訳(メタデータ) (2022-06-05T14:07:17Z) - Tribrid: Stance Classification with Neural Inconsistency Detection [9.150728831518459]
本稿では,BERTなどのニューラルアーキテクチャを用いたソーシャルメディア上での自動姿勢分類を行う際の課題について検討する。
提案するニューラルアーキテクチャでは,任意のクレームに対して自動生成された否定的視点も含んでいる。
モデルは同時に複数の予測を行うように共同で学習され、元の視点の分類を改善するか、疑わしい予測をフィルタリングするために使用することができる。
論文 参考訳(メタデータ) (2021-09-14T08:13:03Z) - FitVid: Overfitting in Pixel-Level Video Prediction [117.59339756506142]
われわれはFitVidという新しいアーキテクチャを導入し、一般的なベンチマークに厳しいオーバーフィッティングを行えるようにした。
FitVidは、4つの異なるメトリクスで4つの異なるビデオ予測ベンチマークで現在の最先端モデルを上回っている。
論文 参考訳(メタデータ) (2021-06-24T17:20:21Z) - Churn Reduction via Distillation [54.5952282395487]
本研究は, 基礎モデルを教師として用いた蒸留によるトレーニングと, 予測的チャーンに対する明示的な制約によるトレーニングとの等価性を示す。
次に, 蒸留が近年の多くのベースラインに対する低チャーン訓練に有効であることを示す。
論文 参考訳(メタデータ) (2021-06-04T18:03:31Z) - Training independent subnetworks for robust prediction [47.81111607870936]
一つのモデルの前方通過の下で、複数の予測を使用することの利点を無償で実現できることを示す。
CIFAR10, CIFAR100, ImageNet, およびそれらのアウト・オブ・ディストリビューション変種に対する負のログ類似度, 精度, 校正誤差の大幅な改善を観察した。
論文 参考訳(メタデータ) (2020-10-13T18:05:13Z) - Set Prediction without Imposing Structure as Conditional Density
Estimation [40.86881969839325]
本研究では,学習を条件密度推定として見ることにより,設定損失による学習の代替を提案する。
本フレームワークは, 深部エネルギーモデルに適合し, 勾配誘導サンプリングによる難易度を近似する。
我々のアプローチは、標準ベンチマークの以前のセット予測モデルと競合する。
論文 参考訳(メタデータ) (2020-10-08T16:49:16Z) - Beyond Point Estimate: Inferring Ensemble Prediction Variation from
Neuron Activation Strength in Recommender Systems [21.392694985689083]
Ensemble Methodは、予測不確実性推定のための最先端のベンチマークである。
予測のバリエーションは、様々なランダム性源から生じることを観察する。
本稿では,ニューロンの活性化強度の予測変動を推定し,活性化強度の特徴から強い予測力を示す。
論文 参考訳(メタデータ) (2020-08-17T00:08:27Z) - Regularizing Class-wise Predictions via Self-knowledge Distillation [80.76254453115766]
類似サンプル間の予測分布を解析する新しい正規化法を提案する。
これにより、単一のネットワークの暗黒知識(すなわち誤った予測に関する知識)を規則化する。
画像分類タスクにおける実験結果から, 単純だが強力な手法が一般化能力を大幅に向上することを示した。
論文 参考訳(メタデータ) (2020-03-31T06:03:51Z) - Ambiguity in Sequential Data: Predicting Uncertain Futures with
Recurrent Models [110.82452096672182]
逐次データによる曖昧な予測を扱うために,Multiple hypothesis Prediction(MHP)モデルの拡張を提案する。
また、不確実性を考慮するのに適した曖昧な問題に対する新しい尺度も導入する。
論文 参考訳(メタデータ) (2020-03-10T09:15:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。