論文の概要: PEP: Parameter Ensembling by Perturbation
- arxiv url: http://arxiv.org/abs/2010.12721v1
- Date: Sat, 24 Oct 2020 00:16:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 12:07:37.131994
- Title: PEP: Parameter Ensembling by Perturbation
- Title(参考訳): PEP:摂動によるパラメータ化
- Authors: Alireza Mehrtash, Purang Abolmaesumi, Polina Golland, Tina Kapur,
Demian Wassermann, William M. Wells III
- Abstract要約: 摂動(PEP)は、トレーニングから設定された最適パラメータのランダム摂動としてパラメータ値のアンサンブルを構成する。
PEPは性能を少し改善し、場合によっては経験的キャリブレーションを大幅に改善する。
PEPは、トレーニング中に発生したオーバーフィッティングのレベルを調査するために使用することができる。
- 参考スコア(独自算出の注目度): 13.221295194854642
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ensembling is now recognized as an effective approach for increasing the
predictive performance and calibration of deep networks. We introduce a new
approach, Parameter Ensembling by Perturbation (PEP), that constructs an
ensemble of parameter values as random perturbations of the optimal parameter
set from training by a Gaussian with a single variance parameter. The variance
is chosen to maximize the log-likelihood of the ensemble average ($\mathbb{L}$)
on the validation data set. Empirically, and perhaps surprisingly, $\mathbb{L}$
has a well-defined maximum as the variance grows from zero (which corresponds
to the baseline model). Conveniently, calibration level of predictions also
tends to grow favorably until the peak of $\mathbb{L}$ is reached. In most
experiments, PEP provides a small improvement in performance, and, in some
cases, a substantial improvement in empirical calibration. We show that this
"PEP effect" (the gain in log-likelihood) is related to the mean curvature of
the likelihood function and the empirical Fisher information. Experiments on
ImageNet pre-trained networks including ResNet, DenseNet, and Inception showed
improved calibration and likelihood. We further observed a mild improvement in
classification accuracy on these networks. Experiments on classification
benchmarks such as MNIST and CIFAR-10 showed improved calibration and
likelihood, as well as the relationship between the PEP effect and overfitting;
this demonstrates that PEP can be used to probe the level of overfitting that
occurred during training. In general, no special training procedure or network
architecture is needed, and in the case of pre-trained networks, no additional
training is needed.
- Abstract(参考訳): 組立は、ディープネットワークの予測性能とキャリブレーションを高める効果的なアプローチとして認識されている。
本研究では,単一分散パラメータを持つガウス型学習から最適パラメータセットのランダムな摂動としてパラメータ値のアンサンブルを構成する,摂動によるパラメータセンシング(pep)という新しい手法を提案する。
分散は、検証データセット上のアンサンブル平均(\mathbb{L}$)のログ類似度を最大化するために選択される。
経験的に、そしておそらく驚くことに、$\mathbb{l}$ は分散がゼロ(ベースラインモデルに対応する)から成長するにつれてよく定義された最大値を持つ。
同様に、予測のキャリブレーションレベルも、$\mathbb{L}$のピークに達するまで好適に成長する傾向にある。
ほとんどの実験では、PEPは性能を少し改善し、場合によっては経験的なキャリブレーションを大幅に改善する。
この「pep効果」 (ログ類似度利得) は, 確率関数の平均曲率と経験的フィッシャー情報との関連性を示す。
ResNet、DenseNet、InceptionなどのImageNet事前トレーニングネットワークの実験では、キャリブレーションと可能性が改善された。
さらに,これらのネットワーク上での分類精度は軽度に向上した。
MNISTやCIFAR-10のような分類ベンチマークの実験では、校正と可能性の向上に加えて、PEP効果とオーバーフィッティングの関係が示された。
一般に、特別なトレーニング手順やネットワークアーキテクチャは不要であり、事前訓練されたネットワークの場合、追加のトレーニングは不要である。
関連論文リスト
- Fixed-Mean Gaussian Processes for Post-hoc Bayesian Deep Learning [11.22428369342346]
普遍カーネルを用いた場合、後続平均を任意の連続関数に固定する、スパース変分ガウス過程(GP)の新たなファミリを導入する。
具体的には、このGPの平均値を事前学習したDNNの出力に固定し、GPの予測分散を効果的に適合させて予測の不確かさを推定する。
実験の結果,FMGPは最先端手法と比較して不確実性評価と計算効率を両立させることがわかった。
論文 参考訳(メタデータ) (2024-12-05T14:17:16Z) - Just How Flexible are Neural Networks in Practice? [89.80474583606242]
ニューラルネットワークは、パラメータを持つ少なくとも多くのサンプルを含むトレーニングセットに適合できると広く信じられている。
しかし実際には、勾配や正規化子など、柔軟性を制限したトレーニング手順によるソリューションしか見つからない。
論文 参考訳(メタデータ) (2024-06-17T12:24:45Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Variational Linearized Laplace Approximation for Bayesian Deep Learning [11.22428369342346]
変分スパースガウス過程(GP)を用いた線形ラプラス近似(LLA)の近似法を提案する。
本手法はGPの2つのRKHSの定式化に基づいており、予測平均として元のDNNの出力を保持する。
効率のよい最適化が可能で、結果としてトレーニングデータセットのサイズのサブ線形トレーニング時間が短縮される。
論文 参考訳(メタデータ) (2023-02-24T10:32:30Z) - Reliable Prediction Intervals with Directly Optimized Inductive
Conformal Regression for Deep Learning [3.42658286826597]
予測間隔(PI)は、ディープラーニング回帰における各予測の不確かさの定量化に使用される。
PIの品質向上のための多くのアプローチは、PIの幅を効果的に削減することができるが、実際のラベルが十分に取得されていることを保証しない。
本研究では,損失関数としてPIの平均幅のみを考慮に入れた直接最適化インダクティブ・コンダクティブ・レグレッション(DOICR)を用いる。
ベンチマーク実験により、DOICRは回帰問題に対する現在の最先端アルゴリズムよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-02-02T04:46:14Z) - Predicting Deep Neural Network Generalization with Perturbation Response
Curves [58.8755389068888]
トレーニングネットワークの一般化能力を評価するための新しいフレームワークを提案する。
具体的には,一般化ギャップを正確に予測するための2つの新しい尺度を提案する。
PGDL(Predicting Generalization in Deep Learning)のNeurIPS 2020コンペティションにおけるタスクの大部分について、現在の最先端の指標よりも優れた予測スコアを得る。
論文 参考訳(メタデータ) (2021-06-09T01:37:36Z) - Efficient training of physics-informed neural networks via importance
sampling [2.9005223064604078]
Physics-In Neural Networks(PINN)は、偏微分方程式(PDE)によって制御されるシステムを計算するために訓練されているディープニューラルネットワークのクラスである。
重要サンプリング手法により,PINN訓練の収束挙動が改善されることが示唆された。
論文 参考訳(メタデータ) (2021-04-26T02:45:10Z) - Exploring the Uncertainty Properties of Neural Networks' Implicit Priors
in the Infinite-Width Limit [47.324627920761685]
我々は、無限大のNNのアンサンブルに先立って関数空間をガウス過程として特徴づける最近の理論的進歩を用いる。
これにより、関数空間上の暗黙の前のNNについて、よりよく理解できます。
また,従来のNNGPを用いた分類手法の校正について検討した。
論文 参考訳(メタデータ) (2020-10-14T18:41:54Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Scaling Equilibrium Propagation to Deep ConvNets by Drastically Reducing
its Gradient Estimator Bias [65.13042449121411]
実際には、EPによって提供される勾配推定によるネットワークのトレーニングは、MNISTよりも難しい視覚タスクにスケールしない。
有限ヌード法に固有のEPの勾配推定のバイアスがこの現象の原因であることを示す。
これらの手法を適用し、非対称な前方および後方接続を持つアーキテクチャをトレーニングし、13.2%のテストエラーを発生させる。
論文 参考訳(メタデータ) (2020-06-06T09:36:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。