論文の概要: Regularizing Deep Neural Networks with Stochastic Estimators of Hessian
Trace
- arxiv url: http://arxiv.org/abs/2208.05924v1
- Date: Thu, 11 Aug 2022 16:51:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-12 13:30:00.146901
- Title: Regularizing Deep Neural Networks with Stochastic Estimators of Hessian
Trace
- Title(参考訳): ヘシアントレースの確率的推定器を用いたディープニューラルネットワークの規則化
- Authors: Yucong Liu and Shixing Yu and Tong Lin
- Abstract要約: 我々は,ヘッセンのトレースをペナルタイズすることで,ディープニューラルネットワークの新しい正規化手法を開発した。
実験により,本手法は既存の正則化器やデータ拡張法よりも優れていることが示された。
- 参考スコア(独自算出の注目度): 1.933681537640272
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we develop a novel regularization method for deep neural
networks by penalizing the trace of Hessian. This regularizer is motivated by a
recent guarantee bound of the generalization error. Hutchinson method is a
classical unbiased estimator for the trace of a matrix, but it is very
time-consuming on deep learning models. Hence a dropout scheme is proposed to
efficiently implements the Hutchinson method. Then we discuss a connection to
linear stability of a nonlinear dynamical system and flat/sharp minima.
Experiments demonstrate that our method outperforms existing regularizers and
data augmentation methods, such as Jacobian, confidence penalty, and label
smoothing, cutout and mixup.
- Abstract(参考訳): 本稿では,ヘッセンのトレースをペナルティ化したディープニューラルネットワークの新しい正規化手法を提案する。
この正規化子は、一般化誤差の最近の保証境界によって動機付けられる。
ハッチンソン法は行列のトレースのための古典的非バイアス推定法であるが、ディープラーニングモデルには非常に時間がかかる。
したがって,ハッチンソン法を効率的に実装するためのドロップアウト方式を提案する。
次に非線形力学系とフラット/シャープミニマの線形安定性との関係について考察する。
実験により,既存の正規化器やデータ拡張法であるヤコビアン,信頼度ペナルティ,ラベル平滑化,カットアウト,ミックスアップを上回った。
関連論文リスト
- Scalable Bayesian Inference in the Era of Deep Learning: From Gaussian Processes to Deep Neural Networks [0.5827521884806072]
大規模なデータセットでトレーニングされた大規模なニューラルネットワークは、マシンラーニングの主要なパラダイムになっています。
この論文は、モデル不確実性を持つニューラルネットワークを装備するためのスケーラブルな手法を開発する。
論文 参考訳(メタデータ) (2024-04-29T23:38:58Z) - Low-rank extended Kalman filtering for online learning of neural
networks from streaming data [71.97861600347959]
非定常データストリームから非線形関数のパラメータを推定するための効率的なオンライン近似ベイズ推定アルゴリズムを提案する。
この方法は拡張カルマンフィルタ (EKF) に基づいているが、新しい低ランク+斜角行列分解法を用いている。
変分推論に基づく手法とは対照的に,本手法は完全に決定論的であり,ステップサイズチューニングを必要としない。
論文 参考訳(メタデータ) (2023-05-31T03:48:49Z) - Hyper-Reduced Autoencoders for Efficient and Accurate Nonlinear Model
Reductions [1.0499611180329804]
射影に基づくモデル順序の減少は、ゆっくりと減衰するコルモゴロフ n-幅の問題に対して最近提案されている。
これまで提案された手法の欠点は、高忠実度ソリューションスナップショット上でネットワークをトレーニングする際の潜在的に高い計算コストである。
我々は、高忠実度ソリューションスナップショットのサブサンプルバージョンのみにニューラルネットワークをトレーニングすることで、この欠点を克服する新しい手法を提案し、分析する。
論文 参考訳(メタデータ) (2023-03-16T20:18:33Z) - DeepBayes -- an estimator for parameter estimation in stochastic
nonlinear dynamical models [11.917949887615567]
本研究では,DeepBayes推定器を提案する。
ディープリカレントニューラルネットワークアーキテクチャはオフラインでトレーニングでき、推論中にかなりの時間を節約できる。
提案手法の異なる実例モデルへの適用性を実証し, 最先端手法との詳細な比較を行う。
論文 参考訳(メタデータ) (2022-05-04T18:12:17Z) - On the adaptation of recurrent neural networks for system identification [2.5234156040689237]
本稿では,動的システムのリカレントニューラルネットワーク(RNN)モデルの高速かつ効率的な適応を可能にするトランスファー学習手法を提案する。
その後、システムダイナミクスが変化すると仮定され、摂動系における名目モデルの性能が不可避的に低下する。
ミスマッチに対処するため、新しい動的状態からの新鮮なデータに基づいてトレーニングされた付加的補正項でモデルを拡張する。
論文 参考訳(メタデータ) (2022-01-21T12:04:17Z) - The Interplay Between Implicit Bias and Benign Overfitting in Two-Layer
Linear Networks [51.1848572349154]
ノイズの多いデータに完全に適合するニューラルネットワークモデルは、見当たらないテストデータにうまく一般化できる。
我々は,2層線形ニューラルネットワークを2乗損失の勾配流で補間し,余剰リスクを導出する。
論文 参考訳(メタデータ) (2021-08-25T22:01:01Z) - Scalable Marginal Likelihood Estimation for Model Selection in Deep
Learning [78.83598532168256]
階層型モデル選択は、推定困難のため、ディープラーニングではほとんど使われない。
本研究は,検証データが利用できない場合,限界的可能性によって一般化が向上し,有用であることを示す。
論文 参考訳(メタデータ) (2021-04-11T09:50:24Z) - Deep learning: a statistical viewpoint [120.94133818355645]
ディープラーニングは、理論的観点からいくつかの大きな驚きを明らかにしました。
特に、簡単な勾配法は、最適でないトレーニング問題に対するほぼ完全な解決策を簡単に見つけます。
我々はこれらの現象を具体的原理で補うと推測する。
論文 参考訳(メタデータ) (2021-03-16T16:26:36Z) - DL-Reg: A Deep Learning Regularization Technique using Linear Regression [4.1359299555083595]
本稿では,DL-Regと呼ばれる新しいディープラーニング正規化手法を提案する。
ネットワークをできるだけ線形に振る舞うように明示的に強制することで、ディープネットワークの非線形性をある程度まで慎重に減少させる。
DL-Regの性能は、いくつかのベンチマークデータセット上で最先端のディープネットワークモデルをトレーニングすることで評価される。
論文 参考訳(メタデータ) (2020-10-31T21:53:24Z) - A Bayesian Perspective on Training Speed and Model Selection [51.15664724311443]
モデルのトレーニング速度の測定値を用いて,その限界確率を推定できることを示す。
線形モデルと深部ニューラルネットワークの無限幅限界に対するモデル選択タスクの結果を検証する。
以上の結果から、勾配勾配勾配で訓練されたニューラルネットワークが、一般化する関数に偏りがある理由を説明するための、有望な新たな方向性が示唆された。
論文 参考訳(メタデータ) (2020-10-27T17:56:14Z) - Path Sample-Analytic Gradient Estimators for Stochastic Binary Networks [78.76880041670904]
二進的アクティベーションや二進的重みを持つニューラルネットワークでは、勾配降下によるトレーニングは複雑である。
そこで本研究では,サンプリングと解析近似を併用した新しい推定法を提案する。
勾配推定において高い精度を示し、深部畳み込みモデルにおいてより安定かつ優れた訓練を行うことを示す。
論文 参考訳(メタデータ) (2020-06-04T21:51:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。