論文の概要: Stochastic Modified Equations and Dynamics of Dropout Algorithm
- arxiv url: http://arxiv.org/abs/2305.15850v1
- Date: Thu, 25 May 2023 08:42:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 16:28:23.251973
- Title: Stochastic Modified Equations and Dynamics of Dropout Algorithm
- Title(参考訳): 確率的修正方程式とドロップアウトアルゴリズムのダイナミクス
- Authors: Zhongwang Zhang, Yuqing Li, Tao Luo, Zhi-Qin John Xu
- Abstract要約: ドロップアウトはニューラルネットワークのトレーニングにおいて広く利用されている正規化技術である。
その基盤となるメカニズムと優れた能力を達成するための影響は、いまだに理解されていない。
- 参考スコア(独自算出の注目度): 4.811269936680572
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dropout is a widely utilized regularization technique in the training of
neural networks, nevertheless, its underlying mechanism and its impact on
achieving good generalization abilities remain poorly understood. In this work,
we derive the stochastic modified equations for analyzing the dynamics of
dropout, where its discrete iteration process is approximated by a class of
stochastic differential equations. In order to investigate the underlying
mechanism by which dropout facilitates the identification of flatter minima, we
study the noise structure of the derived stochastic modified equation for
dropout. By drawing upon the structural resemblance between the Hessian and
covariance through several intuitive approximations, we empirically demonstrate
the universal presence of the inverse variance-flatness relation and the
Hessian-variance relation, throughout the training process of dropout. These
theoretical and empirical findings make a substantial contribution to our
understanding of the inherent tendency of dropout to locate flatter minima.
- Abstract(参考訳): ドロップアウトはニューラルネットワークのトレーニングにおいて広く利用されている正規化手法であるが、その基盤となるメカニズムと優れた一般化能力を達成するための影響は理解されていない。
本研究では,その離散反復過程を確率微分方程式のクラスで近似する,ドロップアウトのダイナミクスを解析するための確率修正方程式を導出する。
平らな最小値の同定を容易にするための基礎メカニズムについて検討するため, 導出確率修正方程式の雑音構造について検討した。
いくつかの直感的な近似を通して、ヘッセンと共分散の構造的類似性から、逆分散-平坦性関係とヘッセン-分散関係の普遍的存在を実証的に示す。
これらの理論的,実証的な知見は,平らなミニマの位置を求める落落傾向の理解に大きく貢献する。
関連論文リスト
- Toward Understanding In-context vs. In-weight Learning [50.24035812301655]
本研究は,文脈内学習の出現と消失を引き起こす簡易な分布特性を同定する。
そして、この研究を完全な大規模言語モデルに拡張し、自然言語プロンプトの様々なコレクションの微調整が、文脈内および重み付き学習の振る舞いをいかに引き出すかを示す。
論文 参考訳(メタデータ) (2024-10-30T14:09:00Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Knowledge Distillation Performs Partial Variance Reduction [93.6365393721122]
知識蒸留は'学生'モデルの性能を高めるための一般的な手法である。
知識蒸留(KD)の背後にある力学は、まだ完全には理解されていない。
我々は,KDを新しいタイプの分散還元機構として解釈できることを示す。
論文 参考訳(メタデータ) (2023-05-27T21:25:55Z) - Non-Parametric Learning of Stochastic Differential Equations with Non-asymptotic Fast Rates of Convergence [65.63201894457404]
非線形微分方程式のドリフトと拡散係数の同定のための新しい非パラメトリック学習パラダイムを提案する。
鍵となる考え方は、基本的には、対応するフォッカー・プランク方程式のRKHSに基づく近似をそのような観測に適合させることである。
論文 参考訳(メタデータ) (2023-05-24T20:43:47Z) - Fluctuations, Bias, Variance & Ensemble of Learners: Exact Asymptotics
for Convex Losses in High-Dimension [25.711297863946193]
我々は、異なる、しかし相関のある特徴に基づいて訓練された一般化線形モデルの集合における揺らぎの研究の理論を開発する。
一般凸損失と高次元限界における正則化のための経験的リスク最小化器の結合分布の完全な記述を提供する。
論文 参考訳(メタデータ) (2022-01-31T17:44:58Z) - Covariate Shift in High-Dimensional Random Feature Regression [44.13449065077103]
共変量シフトは、堅牢な機械学習モデルの開発において重要な障害である。
現代の機械学習の文脈における理論的理解を示す。
論文 参考訳(メタデータ) (2021-11-16T05:23:28Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z) - Understanding Double Descent Requires a Fine-Grained Bias-Variance
Decomposition [34.235007566913396]
ラベルに関連付けられた用語への分散の解釈可能で対称的な分解について述べる。
バイアスはネットワーク幅とともに単調に減少するが、分散項は非単調な振る舞いを示す。
我々はまた、著しく豊かな現象論も分析する。
論文 参考訳(メタデータ) (2020-11-04T21:04:02Z) - Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。
分散による離散乗法雑音のパラメータによく現れることを示す。
最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文 参考訳(メタデータ) (2020-06-11T09:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。