論文の概要: Neglected Hessian component explains mysteries in Sharpness
regularization
- arxiv url: http://arxiv.org/abs/2401.10809v1
- Date: Fri, 19 Jan 2024 16:52:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 15:07:35.334741
- Title: Neglected Hessian component explains mysteries in Sharpness
regularization
- Title(参考訳): Neglected Hessian 成分はシャープネス正則化におけるミステリーを説明する
- Authors: Yann N. Dauphin, Atish Agarwala, Hossein Mobahi
- Abstract要約: 損失のヘッセン構造によって差が説明できることを示す。
特徴の活用を規則化するが, 特徴探索を行わないと, 勾配のペナルティに類似した性能が得られることがわかった。
- 参考スコア(独自算出の注目度): 19.882170571967368
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work has shown that methods like SAM which either explicitly or
implicitly penalize second order information can improve generalization in deep
learning. Seemingly similar methods like weight noise and gradient penalties
often fail to provide such benefits. We show that these differences can be
explained by the structure of the Hessian of the loss. First, we show that a
common decomposition of the Hessian can be quantitatively interpreted as
separating the feature exploitation from feature exploration. The feature
exploration, which can be described by the Nonlinear Modeling Error matrix
(NME), is commonly neglected in the literature since it vanishes at
interpolation. Our work shows that the NME is in fact important as it can
explain why gradient penalties are sensitive to the choice of activation
function. Using this insight we design interventions to improve performance. We
also provide evidence that challenges the long held equivalence of weight noise
and gradient penalties. This equivalence relies on the assumption that the NME
can be ignored, which we find does not hold for modern networks since they
involve significant feature learning. We find that regularizing feature
exploitation but not feature exploration yields performance similar to gradient
penalties.
- Abstract(参考訳): 最近の研究では、二階情報の明示的あるいは暗黙的にペナルティを課すsamのような手法がディープラーニングの一般化を改善できることが示されている。
重みのノイズや勾配のペナルティのような類似の手法は、しばしばそのような利点を提供しない。
これらの違いは、損失のヘシアンの構造によって説明できることを示す。
まず,Hessianの共通分解は特徴探索から特徴利用を分離するものとして定量的に解釈できることを示す。
非線形モデリング誤差行列(NME)によって記述できる特徴探索は、補間時に消滅するため、文献で一般的に無視される。
我々の研究は、NMEが実際に重要であることを示しており、なぜ勾配のペナルティが活性化関数の選択に敏感であるかを説明することができる。
この洞察を使って、パフォーマンスを改善するための介入をデザインします。
また,重み付き雑音と勾配のペナルティの長期的等価性に挑戦する証拠も提示する。
この等価性は、NMEを無視できるという仮定に依存しており、それらが重要な特徴学習を含むため、現代のネットワークには当てはまらない。
機能エクスプロイトを正規化するが、機能探索ではないことは、グラデーションペナルティと同じようなパフォーマンスをもたらす。
関連論文リスト
- Multiple Descents in Unsupervised Learning: The Role of Noise, Domain Shift and Anomalies [14.399035468023161]
教師なし学習における二重の子孫の存在について検討するが、これはほとんど注目されず、まだ完全には理解されていない領域である。
我々は、合成データと実データを用いて、様々なアプリケーションに対してモデルワイド、エポックワイド、サンプルワイドの二重降下を識別する。
論文 参考訳(メタデータ) (2024-06-17T16:24:23Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Learning sparse features can lead to overfitting in neural networks [9.2104922520782]
機能学習は遅延トレーニングよりもパフォーマンスが良くないことを示す。
空間性は異方性データの学習に不可欠であることが知られているが、対象関数が一定あるいは滑らかな場合に有害である。
論文 参考訳(メタデータ) (2022-06-24T14:26:33Z) - On the Benefits of Large Learning Rates for Kernel Methods [110.03020563291788]
本稿では,カーネル手法のコンテキストにおいて,現象を正確に特徴付けることができることを示す。
分離可能なヒルベルト空間における2次対象の最小化を考慮し、早期停止の場合、学習速度の選択が得られた解のスペクトル分解に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2022-02-28T13:01:04Z) - Classification and Adversarial examples in an Overparameterized Linear
Model: A Signal Processing Perspective [10.515544361834241]
最先端のディープラーニング分類器は、無限の逆境摂動に非常に敏感である。
学習されたモデルは、分類が一般化するが回帰はしない中間体制の敵に感受性がある。
敵対的感受性にもかかわらず、これらの特徴による分類は、より一般的に研究されている「非依存的特徴」モデルよりも容易である。
論文 参考訳(メタデータ) (2021-09-27T17:35:42Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - Can contrastive learning avoid shortcut solutions? [88.249082564465]
暗黙的特徴修正(IFM)は、より広い種類の予測的特徴を捉えるために、対照的なモデルを導くために、正と負のサンプルを変更する方法である。
IFMは特徴抑制を低減し、その結果、視覚および医用画像タスクのパフォーマンスが向上する。
論文 参考訳(メタデータ) (2021-06-21T16:22:43Z) - Disentangling Action Sequences: Discovering Correlated Samples [6.179793031975444]
我々は、データ自体が要因ではなく非絡み合いにおいて重要な役割を担い、非絡み合い表現は潜在変数とアクションシーケンスとを一致させることを示した。
本稿では,アクションシーケンスをステップバイステップで切り離すための新しいフレームワークFVAEを提案する。
dSprites と 3D Chairs の実験結果から, FVAE は絡み合いの安定性を向上させることが示された。
論文 参考訳(メタデータ) (2020-10-17T07:37:50Z) - Extreme Memorization via Scale of Initialization [72.78162454173803]
我々は,初期化の規模を変えることが,SGDによって誘導される暗黙の正規化に強く影響を与える実験装置を構築する。
一般化能力に影響を及ぼす範囲と方法が、使用したアクティベーションと損失関数に依存することがわかった。
均質なReLU活性化の場合、この挙動は損失関数に起因することが示される。
論文 参考訳(メタデータ) (2020-08-31T04:53:11Z) - DisCor: Corrective Feedback in Reinforcement Learning via Distribution
Correction [96.90215318875859]
ブートストラップに基づくQ-ラーニングアルゴリズムは必ずしも修正フィードバックの恩恵を受けないことを示す。
本稿では,この最適分布に対する近似を計算し,トレーニングに使用する遷移の重み付けに使用する新しいアルゴリズムであるDisCorを提案する。
論文 参考訳(メタデータ) (2020-03-16T16:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。