論文の概要: Extreme Memorization via Scale of Initialization
- arxiv url: http://arxiv.org/abs/2008.13363v2
- Date: Sat, 1 May 2021 22:09:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-23 06:25:02.928201
- Title: Extreme Memorization via Scale of Initialization
- Title(参考訳): 初期化尺度による極限記憶
- Authors: Harsh Mehta, Ashok Cutkosky, Behnam Neyshabur
- Abstract要約: 我々は,初期化の規模を変えることが,SGDによって誘導される暗黙の正規化に強く影響を与える実験装置を構築する。
一般化能力に影響を及ぼす範囲と方法が、使用したアクティベーションと損失関数に依存することがわかった。
均質なReLU活性化の場合、この挙動は損失関数に起因することが示される。
- 参考スコア(独自算出の注目度): 72.78162454173803
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We construct an experimental setup in which changing the scale of
initialization strongly impacts the implicit regularization induced by SGD,
interpolating from good generalization performance to completely memorizing the
training set while making little progress on the test set. Moreover, we find
that the extent and manner in which generalization ability is affected depends
on the activation and loss function used, with $\sin$ activation demonstrating
extreme memorization. In the case of the homogeneous ReLU activation, we show
that this behavior can be attributed to the loss function. Our empirical
investigation reveals that increasing the scale of initialization correlates
with misalignment of representations and gradients across examples in the same
class. This insight allows us to devise an alignment measure over gradients and
representations which can capture this phenomenon. We demonstrate that our
alignment measure correlates with generalization of deep models trained on
image classification tasks.
- Abstract(参考訳): 本研究では,初期化の規模を変えることがSGDによって誘導される暗黙の正規化に強く影響し,優れた一般化性能から補間し,テストセットをほとんど前進させずにトレーニングセットを完全に記憶する実験装置を構築する。
さらに、一般化能力が影響を受ける範囲と方法が、使用される活性化と損失関数に依存し、$\sin$アクティベーションは極端な暗記を示す。
均質なReLU活性化の場合、この挙動は損失関数に起因することが示される。
実験の結果,初期化の尺度の増大は,同一クラスにおける例間の表現と勾配の不一致と相関することが明らかとなった。
この洞察により、この現象を捉えることができる勾配と表現のアライメント尺度を考案することができる。
画像分類タスクで訓練された深層モデルの一般化とアライメント尺度が相関することを示す。
関連論文リスト
- Is network fragmentation a useful complexity measure? [0.8480931990442769]
ディープニューラルネットワーク分類器はフラグメンテーションを示すことができ、モデル関数は入力空間がトラバースされるにつれてクラスを急速に変更する。
我々はこの現象を画像分類の文脈で研究し、フラグメンテーションが一般化性能の予測可能かどうかを問う。
i) フラグメンテーションは入力空間に限らず, 隠蔽表現にも生じ, (ii) フラグメンテーションはトレーニングを通しての検証誤差の傾向に従い, (iii) フラグメンテーションは重量ノルムの増加による直接の結果ではない。
論文 参考訳(メタデータ) (2024-11-07T13:27:37Z) - STAT: Towards Generalizable Temporal Action Localization [56.634561073746056]
WTAL(Wakly-supervised temporal action Localization)は、ビデオレベルのラベルだけでアクションインスタンスを認識およびローカライズすることを目的としている。
既存の手法は、異なる分布に転送する際の重大な性能劣化に悩まされる。
本稿では,アクションローカライズ手法の一般化性向上に焦点を当てたGTALを提案する。
論文 参考訳(メタデータ) (2024-04-20T07:56:21Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - A Theoretical Understanding of Shallow Vision Transformers: Learning,
Generalization, and Sample Complexity [71.11795737362459]
自己注意モジュールを持つViTは、最近多くのタスクで経験的な成功を収めた。
しかし、理論学習の一般化分析は、ほとんどノイズが多く、解答的である。
本稿では,分類タスクのための浅いViTの理論的解析を行った。
論文 参考訳(メタデータ) (2023-02-12T22:12:35Z) - Theoretical Characterization of How Neural Network Pruning Affects its
Generalization [131.1347309639727]
この研究は、異なるプルーニング率がモデルの勾配降下ダイナミクスと一般化にどのように影響するかを研究する最初の試みである。
プルーニング率が一定の閾値以下である限り、勾配降下はトレーニング損失をゼロに導くことができる。
より驚くべきことに、プルーニング分数が大きくなるにつれて、一般化境界はより良くなる。
論文 参考訳(メタデータ) (2023-01-01T03:10:45Z) - Relating Regularization and Generalization through the Intrinsic
Dimension of Activations [11.00580615194563]
画像分類モデルにおける検証セットアクティベーションの最終層ID(LLID)を,共通正規化手法により均一に低減することを示す。
また、グルーキングを示すモデルのトレーニングの過程でLLIDについても検討する。
論文 参考訳(メタデータ) (2022-11-23T19:00:00Z) - Regression as Classification: Influence of Task Formulation on Neural
Network Features [16.239708754973865]
ニューラルネットワークは、勾配に基づく手法を用いて2乗損失を最小限に抑えることにより、回帰問題を解決するために訓練することができる。
実践者は、しばしば回帰を分類問題として再編成し、クロスエントロピー損失のトレーニングがより良いパフォーマンスをもたらすことを観察する。
2層ReLUネットワークに着目して、勾配に基づく最適化によって引き起こされる暗黙のバイアスが、この現象を部分的に説明できるかを検討する。
論文 参考訳(メタデータ) (2022-11-10T15:13:23Z) - Generalizable Information Theoretic Causal Representation [37.54158138447033]
本稿では,観測データから因果表現を学習するために,仮説因果グラフに基づいて相互情報量で学習手順を規則化することを提案する。
この最適化は、因果性に着想を得た学習がサンプルの複雑さを減らし、一般化能力を向上させるという理論的保証を導出する反ファクト的損失を伴う。
論文 参考訳(メタデータ) (2022-02-17T00:38:35Z) - The Break-Even Point on Optimization Trajectories of Deep Neural
Networks [64.7563588124004]
この軌道上の「破滅的な」点の存在を論じる。
トレーニングの初期段階での大きな学習率を用いることで、勾配のばらつきが軽減されることを示す。
また, バッチ正規化層を有するニューラルネットワークにおいても, 低学習率を用いることで損失面の条件が悪くなることを示す。
論文 参考訳(メタデータ) (2020-02-21T22:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。