論文の概要: An Empirical Study of the Occurrence of Heavy-Tails in Training a ReLU
Gate
- arxiv url: http://arxiv.org/abs/2204.12554v1
- Date: Tue, 26 Apr 2022 19:28:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-29 01:42:20.209667
- Title: An Empirical Study of the Occurrence of Heavy-Tails in Training a ReLU
Gate
- Title(参考訳): reluゲート訓練におけるヘビーテールの発生に関する実験的検討
- Authors: Sayar Karmakar and Anirbit Mukherjee
- Abstract要約: 2つのアルゴリズムは、後者が収束することが証明できる任意のデータに類似したヘビーテールの挙動を持つと推測する。
このモデルシナリオにおける重み付き指数は、線形仮説クラスで証明されたものや、大規模ネットで実証されたものとは大きく異なる性質を持つことを示す。
- 参考スコア(独自算出の注目度): 0.7614628596146599
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A particular direction of recent advance about stochastic deep-learning
algorithms has been about uncovering a rather mysterious heavy-tailed nature of
the stationary distribution of these algorithms, even when the data
distribution is not so. Moreover, the heavy-tail index is known to show
interesting dependence on the input dimension of the net, the mini-batch size
and the step size of the algorithm. In this short note, we undertake an
experimental study of this index for S.G.D. while training a $\relu$ gate (in
the realizable and in the binary classification setup) and for a variant of
S.G.D. that was proven in Karmakar and Mukherjee (2022) for ReLU realizable
data. From our experiments we conjecture that these two algorithms have similar
heavy-tail behaviour on any data where the latter can be proven to converge.
Secondly, we demonstrate that the heavy-tail index of the late time iterates in
this model scenario has strikingly different properties than either what has
been proven for linear hypothesis classes or what has been previously
demonstrated for large nets.
- Abstract(参考訳): 確率的深層学習アルゴリズムに関する最近の進歩の方向は、データ分布がそうでない場合でも、これらのアルゴリズムの定常分布のかなり神秘的な重み付き性質を明らかにすることである。
さらに、重テール指数は、ネットの入力次元、ミニバッチサイズ、アルゴリズムのステップサイズに興味深い依存を示すことが知られている。
本稿では、S.G.D.に対して、$\relu$ gate (reizable and in the binary classification set) と、ReLU実現可能なデータに対してKarmakar and Mukherjee (2022) で証明された S.G.D. の変種をトレーニングしながら、この指標について実験的に研究する。
我々の実験から、これらの2つのアルゴリズムは、後者が収束することが証明できる任意のデータに類似したヘビーテールの挙動を持つと推測する。
第二に、このモデルシナリオにおける後期の重み付き指数は、線形仮説クラスで証明されたものや、大規模ネットで実証されたものとは大きく異なる性質を持つことを示す。
関連論文リスト
- Random features models: a way to study the success of naive imputation [0.0]
これは、欠落したデータを扱うための最初の使い易いテクニックである。
最近の研究は、このバイアスが高次元線形予測器の文脈で低いことを示唆している。
本稿は, 偏見が無視可能であり, 意外なナイーブな計算も極めて低次元で関連している,という直感を裏付けるものである。
論文 参考訳(メタデータ) (2024-02-06T09:37:06Z) - Regularization-Based Methods for Ordinal Quantification [49.606912965922504]
順序の場合、すなわち n>2 クラスの集合上で全順序が定義される場合について研究する。
本稿では,従来のアルゴリズムよりも優れた正規化OQアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-13T16:04:06Z) - Escaping mediocrity: how two-layer networks learn hard generalized
linear models with SGD [29.162265194920522]
本研究では,グラディエント・Descent (SGD) の下で一般化線形目標関数を学習するための2層ニューラルネットワークのサンプル複雑性について検討する。
オーバーファクター化は、この問題クラス内の定数因子による収束を増大させることしかできないことを示す。
しかし,このプロセスの決定論的近似は脱走時間を適切に表現し,SGDityの役割は最小限である可能性が示唆された。
論文 参考訳(メタデータ) (2023-05-29T14:40:56Z) - What learning algorithm is in-context learning? Investigations with
linear models [87.91612418166464]
本稿では,トランスフォーマーに基づくインコンテキスト学習者が標準学習アルゴリズムを暗黙的に実装する仮説について検討する。
訓練された文脈内学習者は、勾配降下、隆起回帰、および正確な最小二乗回帰によって計算された予測値と密に一致していることを示す。
文脈内学習者がこれらの予測器とアルゴリズム的特徴を共有するという予備的証拠。
論文 参考訳(メタデータ) (2022-11-28T18:59:51Z) - Parametric Classification for Generalized Category Discovery: A Baseline
Study [70.73212959385387]
Generalized Category Discovery (GCD)は、ラベル付きサンプルから学習した知識を用いて、ラベルなしデータセットで新しいカテゴリを発見することを目的としている。
パラメトリック分類器の故障を調査し,高品質な監視が可能であった場合の過去の設計選択の有効性を検証し,信頼性の低い疑似ラベルを重要課題として同定する。
エントロピー正規化の利点を生かし、複数のGCDベンチマークにおける最先端性能を実現し、未知のクラス数に対して強いロバスト性を示す、単純で効果的なパラメトリック分類法を提案する。
論文 参考訳(メタデータ) (2022-11-21T18:47:11Z) - Heavy-Tail Phenomenon in Decentralized SGD [33.63000461985398]
分散勾配降下(DE-SGD)における重鎖の出現について検討する。
また,分権化が尾の挙動に及ぼす影響についても検討した。
我々の理論は、テールとネットワーク構造の間の興味深い相互作用を明らかにする。
論文 参考訳(メタデータ) (2022-05-13T14:47:04Z) - On the Benefits of Large Learning Rates for Kernel Methods [110.03020563291788]
本稿では,カーネル手法のコンテキストにおいて,現象を正確に特徴付けることができることを示す。
分離可能なヒルベルト空間における2次対象の最小化を考慮し、早期停止の場合、学習速度の選択が得られた解のスペクトル分解に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2022-02-28T13:01:04Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - Theoretical Insights Into Multiclass Classification: A High-dimensional
Asymptotic View [82.80085730891126]
線形多クラス分類の最初の現代的精度解析を行う。
分析の結果,分類精度は分布に依存していることがわかった。
得られた洞察は、他の分類アルゴリズムの正確な理解の道を開くかもしれない。
論文 参考訳(メタデータ) (2020-11-16T05:17:29Z) - The Heavy-Tail Phenomenon in SGD [7.366405857677226]
最小損失のHessianの構造に依存すると、SGDの反復はエンフェビーテールの定常分布に収束する。
深層学習におけるSGDの行動に関する知見に分析結果を変換する。
論文 参考訳(メタデータ) (2020-06-08T16:43:56Z) - Provable Training of a ReLU Gate with an Iterative Non-Gradient
Algorithm [0.7614628596146599]
我々は,未調査体制下での1つのReLUゲートのトレーニングについて,証明可能な保証を示す。
我々は,真のラベルに対する(オンライン)データポゾン攻撃の下で,真のラベル生成パラメータを近似的に復元することを示す。
我々の保証は最悪の場合ほぼ最適であることが示され、真の重量回復の精度は攻撃の確率と大きさの増大とともに優雅に低下する。
論文 参考訳(メタデータ) (2020-05-08T17:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。