論文の概要: Surrogate Gradients Design
- arxiv url: http://arxiv.org/abs/2202.00282v2
- Date: Wed, 2 Feb 2022 12:10:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-03 13:41:43.688141
- Title: Surrogate Gradients Design
- Title(参考訳): サロゲート勾配設計
- Authors: Luca Herranz-Celotti and Jean Rouat
- Abstract要約: 複雑なタスクやネットワークがSGの選択にどのように敏感であるかを示す。
また,低湿化,高シャープ化,低尾脂肪化が望ましいことを示す。
広範グリッドサーチの必要性を低減するための理論的解決策を提供する。
- 参考スコア(独自算出の注目度): 4.416484585765027
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Surrogate gradient (SG) training provides the possibility to quickly transfer
all the gains made in deep learning to neuromorphic computing and neuromorphic
processors, with the consequent reduction in energy consumption. Evidence
supports that training can be robust to the choice of SG shape, after an
extensive search of hyper-parameters. However, random or grid search of
hyper-parameters becomes exponentially unfeasible as we consider more
hyper-parameters. Moreover, every point in the search can itself be highly time
and energy consuming for large networks and large datasets. In this article we
show how complex tasks and networks are more sensitive to SG choice. Secondly,
we show how low dampening, high sharpness and low tail fatness are preferred.
Thirdly, we observe that Glorot Uniform initialization is generally preferred
by most SG choices, with variability in the results. We finally provide a
theoretical solution to reduce the need of extensive gridsearch, to find SG
shape and initializations that result in improved accuracy.
- Abstract(参考訳): surrogategradient(sg)トレーニングは、ディープラーニングで得られるすべての成果を、ニューラルネットワークコンピューティングとニューロモルフィックプロセッサに迅速に移行する可能性を提供し、エネルギー消費量を減少させる。
ハイパーパラメータの広範囲な探索の後、トレーニングはsg形状の選択に堅牢である、という証拠がある。
しかし、ハイパーパラメータのランダムあるいはグリッド探索は、よりハイパーパラメータを考えると指数関数的に不可能になる。
さらに、検索のすべての点は、大きなネットワークや大きなデータセットに対して非常に時間とエネルギーを消費することができる。
本稿では、複雑なタスクやネットワークがSG選択にどのように敏感であるかを示す。
第2に, 低減衰, 高鋭度, 低尾脂肪度が好ましいことを示す。
第3に、Grorot Uniform の初期化は一般にほとんどの SG 選択に好まれており、その結果は可変である。
そこで我々は,SG形状と初期化の精度向上を実現するため,拡張グリッド探索の必要性を低減できる理論解を提案する。
関連論文リスト
- The Optimality of (Accelerated) SGD for High-Dimensional Quadratic Optimization [4.7256945641654164]
勾配降下(SGD)は機械学習、特にニューラルネットワークトレーニングにおいて広く使われているアルゴリズムである。
正準2次最適化や線形回帰のSGDに関する最近の研究は、適切な高次元設定で十分に一般化できることを示している。
本稿では,ステップサイズスケジュールと運動量指数の2つの基本成分を持つSGDについて検討する。
論文 参考訳(メタデータ) (2024-09-15T14:20:03Z) - A Precise Characterization of SGD Stability Using Loss Surface Geometry [8.942671556572073]
Descent Gradient (SGD) は実世界の実証的な成功を証明しているが、理論的な理解は比較的限られている。
最近の研究は、その実用性に寄与する重要な要因である暗黙の正規化を照らしている。
論文 参考訳(メタデータ) (2024-01-22T19:46:30Z) - Achieving Constraints in Neural Networks: A Stochastic Augmented
Lagrangian Approach [49.1574468325115]
DNN(Deep Neural Networks)の正規化は、一般化性の向上とオーバーフィッティングの防止に不可欠である。
制約付き最適化問題としてトレーニングプロセスのフレーミングによるDNN正規化に対する新しいアプローチを提案する。
我々はAugmented Lagrangian (SAL) 法を用いて、より柔軟で効率的な正規化機構を実現する。
論文 参考訳(メタデータ) (2023-10-25T13:55:35Z) - Membrane Potential Distribution Adjustment and Parametric Surrogate
Gradient in Spiking Neural Networks [3.485537704990941]
この問題を回避し、SNNをゼロから訓練するために、SG戦略を調査し、適用した。
パラメトリックサロゲート勾配(PSG)法を提案し,SGを反復的に更新し,最終的に最適なサロゲート勾配パラメータを決定する。
実験結果から,提案手法は時間によるバックプロパゲーション(BPTT)アルゴリズムと容易に統合可能であることが示された。
論文 参考訳(メタデータ) (2023-04-26T05:02:41Z) - Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文 参考訳(メタデータ) (2022-09-19T18:48:00Z) - Benign Underfitting of Stochastic Gradient Descent [72.38051710389732]
本研究では,適切な学習データを得ることで,一般化性能を実現する「従来型」学習ルールとして,勾配降下度(SGD)がどの程度理解されるかを検討する。
類似現象が起こらない近縁な交換SGDを解析し、その集団リスクが実際に最適な速度で収束することを証明する。
論文 参考訳(メタデータ) (2022-02-27T13:25:01Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - A High Probability Analysis of Adaptive SGD with Momentum [22.9530287983179]
Gradient Descent(DSG)とその変種は、機械学習アプリケーションで最も使われているアルゴリズムである。
モーメントを持つdelayedGrad の滑らかな非設定において、勾配が 0 になる確率を初めて示す。
論文 参考訳(メタデータ) (2020-07-28T15:06:22Z) - Fine-Grained Analysis of Stability and Generalization for Stochastic
Gradient Descent [55.85456985750134]
我々は,SGDの反復的リスクによって制御される新しい境界を開発する,平均モデル安定性と呼ばれる新しい安定性尺度を導入する。
これにより、最良のモデルの振舞いによって一般化境界が得られ、低雑音環境における最初の既知の高速境界が導かれる。
我々の知る限りでは、このことはSGDの微分不能な損失関数でさえも初めて知られている安定性と一般化を与える。
論文 参考訳(メタデータ) (2020-06-15T06:30:19Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。