論文の概要: Stabilizing the LIF Neuron Training
- arxiv url: http://arxiv.org/abs/2202.00282v3
- Date: Fri, 3 Nov 2023 12:04:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-06 18:42:13.504272
- Title: Stabilizing the LIF Neuron Training
- Title(参考訳): LIFニューロントレーニングの安定化
- Authors: Luca Herranz-Celotti and Jean Rouat
- Abstract要約: バイナリアクティビティの非滑らかさは、Deep Learningによるパフォーマンスギャップを埋めるために、Surrogate Gradients (SG)と呼ばれる近似的な勾配を必要とする。
文献ではいくつかのSGが提案されているが、与えられたタスクやネットワークに対して最適なSGを決定する方法は不明である。
本稿では,SGの減衰,鋭さ,テールフェータネスを網羅的に調査する必要性を緩和する方法について述べる。
- 参考スコア(独自算出の注目度): 3.335932527835653
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spiking Neuromorphic Computing uses binary activity to improve Artificial
Intelligence energy efficiency. However, the non-smoothness of binary activity
requires approximate gradients, known as Surrogate Gradients (SG), to close the
performance gap with Deep Learning. Several SG have been proposed in the
literature, but it remains unclear how to determine the best SG for a given
task and network. Good performance can be achieved with most SG shapes, after a
costly search of hyper-parameters. Thus, we aim at experimentally and
theoretically define the best SG across different stress tests, to reduce
future need of grid search. To understand the gap for this line of work, we
show that more complex tasks and networks need more careful choice of SG, even
if overall the derivative of the fast sigmoid outperforms other SG across tasks
and networks, for a wide range of learning rates. We therefore design a
stability based theoretical method to choose initialization and SG shape before
training on the most common spiking architecture, the Leaky Integrate and Fire
(LIF). Since our stability method suggests the use of high firing rates at
initialization, which is non-standard in the neuromorphic literature, we show
that high initial firing rates, combined with a sparsity encouraging loss term
introduced gradually, can lead to better generalization, depending on the SG
shape. Our stability based theoretical solution, finds a SG and initialization
that experimentally result in improved accuracy. We show how it can be used to
reduce the need of extensive grid-search of dampening, sharpness and
tail-fatness of the SG.
- Abstract(参考訳): スパイキングニューロモルフィックコンピューティングは、人工知能エネルギー効率を改善するためにバイナリアクティビティを使用する。
しかし、バイナリアクティビティの非滑らかさは、Deep Learningのパフォーマンスギャップを埋めるために、Surrogate Gradients (SG)と呼ばれる近似勾配を必要とする。
文献ではいくつかのSGが提案されているが、与えられたタスクやネットワークに対して最適なSGを決定する方法は不明である。
ハイパパラメータの探索に費用がかかるため、ほとんどのSG形状で優れた性能が得られる。
そこで本研究では,様々なストレス試験における最適SGを実験的に理論的に定義し,今後のグリッドサーチの必要性を低減することを目的とする。
このような作業のギャップを理解するために、より複雑なタスクやネットワークは、たとえ高速シグモノイドの誘導体がタスクやネットワーク全体で他のSGよりも幅広い学習率で優れているとしても、より慎重にSGを選択する必要があることを示す。
そこで我々は,最も一般的なスパイクアーキテクチャであるLeaky Integrate and Fire (LIF)をトレーニングする前に,初期化とSG形状を選択するための安定性に基づく理論的手法を設計する。
本手法は, 神経型文献では非標準である初期発火における高発火率の使用を示唆するものであり, 徐々に導入される疎度促進損失項と組み合わせることで, SG形状により, より一般化が期待できることを示す。
我々の安定性に基づく理論解は、SGと初期化を発見し、実験により精度が向上する。
我々は,sgの減衰,鋭さ,テールフェットネスの広範囲なグリッド探索の必要性を低減できることを示す。
関連論文リスト
- The Optimality of (Accelerated) SGD for High-Dimensional Quadratic Optimization [4.7256945641654164]
勾配降下(SGD)は機械学習、特にニューラルネットワークトレーニングにおいて広く使われているアルゴリズムである。
正準2次最適化や線形回帰のSGDに関する最近の研究は、適切な高次元設定で十分に一般化できることを示している。
本稿では,ステップサイズスケジュールと運動量指数の2つの基本成分を持つSGDについて検討する。
論文 参考訳(メタデータ) (2024-09-15T14:20:03Z) - A Precise Characterization of SGD Stability Using Loss Surface Geometry [8.942671556572073]
Descent Gradient (SGD) は実世界の実証的な成功を証明しているが、理論的な理解は比較的限られている。
最近の研究は、その実用性に寄与する重要な要因である暗黙の正規化を照らしている。
論文 参考訳(メタデータ) (2024-01-22T19:46:30Z) - Achieving Constraints in Neural Networks: A Stochastic Augmented
Lagrangian Approach [49.1574468325115]
DNN(Deep Neural Networks)の正規化は、一般化性の向上とオーバーフィッティングの防止に不可欠である。
制約付き最適化問題としてトレーニングプロセスのフレーミングによるDNN正規化に対する新しいアプローチを提案する。
我々はAugmented Lagrangian (SAL) 法を用いて、より柔軟で効率的な正規化機構を実現する。
論文 参考訳(メタデータ) (2023-10-25T13:55:35Z) - Membrane Potential Distribution Adjustment and Parametric Surrogate
Gradient in Spiking Neural Networks [3.485537704990941]
この問題を回避し、SNNをゼロから訓練するために、SG戦略を調査し、適用した。
パラメトリックサロゲート勾配(PSG)法を提案し,SGを反復的に更新し,最終的に最適なサロゲート勾配パラメータを決定する。
実験結果から,提案手法は時間によるバックプロパゲーション(BPTT)アルゴリズムと容易に統合可能であることが示された。
論文 参考訳(メタデータ) (2023-04-26T05:02:41Z) - Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文 参考訳(メタデータ) (2022-09-19T18:48:00Z) - Benign Underfitting of Stochastic Gradient Descent [72.38051710389732]
本研究では,適切な学習データを得ることで,一般化性能を実現する「従来型」学習ルールとして,勾配降下度(SGD)がどの程度理解されるかを検討する。
類似現象が起こらない近縁な交換SGDを解析し、その集団リスクが実際に最適な速度で収束することを証明する。
論文 参考訳(メタデータ) (2022-02-27T13:25:01Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - A High Probability Analysis of Adaptive SGD with Momentum [22.9530287983179]
Gradient Descent(DSG)とその変種は、機械学習アプリケーションで最も使われているアルゴリズムである。
モーメントを持つdelayedGrad の滑らかな非設定において、勾配が 0 になる確率を初めて示す。
論文 参考訳(メタデータ) (2020-07-28T15:06:22Z) - Fine-Grained Analysis of Stability and Generalization for Stochastic
Gradient Descent [55.85456985750134]
我々は,SGDの反復的リスクによって制御される新しい境界を開発する,平均モデル安定性と呼ばれる新しい安定性尺度を導入する。
これにより、最良のモデルの振舞いによって一般化境界が得られ、低雑音環境における最初の既知の高速境界が導かれる。
我々の知る限りでは、このことはSGDの微分不能な損失関数でさえも初めて知られている安定性と一般化を与える。
論文 参考訳(メタデータ) (2020-06-15T06:30:19Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。