Fugu-MT 論文翻訳(概要): Stabilizing the LIF Neuron Training

論文の概要: Stabilizing the LIF Neuron Training

arxiv url: http://arxiv.org/abs/2202.00282v3
Date: Fri, 3 Nov 2023 12:04:38 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-06 18:42:13.504272
Title: Stabilizing the LIF Neuron Training
Title（参考訳）: LIFニューロントレーニングの安定化
Authors: Luca Herranz-Celotti and Jean Rouat
Abstract要約: バイナリアクティビティの非滑らかさは、Deep Learningによるパフォーマンスギャップを埋めるために、Surrogate Gradients (SG)と呼ばれる近似的な勾配を必要とする。文献ではいくつかのSGが提案されているが、与えられたタスクやネットワークに対して最適なSGを決定する方法は不明である。本稿では,SGの減衰,鋭さ,テールフェータネスを網羅的に調査する必要性を緩和する方法について述べる。
参考スコア（独自算出の注目度）: 3.335932527835653
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Spiking Neuromorphic Computing uses binary activity to improve Artificial Intelligence energy efficiency. However, the non-smoothness of binary activity requires approximate gradients, known as Surrogate Gradients (SG), to close the performance gap with Deep Learning. Several SG have been proposed in the literature, but it remains unclear how to determine the best SG for a given task and network. Good performance can be achieved with most SG shapes, after a costly search of hyper-parameters. Thus, we aim at experimentally and theoretically define the best SG across different stress tests, to reduce future need of grid search. To understand the gap for this line of work, we show that more complex tasks and networks need more careful choice of SG, even if overall the derivative of the fast sigmoid outperforms other SG across tasks and networks, for a wide range of learning rates. We therefore design a stability based theoretical method to choose initialization and SG shape before training on the most common spiking architecture, the Leaky Integrate and Fire (LIF). Since our stability method suggests the use of high firing rates at initialization, which is non-standard in the neuromorphic literature, we show that high initial firing rates, combined with a sparsity encouraging loss term introduced gradually, can lead to better generalization, depending on the SG shape. Our stability based theoretical solution, finds a SG and initialization that experimentally result in improved accuracy. We show how it can be used to reduce the need of extensive grid-search of dampening, sharpness and tail-fatness of the SG.
Abstract（参考訳）: スパイキングニューロモルフィックコンピューティングは、人工知能エネルギー効率を改善するためにバイナリアクティビティを使用する。しかし、バイナリアクティビティの非滑らかさは、Deep Learningのパフォーマンスギャップを埋めるために、Surrogate Gradients (SG)と呼ばれる近似勾配を必要とする。文献ではいくつかのSGが提案されているが、与えられたタスクやネットワークに対して最適なSGを決定する方法は不明である。ハイパパラメータの探索に費用がかかるため、ほとんどのSG形状で優れた性能が得られる。そこで本研究では,様々なストレス試験における最適SGを実験的に理論的に定義し,今後のグリッドサーチの必要性を低減することを目的とする。このような作業のギャップを理解するために、より複雑なタスクやネットワークは、たとえ高速シグモノイドの誘導体がタスクやネットワーク全体で他のSGよりも幅広い学習率で優れているとしても、より慎重にSGを選択する必要があることを示す。そこで我々は,最も一般的なスパイクアーキテクチャであるLeaky Integrate and Fire (LIF)をトレーニングする前に,初期化とSG形状を選択するための安定性に基づく理論的手法を設計する。本手法は, 神経型文献では非標準である初期発火における高発火率の使用を示唆するものであり, 徐々に導入される疎度促進損失項と組み合わせることで, SG形状により, より一般化が期待できることを示す。我々の安定性に基づく理論解は、SGと初期化を発見し、実験により精度が向上する。我々は,sgの減衰,鋭さ,テールフェットネスの広範囲なグリッド探索の必要性を低減できることを示す。

関連論文リスト

Adaptive Gradient Learning for Spiking Neural Networks by Exploiting Membrane Potential Dynamics [23.205286200919673]
脳にインスパイアされたスパイクニューラルネットワーク(SNN)は、効率的で低エネルギーのニューロモルフィックコンピューティングを実現するための有望な道として認識されている。スパイクがニューロン間で伝播するにつれて、膜電位ダイナミクス(MPD)の分布は固定されたSGの勾配可能な間隔から逸脱する。本稿では,MPD,すなわちMPD-AGLを利用してSNNの適応勾配学習を提案する。
論文参考訳（メタデータ） (2025-05-17T06:06:13Z)
On the Convergence of DP-SGD with Adaptive Clipping [56.24689348875711]
勾配クリッピングによるグラディエントDescentは、微分プライベート最適化を実現するための強力な技術である。本稿では,量子クリッピング(QC-SGD)を用いたSGDの総合収束解析について述べる。本稿では,QC-SGDが一定閾値クリッピングSGDに類似したバイアス問題にどのように悩まされているかを示す。
論文参考訳（メタデータ） (2024-12-27T20:29:47Z)
The Optimality of (Accelerated) SGD for High-Dimensional Quadratic Optimization [4.7256945641654164]
勾配降下(SGD)は機械学習、特にニューラルネットワークトレーニングにおいて広く使われているアルゴリズムである。正準2次最適化や線形回帰のSGDに関する最近の研究は、適切な高次元設定で十分に一般化できることを示している。本稿では,ステップサイズスケジュールと運動量指数の2つの基本成分を持つSGDについて検討する。
論文参考訳（メタデータ） (2024-09-15T14:20:03Z)
A Precise Characterization of SGD Stability Using Loss Surface Geometry [8.942671556572073]
Descent Gradient (SGD) は実世界の実証的な成功を証明しているが、理論的な理解は比較的限られている。最近の研究は、その実用性に寄与する重要な要因である暗黙の正規化を照らしている。
論文参考訳（メタデータ） (2024-01-22T19:46:30Z)
Achieving Constraints in Neural Networks: A Stochastic Augmented Lagrangian Approach [49.1574468325115]
DNN(Deep Neural Networks)の正規化は、一般化性の向上とオーバーフィッティングの防止に不可欠である。制約付き最適化問題としてトレーニングプロセスのフレーミングによるDNN正規化に対する新しいアプローチを提案する。我々はAugmented Lagrangian (SAL) 法を用いて、より柔軟で効率的な正規化機構を実現する。
論文参考訳（メタデータ） (2023-10-25T13:55:35Z)
Nonconvex Stochastic Bregman Proximal Gradient Method with Application to Deep Learning [9.202586157819693]
非合成対象函数のロバスト性を最小化する二次法は、典型的には微分可能部分のリプシッツ滑らか性に依存する。本稿では適応性のみを考慮したBregman(SBPG)手法のファミリーを提案する。 MSBPGは運動量に基づく変種であり、ミニバッチサイズ要求を緩和することで収束感度を高める。
論文参考訳（メタデータ） (2023-06-26T08:54:46Z)
Membrane Potential Distribution Adjustment and Parametric Surrogate Gradient in Spiking Neural Networks [3.485537704990941]
この問題を回避し、SNNをゼロから訓練するために、SG戦略を調査し、適用した。パラメトリックサロゲート勾配(PSG)法を提案し,SGを反復的に更新し,最終的に最適なサロゲート勾配パラメータを決定する。実験結果から,提案手法は時間によるバックプロパゲーション(BPTT)アルゴリズムと容易に統合可能であることが示された。
論文参考訳（メタデータ） (2023-04-26T05:02:41Z)
Stability and Generalization Analysis of Gradient Methods for Shallow Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文参考訳（メタデータ） (2022-09-19T18:48:00Z)
Benign Underfitting of Stochastic Gradient Descent [72.38051710389732]
本研究では,適切な学習データを得ることで,一般化性能を実現する「従来型」学習ルールとして,勾配降下度(SGD)がどの程度理解されるかを検討する。類似現象が起こらない近縁な交換SGDを解析し、その集団リスクが実際に最適な速度で収束することを証明する。
論文参考訳（メタデータ） (2022-02-27T13:25:01Z)
Direction Matters: On the Implicit Bias of Stochastic Gradient Descent with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。 SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文参考訳（メタデータ） (2020-11-04T21:07:52Z)
A High Probability Analysis of Adaptive SGD with Momentum [22.9530287983179]
Gradient Descent(DSG)とその変種は、機械学習アプリケーションで最も使われているアルゴリズムである。モーメントを持つdelayedGrad の滑らかな非設定において、勾配が 0 になる確率を初めて示す。
論文参考訳（メタデータ） (2020-07-28T15:06:22Z)
Fine-Grained Analysis of Stability and Generalization for Stochastic Gradient Descent [55.85456985750134]
我々は,SGDの反復的リスクによって制御される新しい境界を開発する,平均モデル安定性と呼ばれる新しい安定性尺度を導入する。これにより、最良のモデルの振舞いによって一般化境界が得られ、低雑音環境における最初の既知の高速境界が導かれる。我々の知る限りでは、このことはSGDの微分不能な損失関数でさえも初めて知られている安定性と一般化を与える。
論文参考訳（メタデータ） (2020-06-15T06:30:19Z)
Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。 Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文参考訳（メタデータ） (2020-04-20T18:12:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。