論文の概要: A Truly Sparse and General Implementation of Gradient-Based Synaptic Plasticity
- arxiv url: http://arxiv.org/abs/2501.11407v1
- Date: Mon, 20 Jan 2025 11:14:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:26:47.009111
- Title: A Truly Sparse and General Implementation of Gradient-Based Synaptic Plasticity
- Title(参考訳): グラディエントベースシナプス塑性の完全スパースと一般実装
- Authors: Jamie Lohoff, Anil Kaya, Florian Assmuth, Emre Neftci,
- Abstract要約: 本稿では、勾配に基づくシナプス可塑性規則のスパース化とオンライン実装のためのカスタム自動微分(AD)パイプラインを提案する。
我々の研究は、メモリ効率を保ちながら、AD転送のためのバックプロパゲーション型メソッドのプログラミングを容易にすることを組み合わせている。
本稿では,シーケンス長に依存することなく,ネットワークサイズでメモリ利用がいかにスケールするかを示す。
- 参考スコア(独自算出の注目度): 0.7617849765320394
- License:
- Abstract: Online synaptic plasticity rules derived from gradient descent achieve high accuracy on a wide range of practical tasks. However, their software implementation often requires tediously hand-derived gradients or using gradient backpropagation which sacrifices the online capability of the rules. In this work, we present a custom automatic differentiation (AD) pipeline for sparse and online implementation of gradient-based synaptic plasticity rules that generalizes to arbitrary neuron models. Our work combines the programming ease of backpropagation-type methods for forward AD while being memory-efficient. To achieve this, we exploit the advantageous compute and memory scaling of online synaptic plasticity by providing an inherently sparse implementation of AD where expensive tensor contractions are replaced with simple element-wise multiplications if the tensors are diagonal. Gradient-based synaptic plasticity rules such as eligibility propagation (e-prop) have exactly this property and thus profit immensely from this feature. We demonstrate the alignment of our gradients with respect to gradient backpropagation on an synthetic task where e-prop gradients are exact, as well as audio speech classification benchmarks. We demonstrate how memory utilization scales with network size without dependence on the sequence length, as expected from forward AD methods.
- Abstract(参考訳): 勾配降下から導かれるオンラインシナプス可塑性規則は、幅広い実用的なタスクにおいて高い精度を達成する。
しかしながら、彼らのソフトウェア実装は、しばしば、手作業による退屈な勾配や、ルールのオンライン能力の犠牲となる勾配のバックプロパゲーションの使用を必要とします。
本研究では、任意のニューロンモデルに一般化する勾配に基づくシナプス可塑性規則のスパースとオンライン実装のためのカスタム自動微分(AD)パイプラインを提案する。
我々の研究は、メモリ効率を保ちながら、AD転送のためのバックプロパゲーション型メソッドのプログラミングを容易にすることを組み合わせている。
そこで我々は,高額なテンソル収縮を単純な要素ワイド乗算に置き換えるADの実装を本質的に疎結合にすることで,オンラインシナプス塑性の計算とメモリのスケーリングを有利に活用する。
配向性伝播(e-prop)のようなグラディエントに基づくシナプス可塑性規則は、まさにこの性質を持ち、したがってこの特徴から大いに利益を得る。
我々は,e-propグラデーションが正確である合成タスクにおける勾配のバックプロパゲーションに関する勾配のアライメントを,音声音声分類ベンチマークとともに示す。
本稿では,前向きAD法で期待されるように,シーケンス長に依存することなく,メモリ利用がネットワークサイズでどのようにスケールするかを示す。
関連論文リスト
- To Clip or not to Clip: the Dynamics of SGD with Gradient Clipping in High-Dimensions [6.653325043862049]
ストリーミングSGDにおける最小二乗問題における勾配クリッピングについて検討した。
ガウスノイズクリッピングではSGD性能が向上しないことを示す。
クリッピングしきい値のほぼ最適なスケジューリング法を提案する。
論文 参考訳(メタデータ) (2024-06-17T16:50:22Z) - How to guess a gradient [68.98681202222664]
我々は、勾配が以前考えられていたよりもより構造化されていることを示す。
この構造をエクスプロイトすると、勾配のない最適化スキームが大幅に改善される。
厳密な勾配の最適化と勾配の推測の間に大きなギャップを克服する上での新たな課題を強調した。
論文 参考訳(メタデータ) (2023-12-07T21:40:44Z) - Nonsmooth automatic differentiation: a cheap gradient principle and
other complexity results [0.0]
我々は,多種多様な非滑らかなプログラムに対して,アルゴリズム微分の後方モードと前方モードの計算コストを推定するモデルを提供する。
有名な例として、有名なreluと畳み込みニューラルネットワークとその標準損失関数がある。
論文 参考訳(メタデータ) (2022-06-01T08:43:35Z) - Continuous-Time Meta-Learning with Forward Mode Differentiation [65.26189016950343]
本稿では,勾配ベクトル場の力学に適応するメタ学習アルゴリズムであるContinuous Meta-Learning(COMLN)を紹介する。
学習プロセスをODEとして扱うことは、軌跡の長さが現在連続しているという顕著な利点を提供する。
本稿では,実行時とメモリ使用時の効率を実証的に示すとともに,いくつかの画像分類問題に対して有効性を示す。
論文 参考訳(メタデータ) (2022-03-02T22:35:58Z) - Progressive Encoding for Neural Optimization [92.55503085245304]
メッシュ転送におけるppe層の能力と,そのアドバンテージを,現代の表面マッピング技術と比較した。
最も重要な点は, パラメタライズフリーな手法であり, 様々な対象形状表現に適用可能であることである。
論文 参考訳(メタデータ) (2021-04-19T08:22:55Z) - Self-Tuning Stochastic Optimization with Curvature-Aware Gradient
Filtering [53.523517926927894]
サンプルごとのHessian-vector積と勾配を用いて、自己チューニングの二次構造を構築する。
モデルに基づく手続きが雑音勾配設定に収束することを証明する。
これは自己チューニング二次体を構築するための興味深いステップである。
論文 参考訳(メタデータ) (2020-11-09T22:07:30Z) - Implicit Under-Parameterization Inhibits Data-Efficient Deep
Reinforcement Learning [97.28695683236981]
さらなる勾配更新により、現在の値ネットワークの表現性が低下する。
AtariとGymのベンチマークでは、オフラインとオンラインのRL設定の両方でこの現象を実証する。
論文 参考訳(メタデータ) (2020-10-27T17:55:16Z) - Channel-Directed Gradients for Optimization of Convolutional Neural
Networks [50.34913837546743]
本稿では,畳み込みニューラルネットワークの最適化手法を提案する。
出力チャネル方向に沿って勾配を定義することで性能が向上し,他の方向が有害となることを示す。
論文 参考訳(メタデータ) (2020-08-25T00:44:09Z) - Randomized Automatic Differentiation [22.95414996614006]
我々は、ランダム化自動微分(RAD)のための一般的なフレームワークとアプローチを開発する。
RADは、分散の見返りにメモリを減らし、バイアスのない見積もりを計算できる。
本稿では,フィードフォワードネットワークのバッチサイズを小さくし,繰り返しネットワークの場合と同様の回数でRADが収束することを示す。
論文 参考訳(メタデータ) (2020-07-20T19:03:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。