論文の概要: A Principled Bayesian Framework for Training Binary and Spiking Neural Networks
- arxiv url: http://arxiv.org/abs/2505.17962v1
- Date: Fri, 23 May 2025 14:33:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.154943
- Title: A Principled Bayesian Framework for Training Binary and Spiking Neural Networks
- Title(参考訳): バイナリとスパイクニューラルネットワークの学習のための原理ベイズ的枠組み
- Authors: James A. Walker, Moein Khajehnejad, Adeel Razi,
- Abstract要約: スパイキングベイズニューラルネットワーク(英: Spiking Bayesian Neural Networks、SBNN)は、後部雑音を用いてIW-STでバイナリニューラルネットワークとスパイキングニューラルネットワークを訓練する変分推論フレームワークである。
低バイアス条件、消失勾配、KL項をリンクすることにより、正規化なしで深い残留ネットワークのトレーニングを可能にする。
- 参考スコア(独自算出の注目度): 1.6658912537684454
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a Bayesian framework for training binary and spiking neural networks that achieves state-of-the-art performance without normalisation layers. Unlike commonly used surrogate gradient methods -- often heuristic and sensitive to hyperparameter choices -- our approach is grounded in a probabilistic model of noisy binary networks, enabling fully end-to-end gradient-based optimisation. We introduce importance-weighted straight-through (IW-ST) estimators, a unified class generalising straight-through and relaxation-based estimators. We characterise the bias-variance trade-off in this family and derive a bias-minimising objective implemented via an auxiliary loss. Building on this, we introduce Spiking Bayesian Neural Networks (SBNNs), a variational inference framework that uses posterior noise to train Binary and Spiking Neural Networks with IW-ST. This Bayesian approach minimises gradient bias, regularises parameters, and introduces dropout-like noise. By linking low-bias conditions, vanishing gradients, and the KL term, we enable training of deep residual networks without normalisation. Experiments on CIFAR-10, DVS Gesture, and SHD show our method matches or exceeds existing approaches without normalisation or hand-tuned gradients.
- Abstract(参考訳): 本稿では、正規化レイヤを使わずに最先端のパフォーマンスを実現するための、バイナリとスパイクニューラルネットワークのトレーニングのためのベイズフレームワークを提案する。
一般的に用いられるシュロゲート勾配法(しばしば過パラメータ選択に敏感でヒューリスティックな)とは異なり、我々のアプローチはノイズのあるバイナリネットワークの確率モデルに基づいており、完全なエンドツーエンドの勾配に基づく最適化を可能にしている。
重要度重み付きストレートスルー(IW-ST)推定器は,ストレートスルーと緩和に基づく推定器を一般化した統一クラスである。
我々は、この家系におけるバイアス分散トレードオフを特徴付け、補助損失を通じて実施されるバイアス最小化目標を導出する。
そこで本研究では,後部雑音を用いた変分推論フレームワークであるSpking Bayesian Neural Networks (SBNNs)を導入し,IW-STを用いたバイナリニューラルネットワークとスパイクニューラルネットワークの学習を行った。
このベイズ的アプローチは、勾配バイアスを最小化し、パラメータを正規化し、ドロップアウトのようなノイズを導入する。
低バイアス条件、消失勾配、KL項をリンクすることにより、正規化なしで深い残留ネットワークのトレーニングを可能にする。
CIFAR-10, DVS Gesture, SHDによる実験では, 正規化や手動勾配を伴わずに, 既存の手法と一致するか, 上回っている。
関連論文リスト
- Approximation and Gradient Descent Training with Neural Networks [0.0]
最近の研究は、ニューラル・タンジェント・カーネル(NTK)最適化の議論を過度にパラメータ化された状態に拡張している。
本稿では,勾配降下法により学習したネットワークの類似性を示す。
論文 参考訳(メタデータ) (2024-05-19T23:04:09Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Domain Generalization Guided by Gradient Signal to Noise Ratio of
Parameters [69.24377241408851]
ソースドメインへのオーバーフィッティングは、ディープニューラルネットワークの勾配に基づくトレーニングにおいて一般的な問題である。
本稿では,ネットワークパラメータの勾配-信号-雑音比(GSNR)を選択することを提案する。
論文 参考訳(メタデータ) (2023-10-11T10:21:34Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Likelihood-Free Inference with Generative Neural Networks via Scoring
Rule Minimization [0.0]
推測法は、難易度のあるシミュレーターモデルに対する後部近似を導出する。
多くの研究は、難易度または後部に直接近似するようにニューラルネットワークを訓練した。
本稿では,スコーリングルールの最小化によって訓練された生成ネットワークに後部を近似することを提案する。
論文 参考訳(メタデータ) (2022-05-31T13:32:55Z) - A Distributed Optimisation Framework Combining Natural Gradient with
Hessian-Free for Discriminative Sequence Training [16.83036203524611]
本稿では、ニューラルネットワークトレーニングのための自然勾配およびヘッセンフリー(NGHF)最適化フレームワークを提案する。
これは、自然勾配(ng)法とヘッセンフリー(hf)や他の二次法からの局所曲率情報を組み合わせた線形共役勾配(cg)アルゴリズムに依存している。
さまざまな音響モデルタイプのマルチジャンル放送データセットで実験が報告されています。
論文 参考訳(メタデータ) (2021-03-12T22:18:34Z) - Bayesian Nested Neural Networks for Uncertainty Calibration and Adaptive
Compression [40.35734017517066]
ネストネットワーク(Nested Network)またはスリムブルネットワーク(Slimmable Network)は、テスト期間中にアーキテクチャを即座に調整できるニューラルネットワークである。
最近の研究は、トレーニング中に重要なレイヤのノードを順序付けできる"ネストされたドロップアウト"層に焦点を当てている。
論文 参考訳(メタデータ) (2021-01-27T12:34:58Z) - A Bayesian Perspective on Training Speed and Model Selection [51.15664724311443]
モデルのトレーニング速度の測定値を用いて,その限界確率を推定できることを示す。
線形モデルと深部ニューラルネットワークの無限幅限界に対するモデル選択タスクの結果を検証する。
以上の結果から、勾配勾配勾配で訓練されたニューラルネットワークが、一般化する関数に偏りがある理由を説明するための、有望な新たな方向性が示唆された。
論文 参考訳(メタデータ) (2020-10-27T17:56:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。