論文の概要: Efficient and Flexible Neural Network Training through Layer-wise Feedback Propagation
- arxiv url: http://arxiv.org/abs/2308.12053v2
- Date: Wed, 05 Feb 2025 20:37:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 14:31:06.180681
- Title: Efficient and Flexible Neural Network Training through Layer-wise Feedback Propagation
- Title(参考訳): レイヤワイズフィードバック伝搬による高能率・柔軟ニューラルネットワークトレーニング
- Authors: Leander Weber, Jim Berend, Moritz Weckbecker, Alexander Binder, Thomas Wiegand, Wojciech Samek, Sebastian Lapuschkin,
- Abstract要約: ニューラルネットワークのような予測器のための新しいトレーニング原理であるLFP(Layer-wise Feedback Propagation)を提案する。
LFPは、与えられたタスクの解決へのそれぞれの貢献に基づいて、個々のニューロンに報酬を分解する。
提案手法は,ネットワークの有用な部分を補強し,有害な部分を弱めるという欲求的アプローチを実現する。
- 参考スコア(独自算出の注目度): 49.44309457870649
- License:
- Abstract: Gradient-based optimization has been a cornerstone of machine learning enabling the vast advances of AI development over the past decades. However, since this type of optimization requires differentiation, it reduces flexibility in the choice of model and objective. With recent evidence of the benefits of non-differentiable (e.g. neuromorphic) architectures over classical models, such constraints can become limiting in the future. We present Layer-wise Feedback Propagation (LFP), a novel training principle for neural network-like predictors utilizing methods from the domain of explainability to decompose a reward to individual neurons based on their respective contributions to solving a given task without imposing any differentiability requirements. Leveraging these neuron-wise rewards, our method then implements a greedy approach reinforcing helpful parts of the network and weakening harmful ones. While having comparable computational complexity to gradient descent, LFP offers the advantage that it obtains sparse models due to an implicit weight scaling. We establish the convergence of LFP theoretically and empirically, demonstrating its effectiveness on various models and datasets. We further investigate two applications for LFP: Firstly, neural network pruning, and secondly, the optimization of neuromorphic architectures such as Heaviside step function activated Spiking Neural Networks (SNNs). In the first setting, LFP naturally generates sparse models that are easily prunable and thus efficiently encode and compute information. In the second setting, LFP achieves comparable performance to surrogate gradient descent, but provides approximation-free training, which eases the implementation on neuromorphic hardware. Consequently, LFP combines efficiency in terms of computation and representation with flexibility w.r.t. model architecture and objective function. Our code is available.
- Abstract(参考訳): グラディエントベースの最適化は、過去数十年にわたるAI開発の大きな進歩を可能にする機械学習の基盤となった。
しかし、この種の最適化は微分を必要とするため、モデルと目的の選択における柔軟性を低下させる。
古典的モデルに対する非微分可能(例えばニューロモルフィック)アーキテクチャの利点の最近の証拠により、そのような制約は将来的に制限される可能性がある。
本稿では、ニューラルネットワークのような予測器の新たなトレーニング原理であるLFP(Layer-wise Feedback Propagation)を提案する。
神経学的報酬を活用すれば、ネットワークの有用な部分を強化し、有害な部分を弱めるという欲求的なアプローチが実現される。
勾配降下に匹敵する計算複雑性を持つが、LFPは暗黙の重みスケーリングのためにスパースモデルを得るという利点がある。
我々は,LFPの理論的かつ実証的な収束を確立し,その効果を様々なモデルやデータセット上で実証する。
LFPの2つの応用について検討する: 第一に、ニューラルネットワークのプルーニング、第二に、ヘビサイドステップ関数活性化スパイキングニューラルネットワーク(SNN)のようなニューロモルフィックアーキテクチャの最適化。
最初の設定では、LFPは自然に分離可能なスパースモデルを生成し、それによって効率的に情報をエンコードし、計算する。
2つ目の設定では、LFPは勾配勾配降下に匹敵する性能を達成するが、近似のないトレーニングを提供し、ニューロモルフィックハードウェアの実装を容易にする。
その結果、LFPは計算と表現の効率性と柔軟性のw.r.t.モデルアーキテクチャと客観的関数を組み合わせている。
私たちのコードは利用可能です。
関連論文リスト
- Finite Element Neural Network Interpolation. Part I: Interpretable and Adaptive Discretization for Solving PDEs [44.99833362998488]
組込み有限要素ニューラルネットワーク(EFENN)における従来の研究を拡張したスパースニューラルネットワークアーキテクチャを提案する。
EFENNはメッシュベースの構造であるため、完全に接続されたニューラルネットワークよりもトレーニング可能なパラメータをはるかに少なくする必要がある。
EFENNフレームワーク内のFENNIフレームワークは、HiDeNNアプローチの改善をもたらします。
論文 参考訳(メタデータ) (2024-12-07T18:31:17Z) - Advancing Neural Network Performance through Emergence-Promoting Initialization Scheme [0.0]
機械学習の創発は、トレーニングデータのスケールと構造から生じる能力の自発的な出現を指す。
我々は、出現の可能性を高めることを目的とした、新しい単純なニューラルネットワーク初期化スキームを導入する。
バッチ正規化の有無にかかわらず,モデル精度とトレーニング速度の両面で大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-07-26T18:56:47Z) - Explicit Foundation Model Optimization with Self-Attentive Feed-Forward
Neural Units [4.807347156077897]
バックプロパゲーションを用いた反復近似法はニューラルネットワークの最適化を可能にするが、大規模に使用すると計算コストがかかる。
本稿では、ニューラルネットワークのスケーリングコストを削減し、低リソースアプリケーションに高効率な最適化を提供する、ニューラルネットワークの最適化のための効率的な代替手段を提案する。
論文 参考訳(メタデータ) (2023-11-13T17:55:07Z) - Stochastic Unrolled Federated Learning [85.6993263983062]
本稿では,UnRolled Federated Learning (SURF)を導入する。
提案手法は,この拡張における2つの課題,すなわち,非学習者へのデータセット全体の供給の必要性と,フェデレート学習の分散的性質に対処する。
論文 参考訳(メタデータ) (2023-05-24T17:26:22Z) - NAR-Former: Neural Architecture Representation Learning towards Holistic
Attributes Prediction [37.357949900603295]
本稿では,属性の全体的推定に使用できるニューラルネットワーク表現モデルを提案する。
実験の結果,提案するフレームワークは,セルアーキテクチャとディープニューラルネットワーク全体の遅延特性と精度特性を予測できることがわかった。
論文 参考訳(メタデータ) (2022-11-15T10:15:21Z) - An Adaptive and Stability-Promoting Layerwise Training Approach for Sparse Deep Neural Network Architecture [0.0]
この研究は、与えられたトレーニングデータセットに対してうまく一般化するディープニューラルネットワーク(DNN)アーキテクチャを開発するための2段階適応フレームワークを提案する。
第1段階では、新しいレイヤを毎回追加し、前のレイヤでパラメータを凍結することで独立してトレーニングする、レイヤワイズトレーニングアプローチが採用されている。
本稿では, 学習アルゴリズムの望ましい特性として, エプシロン・デルタ安定促進の概念を導入し, 多様体正規化を用いることで, エプシロン・デルタ安定促進アルゴリズムが得られることを示す。
論文 参考訳(メタデータ) (2022-11-13T09:51:16Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - Non-Gradient Manifold Neural Network [79.44066256794187]
ディープニューラルネットワーク(DNN)は通常、勾配降下による最適化に数千のイテレーションを要します。
非次最適化に基づく新しい多様体ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-15T06:39:13Z) - Dynamic Hierarchical Mimicking Towards Consistent Optimization
Objectives [73.15276998621582]
一般化能力を高めたCNN訓練を推進するための汎用的特徴学習機構を提案する。
DSNに部分的にインスパイアされた私たちは、ニューラルネットワークの中間層から微妙に設計されたサイドブランチをフォークしました。
カテゴリ認識タスクとインスタンス認識タスクの両方の実験により,提案手法の大幅な改善が示された。
論文 参考訳(メタデータ) (2020-03-24T09:56:13Z) - Belief Propagation Reloaded: Learning BP-Layers for Labeling Problems [83.98774574197613]
最も単純な推論手法の1つとして、切り詰められた最大積のBelief伝播を取り上げ、それをディープラーニングモデルの適切なコンポーネントにするために必要となるものを加えます。
このBP-Layerは畳み込みニューラルネットワーク(CNN)の最終ブロックまたは中間ブロックとして使用できる
このモデルは様々な密集予測問題に適用可能であり、パラメータ効率が高く、ステレオ、光フロー、セマンティックセグメンテーションにおける堅牢な解を提供する。
論文 参考訳(メタデータ) (2020-03-13T13:11:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。