論文の概要: Scaling of hardware-compatible perturbative training algorithms
- arxiv url: http://arxiv.org/abs/2501.15403v1
- Date: Sun, 26 Jan 2025 05:11:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:59:55.665227
- Title: Scaling of hardware-compatible perturbative training algorithms
- Title(参考訳): ハードウェア互換摂動トレーニングアルゴリズムのスケーリング
- Authors: Bakhrom G. Oripov, Andrew Dienstfrey, Adam N. McCaughan, Sonia M. Buckley,
- Abstract要約: 多重勾配勾配 (MGD) は、ハードウェアにおける損失関数の勾配を推定するためのスケーラブルで効率的なゼロ階法訓練法である。
ネットワークサイズとタスク複雑性の関数としてMGDを用いてネットワークをトレーニングする時間について検討する。
以上の結果から,MGDはハードウェア上での大規模ネットワークのトレーニングを効率的に行うことができ,バックプロパゲーションに匹敵する精度を達成できることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: In this work, we explore the capabilities of multiplexed gradient descent (MGD), a scalable and efficient perturbative zeroth-order training method for estimating the gradient of a loss function in hardware and training it via stochastic gradient descent. We extend the framework to include both weight and node perturbation, and discuss the advantages and disadvantages of each approach. We investigate the time to train networks using MGD as a function of network size and task complexity. Previous research has suggested that perturbative training methods do not scale well to large problems, since in these methods the time to estimate the gradient scales linearly with the number of network parameters. However, in this work we show that the time to reach a target accuracy--that is, actually solve the problem of interest--does not follow this undesirable linear scaling, and in fact often decreases with network size. Furthermore, we demonstrate that MGD can be used to calculate a drop-in replacement for the gradient in stochastic gradient descent, and therefore optimization accelerators such as momentum can be used alongside MGD, ensuring compatibility with existing machine learning practices. Our results indicate that MGD can efficiently train large networks on hardware, achieving accuracy comparable to backpropagation, thus presenting a practical solution for future neuromorphic computing systems.
- Abstract(参考訳): 本研究では,ハードウェアにおける損失関数の勾配を推定し,確率勾配勾配を用いて学習するための,スケーラブルで効率的な摂動的ゼロ階調訓練法である多重勾配降下(MGD)の能力について検討する。
重みとノード摂動の両方を含むようにフレームワークを拡張し、それぞれのアプローチの利点とデメリットについて議論する。
ネットワークサイズとタスク複雑性の関数としてMGDを用いてネットワークをトレーニングする時間について検討する。
従来,摂動的学習法はネットワークパラメータの数に比例して勾配を線形に見積もるので,大きな問題にうまく対応できないことが示唆された。
しかし,本研究では,対象の精度に達するまでの時間,すなわち利害問題の解決が望ましくない線形スケーリングに従わず,ネットワークサイズによって減少することが示されている。
さらに、MGDは確率勾配勾配勾配の勾配のドロップイン置換を計算し、従って運動量などの最適化アクセラレータをMGDと併用することにより、既存の機械学習手法との整合性を確保することができることを示した。
その結果,MGDはハードウェア上での大規模ネットワークのトレーニングを効率的に行うことができ,バックプロパゲーションに匹敵する精度を実現し,将来のニューロモルフィックコンピューティングシステムに実用的なソリューションを提供することができた。
関連論文リスト
- Variance Reduction Methods Do Not Need to Compute Full Gradients: Improved Efficiency through Shuffling [44.31966204357333]
大規模機械学習問題に対するメモリ効率のアルゴリズムを開発した。
メモリ効率を向上し、完全な計算を避けるために、2つの重要な手法を用いる。
論文 参考訳(メタデータ) (2025-02-20T15:37:45Z) - Fast and Slow Gradient Approximation for Binary Neural Network Optimization [11.064044986709733]
ハイパーネットワークに基づく手法は、ニューラルネットワークを用いて微分不可能な量子化関数の勾配を学習する。
本稿では,ヒストリ・グラディエント・ストレージ(HGS)モジュールを提案する。これは,ヒストリ・グラディエント・シーケンスをモデル化し,最適化に必要な1次モーメントを生成する。
また、ハイパーネットワークに層認識埋め込み(LRE)を導入し、層固有の微細勾配の生成を容易にする。
論文 参考訳(メタデータ) (2024-12-16T13:48:40Z) - Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Adaptive Self-supervision Algorithms for Physics-informed Neural
Networks [59.822151945132525]
物理情報ニューラルネットワーク(PINN)は、損失関数のソフト制約として問題領域からの物理的知識を取り入れている。
これらのモデルの訓練性に及ぼす座標点の位置の影響について検討した。
モデルがより高い誤りを犯している領域に対して、より多くのコロケーションポイントを段階的に割り当てる適応的コロケーション方式を提案する。
論文 参考訳(メタデータ) (2022-07-08T18:17:06Z) - Low-memory stochastic backpropagation with multi-channel randomized
trace estimation [6.985273194899884]
ニューラルネットワークにおける畳み込み層の勾配を多チャンネルランダム化トレース推定手法を用いて近似する。
他の手法と比較して、このアプローチは単純で分析に適しており、メモリフットプリントを大幅に削減する。
本稿では、バックプロパゲーションでトレーニングしたネットワークの性能と、メモリ使用量の最大化と計算オーバーヘッドの最小化を図りながら、エラーを制御する方法について論じる。
論文 参考訳(メタデータ) (2021-06-13T13:54:02Z) - Predicting Training Time Without Training [120.92623395389255]
我々は、事前訓練された深層ネットワークが損失関数の所定の値に収束する必要がある最適化ステップの数を予測する問題に取り組む。
我々は、微調整中の深部ネットワークのトレーニングダイナミクスが線形化モデルによってよく近似されているという事実を活用する。
トレーニングをする必要なく、特定の損失にモデルを微調整するのに要する時間を予測できます。
論文 参考訳(メタデータ) (2020-08-28T04:29:54Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。