Fugu-MT 論文翻訳(概要): Scaling of hardware-compatible perturbative training algorithms

論文の概要: Scaling of hardware-compatible perturbative training algorithms

arxiv url: http://arxiv.org/abs/2501.15403v1
Date: Sun, 26 Jan 2025 05:11:42 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-28 21:57:03.660139
Title: Scaling of hardware-compatible perturbative training algorithms
Title（参考訳）: ハードウェア互換摂動トレーニングアルゴリズムのスケーリング
Authors: Bakhrom G. Oripov, Andrew Dienstfrey, Adam N. McCaughan, Sonia M. Buckley,
Abstract要約: 多重勾配勾配 (MGD) は、ハードウェアにおける損失関数の勾配を推定するためのスケーラブルで効率的なゼロ階法訓練法である。ネットワークサイズとタスク複雑性の関数としてMGDを用いてネットワークをトレーニングする時間について検討する。以上の結果から,MGDはハードウェア上での大規模ネットワークのトレーニングを効率的に行うことができ,バックプロパゲーションに匹敵する精度を達成できることが示唆された。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this work, we explore the capabilities of multiplexed gradient descent (MGD), a scalable and efficient perturbative zeroth-order training method for estimating the gradient of a loss function in hardware and training it via stochastic gradient descent. We extend the framework to include both weight and node perturbation, and discuss the advantages and disadvantages of each approach. We investigate the time to train networks using MGD as a function of network size and task complexity. Previous research has suggested that perturbative training methods do not scale well to large problems, since in these methods the time to estimate the gradient scales linearly with the number of network parameters. However, in this work we show that the time to reach a target accuracy--that is, actually solve the problem of interest--does not follow this undesirable linear scaling, and in fact often decreases with network size. Furthermore, we demonstrate that MGD can be used to calculate a drop-in replacement for the gradient in stochastic gradient descent, and therefore optimization accelerators such as momentum can be used alongside MGD, ensuring compatibility with existing machine learning practices. Our results indicate that MGD can efficiently train large networks on hardware, achieving accuracy comparable to backpropagation, thus presenting a practical solution for future neuromorphic computing systems.
Abstract（参考訳）: 本研究では,ハードウェアにおける損失関数の勾配を推定し,確率勾配勾配を用いて学習するための,スケーラブルで効率的な摂動的ゼロ階調訓練法である多重勾配降下(MGD)の能力について検討する。重みとノード摂動の両方を含むようにフレームワークを拡張し、それぞれのアプローチの利点とデメリットについて議論する。ネットワークサイズとタスク複雑性の関数としてMGDを用いてネットワークをトレーニングする時間について検討する。従来,摂動的学習法はネットワークパラメータの数に比例して勾配を線形に見積もるので,大きな問題にうまく対応できないことが示唆された。しかし,本研究では,対象の精度に達するまでの時間,すなわち利害問題の解決が望ましくない線形スケーリングに従わず,ネットワークサイズによって減少することが示されている。さらに、MGDは確率勾配勾配勾配の勾配のドロップイン置換を計算し、従って運動量などの最適化アクセラレータをMGDと併用することにより、既存の機械学習手法との整合性を確保することができることを示した。その結果,MGDはハードウェア上での大規模ネットワークのトレーニングを効率的に行うことができ,バックプロパゲーションに匹敵する精度を実現し,将来のニューロモルフィックコンピューティングシステムに実用的なソリューションを提供することができた。

関連論文リスト

Decentralized Nonconvex Composite Federated Learning with Gradient Tracking and Momentum [78.27945336558987]
分散サーバ(DFL)はクライアント・クライアント・アーキテクチャへの依存をなくす。非滑らかな正規化はしばしば機械学習タスクに組み込まれる。本稿では,これらの問題を解決する新しいDNCFLアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-04-17T08:32:25Z)
Optimizing ML Training with Metagradient Descent [69.89631748402377]
モデルトレーニングによる勾配というメタグラディエントを,大規模に効率的に計算するアルゴリズムを導入する。次に、メタグラディエントを用いた効果的な最適化を可能にする「滑らかなモデルトレーニング」フレームワークを導入する。
論文参考訳（メタデータ） (2025-03-17T22:18:24Z)
Variance Reduction Methods Do Not Need to Compute Full Gradients: Improved Efficiency through Shuffling [44.31966204357333]
大規模機械学習問題に対するメモリ効率のアルゴリズムを開発した。メモリ効率を向上し、完全な計算を避けるために、2つの重要な手法を用いる。
論文参考訳（メタデータ） (2025-02-20T15:37:45Z)
Multiscale Stochastic Gradient Descent: Efficiently Training Convolutional Neural Networks [6.805997961535213]
Multiscale Gradient Descent (Multiscale-SGD) は、粗大なトレーニング戦略を利用した新しい最適化手法である。学習可能なスケールに依存しないMesh-Free Convolutions (MFC) の新たなクラスを導入する。本研究は,高分解能・マルチスケール学習タスクにおける実用的なスケーラビリティを実現するため,ディープネットワークの効率的なトレーニングのための新しいパラダイムを構築した。
論文参考訳（メタデータ） (2025-01-22T09:13:47Z)
Scaling Learning based Policy Optimization for Temporal Logic Tasks by Controller Network Dropout [4.421486904657393]
非線形環境下で動作する自律エージェントに対して,フィードバックコントローラを訓練するためのモデルに基づくアプローチを提案する。この学習問題は、エージェントのタスク目標の時間的地平線に比例して繰り返し単位の数が比例する、リカレントニューラルネットワーク(RNN)のトレーニングとどのように似ているかを示す。そこで我々は,ドロップアウトあるいは勾配サンプリングのアイデアに基づく新しい勾配近似アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-03-23T12:53:51Z)
Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文参考訳（メタデータ） (2024-03-11T09:10:37Z)
Implicit Stochastic Gradient Descent for Training Physics-informed Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。 PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文参考訳（メタデータ） (2023-03-03T08:17:47Z)
Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文参考訳（メタデータ） (2022-10-07T03:52:27Z)
Adaptive Self-supervision Algorithms for Physics-informed Neural Networks [59.822151945132525]
物理情報ニューラルネットワーク(PINN)は、損失関数のソフト制約として問題領域からの物理的知識を取り入れている。これらのモデルの訓練性に及ぼす座標点の位置の影響について検討した。モデルがより高い誤りを犯している領域に対して、より多くのコロケーションポイントを段階的に割り当てる適応的コロケーション方式を提案する。
論文参考訳（メタデータ） (2022-07-08T18:17:06Z)
Low-memory stochastic backpropagation with multi-channel randomized trace estimation [6.985273194899884]
ニューラルネットワークにおける畳み込み層の勾配を多チャンネルランダム化トレース推定手法を用いて近似する。他の手法と比較して、このアプローチは単純で分析に適しており、メモリフットプリントを大幅に削減する。本稿では、バックプロパゲーションでトレーニングしたネットワークの性能と、メモリ使用量の最大化と計算オーバーヘッドの最小化を図りながら、エラーを制御する方法について論じる。
論文参考訳（メタデータ） (2021-06-13T13:54:02Z)
Predicting Training Time Without Training [120.92623395389255]
我々は、事前訓練された深層ネットワークが損失関数の所定の値に収束する必要がある最適化ステップの数を予測する問題に取り組む。我々は、微調整中の深部ネットワークのトレーニングダイナミクスが線形化モデルによってよく近似されているという事実を活用する。トレーニングをする必要なく、特定の損失にモデルを微調整するのに要する時間を予測できます。
論文参考訳（メタデータ） (2020-08-28T04:29:54Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。