論文の概要: Towards Exact Gradient-based Training on Analog In-memory Computing
- arxiv url: http://arxiv.org/abs/2406.12774v1
- Date: Tue, 18 Jun 2024 16:43:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 17:59:05.023951
- Title: Towards Exact Gradient-based Training on Analog In-memory Computing
- Title(参考訳): アナログインメモリコンピューティングにおける厳密なグラディエントベーストレーニングに向けて
- Authors: Zhaoxian Wu, Tayfun Gokmen, Malte J. Rasch, Tianyi Chen,
- Abstract要約: アナログ加速器に関する推論は近年研究されているが、トレーニングの観点は過小評価されている。
近年の研究では、非理想デバイスでのモデルトレーニングに適用した場合、勾配降下(SGD)アルゴリズムの「ワークホース」が不正確に収束することが示されている。
本稿では,アナログデバイス上での勾配に基づくトレーニングの理論的基礎について述べる。
- 参考スコア(独自算出の注目度): 28.38387901763604
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given the high economic and environmental costs of using large vision or language models, analog in-memory accelerators present a promising solution for energy-efficient AI. While inference on analog accelerators has been studied recently, the training perspective is underexplored. Recent studies have shown that the "workhorse" of digital AI training - stochastic gradient descent (SGD) algorithm converges inexactly when applied to model training on non-ideal devices. This paper puts forth a theoretical foundation for gradient-based training on analog devices. We begin by characterizing the non-convergent issue of SGD, which is caused by the asymmetric updates on the analog devices. We then provide a lower bound of the asymptotic error to show that there is a fundamental performance limit of SGD-based analog training rather than an artifact of our analysis. To address this issue, we study a heuristic analog algorithm called Tiki-Taka that has recently exhibited superior empirical performance compared to SGD and rigorously show its ability to exactly converge to a critical point and hence eliminates the asymptotic error. The simulations verify the correctness of the analyses.
- Abstract(参考訳): 大きなビジョンや言語モデルを使用する場合の経済的・環境的なコストが高いことから、アナログインメモリアクセラレータはエネルギー効率のよいAIに有望なソリューションを提供する。
アナログ加速器に関する推論は近年研究されているが、トレーニングの観点は過小評価されている。
近年の研究では、非理想デバイスでのモデルトレーニングに適用した場合、確率勾配降下(SGD)アルゴリズムの「ワークホース」が不正確に収束することが示されている。
本稿では,アナログデバイスにおける勾配学習の理論的基礎について述べる。
まず、アナログ装置の非対称な更新によって引き起こされるSGDの非収束問題を特徴付ける。
そこで我々は,SGDに基づくアナログトレーニングの基本的な性能限界があることを示すために,漸近誤差の低い境界を提供する。
この問題に対処するため,最近SGDよりも優れた経験的性能を示したTiki-Takaというヒューリスティックなアナログアルゴリズムについて検討した。
シミュレーションは解析の正確性を検証する。
関連論文リスト
- Thermodynamic Natural Gradient Descent [0.0]
自然勾配勾配勾配は1次法に類似した計算複雑性を持つことを示す。
ニューラルネットワークをトレーニングするためのハイブリッドディジタルアナログアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-22T16:47:03Z) - Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - SketchySGD: Reliable Stochastic Optimization via Randomized Curvature
Estimates [19.420605210427635]
SketchySGDは、サブサンプルヘッセンに対するランダム化低ランク近似を用いることで、機械学習の既存の勾配法を改善する。
固定段数を持つSketchySGDが最適の周りの小さな球に線形に収束することを理論的に示す。
条件のない設定では、最小二乗問題に対してSketchySGDはSGDよりも高速に収束することを示す。
論文 参考訳(メタデータ) (2022-11-16T01:05:41Z) - Deep Equilibrium Optical Flow Estimation [80.80992684796566]
最近のSOTA(State-of-the-art)光フローモデルでは、従来のアルゴリズムをエミュレートするために有限ステップの更新操作を使用する。
これらのRNNは大きな計算とメモリオーバーヘッドを課し、そのような安定した推定をモデル化するために直接訓練されていない。
暗黙的層の無限レベル固定点として直接流れを解く手法として,Deep equilibrium Flow estimatorを提案する。
論文 参考訳(メタデータ) (2022-04-18T17:53:44Z) - Simple Stochastic and Online Gradient DescentAlgorithms for Pairwise
Learning [65.54757265434465]
ペアワイズ学習(Pairwise learning)とは、損失関数がペアインスタンスに依存するタスクをいう。
オンライン降下(OGD)は、ペアワイズ学習でストリーミングデータを処理する一般的なアプローチである。
本稿では,ペアワイズ学習のための手法について,シンプルでオンラインな下降を提案する。
論文 参考訳(メタデータ) (2021-11-23T18:10:48Z) - Gaussian Process Inference Using Mini-batch Stochastic Gradient Descent:
Convergence Guarantees and Empirical Benefits [21.353189917487512]
勾配降下(SGD)とその変種は、機械学習問題のアルゴリズムとして確立されている。
我々は、最小バッチSGDが全ログ類似損失関数の臨界点に収束することを証明して一歩前進する。
我々の理論的な保証は、核関数が指数的あるいは固有デカイを示すことを前提としている。
論文 参考訳(メタデータ) (2021-11-19T22:28:47Z) - Non-asymptotic estimates for TUSLA algorithm for non-convex learning
with applications to neural networks with ReLU activation function [3.5044892799305956]
Lovas et alで導入された未調整Langevinアルゴリズム(TUSLA)の非漸近解析を行う。
特に、Wassersteinstein-1-2におけるTUSLAアルゴリズムの非漸近誤差境界を確立する。
TUSLAアルゴリズムは最適解に急速に収束することを示す。
論文 参考訳(メタデータ) (2021-07-19T07:13:02Z) - Large-scale Neural Solvers for Partial Differential Equations [48.7576911714538]
偏微分方程式 (PDE) を解くことは、多くのプロセスがPDEの観点でモデル化できるため、科学の多くの分野において不可欠である。
最近の数値解法では、基礎となる方程式を手動で離散化するだけでなく、分散コンピューティングのための高度で調整されたコードも必要である。
偏微分方程式, 物理インフォームドニューラルネットワーク(PINN)に対する連続メッシュフリーニューラルネットワークの適用性について検討する。
本稿では,解析解に関するGatedPINNの精度と,スペクトル解法などの最先端数値解法について論じる。
論文 参考訳(メタデータ) (2020-09-08T13:26:51Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。