論文の概要: Thermodynamic Natural Gradient Descent
- arxiv url: http://arxiv.org/abs/2405.13817v1
- Date: Wed, 22 May 2024 16:47:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 23:05:13.703563
- Title: Thermodynamic Natural Gradient Descent
- Title(参考訳): 熱力学的自然グラディエント染料
- Authors: Kaelan Donatella, Samuel Duffield, Maxwell Aifer, Denis Melanson, Gavin Crooks, Patrick J. Coles,
- Abstract要約: 自然勾配勾配勾配は1次法に類似した計算複雑性を持つことを示す。
ニューラルネットワークをトレーニングするためのハイブリッドディジタルアナログアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Second-order training methods have better convergence properties than gradient descent but are rarely used in practice for large-scale training due to their computational overhead. This can be viewed as a hardware limitation (imposed by digital computers). Here we show that natural gradient descent (NGD), a second-order method, can have a similar computational complexity per iteration to a first-order method, when employing appropriate hardware. We present a new hybrid digital-analog algorithm for training neural networks that is equivalent to NGD in a certain parameter regime but avoids prohibitively costly linear system solves. Our algorithm exploits the thermodynamic properties of an analog system at equilibrium, and hence requires an analog thermodynamic computer. The training occurs in a hybrid digital-analog loop, where the gradient and Fisher information matrix (or any other positive semi-definite curvature matrix) are calculated at given time intervals while the analog dynamics take place. We numerically demonstrate the superiority of this approach over state-of-the-art digital first- and second-order training methods on classification tasks and language model fine-tuning tasks.
- Abstract(参考訳): 2次学習法は勾配降下よりも収束特性が優れているが, 計算オーバーヘッドのため, 大規模訓練にはほとんど使われない。
これは(デジタルコンピュータによる)ハードウェア制限と見なすことができる。
ここでは,2次法である自然勾配降下法(NGD)が,適切なハードウェアを用いる場合,反復1次法と1次法と同じような計算複雑性を持つことを示す。
本稿では,あるパラメータ規則でNGDに相当するニューラルネットワークをトレーニングするハイブリッドなディジタルアナログアルゴリズムを提案する。
本アルゴリズムは, アナログ系の平衡熱力学特性を利用するため, アナログ熱力学コンピュータを必要とする。
トレーニングは、勾配とフィッシャー情報行列(または他の正の半定曲率行列)が所定の時間間隔で計算され、アナログダイナミクスが実行されるハイブリッドデジタルアナログループで行われる。
分類タスクや言語モデルの微調整タスクにおける,最先端のディジタル一階および二階の訓練手法よりも,このアプローチが優れていることを数値的に示す。
関連論文リスト
- Gradient-Free Neural Network Training on the Edge [12.472204825917629]
ニューラルネットワークのトレーニングは計算的に重く、エネルギー集約的である。
この研究は、勾配を必要とせずにニューラルネットワークをトレーニングするための新しいテクニックを提示している。
本研究では,各ニューロンの予測された分類に対する誤った寄与を同定することにより,勾配に基づく最適化手法を使わずにモデルを訓練することが可能であることを示す。
論文 参考訳(メタデータ) (2024-10-13T05:38:39Z) - Convergence Analysis of Natural Gradient Descent for Over-parameterized Physics-Informed Neural Networks [3.680127959836384]
勾配勾配勾配(GD)や二次勾配勾配(SGD)のような一階法はニューラルネットワークのトレーニングに有効であることが証明されている。
しかし, 2層ニューラルネットワークの学習におけるGDの学習速度は, サンプルサイズとグラム行列に依存しない。
本稿では, 回帰問題である$L2$に対して, 学習率を$mathcalO(1)$から$mathcalO(1)$に改善できることを示す。
論文 参考訳(メタデータ) (2024-08-01T14:06:34Z) - A Stable, Fast, and Fully Automatic Learning Algorithm for Predictive
Coding Networks [65.34977803841007]
予測符号化ネットワークは、ベイズ統計学と神経科学の両方にルーツを持つ神経科学にインスパイアされたモデルである。
シナプス重みに対する更新規則の時間的スケジュールを変更するだけで、元の規則よりもずっと効率的で安定したアルゴリズムが得られることを示す。
論文 参考訳(メタデータ) (2022-11-16T00:11:04Z) - Virtual Analog Modeling of Distortion Circuits Using Neural Ordinary
Differential Equations [1.8352113484137629]
ディープラーニングに関する最近の研究は、ニューラルネットワークが動的システムを管理する微分方程式を学習できることを示した。
本稿では,この概念を仮想アナログ(VA)モデルに適用し,1次ダイオードクリッパーと2次ダイオードクリッパーの常微分方程式(ODE)を学習する。
提案したモデルは、パラメータが少ないにもかかわらず、最先端のリカレントニューラルネットワーク(RNN)に匹敵する性能を達成する。
論文 参考訳(メタデータ) (2022-05-04T05:19:46Z) - Unfolding Projection-free SDP Relaxation of Binary Graph Classifier via
GDPA Linearization [59.87663954467815]
アルゴリズムの展開は、モデルベースのアルゴリズムの各イテレーションをニューラルネットワーク層として実装することにより、解釈可能で類似のニューラルネットワークアーキテクチャを生成する。
本稿では、Gershgorin disc perfect alignment (GDPA)と呼ばれる最近の線形代数定理を利用して、二進グラフの半定値プログラミング緩和(SDR)のためのプロジェクションフリーアルゴリズムをアンロールする。
実験結果から,我々の未学習ネットワークは純粋モデルベースグラフ分類器よりも優れ,純粋データ駆動ネットワークに匹敵する性能を示したが,パラメータははるかに少なかった。
論文 参考訳(メタデータ) (2021-09-10T07:01:15Z) - Convergence rates for gradient descent in the training of
overparameterized artificial neural networks with biases [3.198144010381572]
近年、人工ニューラルネットワークは、古典的なソリューションが近づいている多数の問題に対処するための強力なツールに発展しています。
ランダムな勾配降下アルゴリズムが限界に達する理由はまだ不明である。
論文 参考訳(メタデータ) (2021-02-23T18:17:47Z) - Sample Complexity Bounds for Two Timescale Value-based Reinforcement
Learning Algorithms [65.09383385484007]
2つの時間スケール近似(SA)は、値に基づく強化学習アルゴリズムで広く使われている。
本稿では,2つの時間スケール線形および非線形TDCとGreedy-GQアルゴリズムの漸近収束率について検討する。
論文 参考訳(メタデータ) (2020-11-10T11:36:30Z) - Single-Timescale Stochastic Nonconvex-Concave Optimization for Smooth
Nonlinear TD Learning [145.54544979467872]
本稿では,各ステップごとに1つのデータポイントしか必要としない2つの単一スケールシングルループアルゴリズムを提案する。
本研究の結果は, 同時一次および二重側収束の形で表される。
論文 参考訳(メタデータ) (2020-08-23T20:36:49Z) - Accelerating Feedforward Computation via Parallel Nonlinear Equation
Solving [106.63673243937492]
ニューラルネットワークの評価や自己回帰モデルからのサンプリングなどのフィードフォワード計算は、機械学習においてユビキタスである。
本稿では,非線形方程式の解法としてフィードフォワード計算の課題を定式化し,ジャコビ・ガウス・シーデル固定点法とハイブリッド法を用いて解を求める。
提案手法は, 並列化可能な繰り返し回数の削減(あるいは等値化)により, 元のフィードフォワード計算と全く同じ値が与えられることを保証し, 十分な並列化計算能力を付与する。
論文 参考訳(メタデータ) (2020-02-10T10:11:31Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。