論文の概要: Scaling Forward Gradient With Local Losses
- arxiv url: http://arxiv.org/abs/2210.03310v1
- Date: Fri, 7 Oct 2022 03:52:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 12:32:33.238389
- Title: Scaling Forward Gradient With Local Losses
- Title(参考訳): ローカル損失による前方勾配のスケーリング
- Authors: Mengye Ren, Simon Kornblith, Renjie Liao, Geoffrey Hinton
- Abstract要約: フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
- 参考スコア(独自算出の注目度): 117.22685584919756
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Forward gradient learning computes a noisy directional gradient and is a
biologically plausible alternative to backprop for learning deep neural
networks. However, the standard forward gradient algorithm, when applied
naively, suffers from high variance when the number of parameters to be learned
is large. In this paper, we propose a series of architectural and algorithmic
modifications that together make forward gradient learning practical for
standard deep learning benchmark tasks. We show that it is possible to
substantially reduce the variance of the forward gradient estimator by applying
perturbations to activations rather than weights. We further improve the
scalability of forward gradient by introducing a large number of local greedy
loss functions, each of which involves only a small number of learnable
parameters, and a new MLPMixer-inspired architecture, LocalMixer, that is more
suitable for local learning. Our approach matches backprop on MNIST and
CIFAR-10 and significantly outperforms previously proposed backprop-free
algorithms on ImageNet.
- Abstract(参考訳): 前方勾配学習は、雑音の多い方向勾配を計算し、深層ニューラルネットワークを学習するためのバックプロップに代わる生物学的に妥当な選択肢である。
しかし、標準的な前方勾配アルゴリズムは、素直に適用すると、学習すべきパラメータの数が大きい場合に高いばらつきに苦しむ。
本稿では,前傾き学習を標準のディープラーニングベンチマークタスクに実用的なものにするための,一連のアーキテクチャとアルゴリズムの修正を提案する。
重みではなく活性化に摂動を適用することにより、前方勾配推定器のばらつきを大幅に低減できることを示す。
さらに,学習可能なパラメータの少ない局所グリーディ損失関数や,ローカル学習に適したMLPMixerに着想を得た新しいアーキテクチャであるLocalMixerを導入することにより,フォワード勾配のスケーラビリティを向上する。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
関連論文リスト
- Unified Gradient-Based Machine Unlearning with Remain Geometry Enhancement [29.675650285351768]
深層ニューラルネットワークのプライバシーと信頼性を高めるために、機械学習(MU)が登場した。
近似MUは大規模モデルの実用的手法である。
本稿では,最新の学習方向を暗黙的に近似する高速スローパラメータ更新手法を提案する。
論文 参考訳(メタデータ) (2024-09-29T15:17:33Z) - Occam Gradient Descent [0.0]
Occam Gradient Descent はモデルサイズを最小化して一般化誤差を最小化し、モデルの重みへの勾配勾配を最小化するアルゴリズムである。
我々のアルゴリズムは、修正することなく、あらゆるニューラルネットワークの重みとトポロジ的な大きさの空間を同時に下降させる。
論文 参考訳(メタデータ) (2024-05-30T15:58:22Z) - Can Forward Gradient Match Backpropagation? [2.875726839945885]
フォワードグラディエントはニューラルネットワークトレーニングに有効であることが示されている。
我々は、小さな局所的な補助ネットワークから得られるフィードバックなど、より有望な方向の勾配推定を強く偏り付けることを提案する。
局所損失から得られた勾配を候補方向として用いた場合,前方勾配法におけるランダムノイズを大幅に改善することがわかった。
論文 参考訳(メタデータ) (2023-06-12T08:53:41Z) - Adaptive Self-supervision Algorithms for Physics-informed Neural
Networks [59.822151945132525]
物理情報ニューラルネットワーク(PINN)は、損失関数のソフト制約として問題領域からの物理的知識を取り入れている。
これらのモデルの訓練性に及ぼす座標点の位置の影響について検討した。
モデルがより高い誤りを犯している領域に対して、より多くのコロケーションポイントを段階的に割り当てる適応的コロケーション方式を提案する。
論文 参考訳(メタデータ) (2022-07-08T18:17:06Z) - Scaling Private Deep Learning with Low-Rank and Sparse Gradients [5.14780936727027]
ニューラルネットワークの低ランクかつスパースな構造を利用して、勾配更新の次元を小さくするフレームワークを提案する。
勾配を拡大するために新しい戦略が利用され、低次元でノイズの少ない更新をもたらす。
自然言語処理とコンピュータビジョンタスクの実証評価により,本手法が他の最先端のベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2022-07-06T14:09:47Z) - Scaling Structured Inference with Randomization [64.18063627155128]
本稿では、構造化されたモデルを数万の潜在状態に拡張するためにランダム化された動的プログラミング(RDP)のファミリを提案する。
我々の手法は古典的DPベースの推論に広く適用できる。
また、自動微分とも互換性があり、ニューラルネットワークとシームレスに統合できる。
論文 参考訳(メタデータ) (2021-12-07T11:26:41Z) - Exploiting Adam-like Optimization Algorithms to Improve the Performance
of Convolutional Neural Networks [82.61182037130405]
勾配降下(SGD)は深いネットワークを訓練するための主要なアプローチです。
本研究では,現在と過去の勾配の違いに基づいて,Adamに基づく変分を比較する。
resnet50を勾配降下訓練したネットワークのアンサンブルと融合実験を行った。
論文 参考訳(メタデータ) (2021-03-26T18:55:08Z) - GradInit: Learning to Initialize Neural Networks for Stable and
Efficient Training [59.160154997555956]
ニューラルネットワークを初期化するための自動化およびアーキテクチャ手法であるgradinitを提案する。
各ネットワーク層の分散は、SGDまたはAdamの単一ステップが最小の損失値をもたらすように調整される。
また、学習率のウォームアップを伴わずに、オリジナルのPost-LN Transformerを機械翻訳用にトレーニングすることもできる。
論文 参考訳(メタデータ) (2021-02-16T11:45:35Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。