論文の概要: Custom Gradient Estimators are Straight-Through Estimators in Disguise
- arxiv url: http://arxiv.org/abs/2405.05171v2
- Date: Thu, 9 May 2024 20:49:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-13 11:22:39.470563
- Title: Custom Gradient Estimators are Straight-Through Estimators in Disguise
- Title(参考訳): カスタムグラディエント推定器はディフューズにおけるストレートスルー推定器である
- Authors: Matt Schoenbauer, Daniele Moro, Lukasz Lew, Andrew Howard,
- Abstract要約: 量子化を意識したトレーニングには根本的な課題が伴う: 丸みのような量子化関数の微分はほとんどどこでもゼロである。
学習速度が十分に小さい場合、重み付け勾配推定器はストレート・スルー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・
これらの結果は、MNISTデータセットでトレーニングされた小さな畳み込みモデルと、ImageNetでトレーニングされたResNet50モデルの両方に対して有効であることを示す。
- 参考スコア(独自算出の注目度): 3.1037083241174197
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quantization-aware training comes with a fundamental challenge: the derivative of quantization functions such as rounding are zero almost everywhere and nonexistent elsewhere. Various differentiable approximations of quantization functions have been proposed to address this issue. In this paper, we prove that when the learning rate is sufficiently small, a large class of weight gradient estimators is equivalent with the straight through estimator (STE). Specifically, after swapping in the STE and adjusting both the weight initialization and the learning rate in SGD, the model will train in almost exactly the same way as it did with the original gradient estimator. Moreover, we show that for adaptive learning rate algorithms like Adam, the same result can be seen without any modifications to the weight initialization and learning rate. We experimentally show that these results hold for both a small convolutional model trained on the MNIST dataset and for a ResNet50 model trained on ImageNet.
- Abstract(参考訳): 量子化を意識したトレーニングには根本的な課題が伴う: 丸めのような量子化関数の微分は、ほぼ至る所でゼロであり、他の場所では存在しない。
量子化関数の様々な微分可能近似がこの問題に対処するために提案されている。
本稿では,学習速度が十分に小さい場合,重み付け勾配推定器の大規模なクラスは,ストレート・スルー・スルー・スルー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・ス
具体的には、STEを交換し、SGDの重量初期化と学習率を調整した後、モデルは元の勾配推定器とほぼ同じように訓練する。
さらに、Adamのような適応学習率アルゴリズムでは、重み付け初期化や学習率を変更することなく、同じ結果が得られることを示す。
これらの結果は、MNISTデータセットでトレーニングされた小さな畳み込みモデルと、ImageNetでトレーニングされたResNet50モデルの両方に対して有効であることを示す。
関連論文リスト
- Training trajectories, mini-batch losses and the curious role of the
learning rate [13.848916053916618]
検証された勾配勾配勾配は、ディープラーニングのほぼすべての応用において、基本的な役割を担っていることを示す。
本稿では,ミニバッチの勾配と全バッチの関係を解析する簡単なモデルと幾何学的解釈を提案する。
特に、非常に低い損失値は、十分な学習率で1段階の降下に到達することができる。
論文 参考訳(メタデータ) (2023-01-05T21:58:46Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Training Discrete Deep Generative Models via Gapped Straight-Through
Estimator [72.71398034617607]
再サンプリングのオーバーヘッドを伴わずに分散を低減するため, GST (Gapped Straight-Through) 推定器を提案する。
この推定子は、Straight-Through Gumbel-Softmaxの本質的な性質に着想を得たものである。
実験により,提案したGST推定器は,2つの離散的な深部生成モデリングタスクの強いベースラインと比較して,優れた性能を享受できることが示された。
論文 参考訳(メタデータ) (2022-06-15T01:46:05Z) - Merging Models with Fisher-Weighted Averaging [24.698591753644077]
我々は、複数のモデルを1つに“マージ”するモデル間で知識を伝達する、根本的に異なる方法を紹介します。
提案手法は,モデルのパラメータの重み付け平均を効果的に計算する。
マージ手順により、これまで探索されていなかった方法でモデルを組み合わせることが可能であることを示す。
論文 参考訳(メタデータ) (2021-11-18T17:59:35Z) - Unrolling SGD: Understanding Factors Influencing Machine Unlearning [17.6607904333012]
機械学習は、デプロイされた機械学習モデルがトレーニングデータポイントの1つを忘れるプロセスである。
まず、近似アンラーニングのアプローチとメトリクスを分類する。
検証誤差(L2差)、すなわち、ほとんど学習されていないモデルの重みと鼻再訓練されたモデルのL2差を同定する。
論文 参考訳(メタデータ) (2021-09-27T23:46:59Z) - Exploiting Adam-like Optimization Algorithms to Improve the Performance
of Convolutional Neural Networks [82.61182037130405]
勾配降下(SGD)は深いネットワークを訓練するための主要なアプローチです。
本研究では,現在と過去の勾配の違いに基づいて,Adamに基づく変分を比較する。
resnet50を勾配降下訓練したネットワークのアンサンブルと融合実験を行った。
論文 参考訳(メタデータ) (2021-03-26T18:55:08Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Path Sample-Analytic Gradient Estimators for Stochastic Binary Networks [78.76880041670904]
二進的アクティベーションや二進的重みを持つニューラルネットワークでは、勾配降下によるトレーニングは複雑である。
そこで本研究では,サンプリングと解析近似を併用した新しい推定法を提案する。
勾配推定において高い精度を示し、深部畳み込みモデルにおいてより安定かつ優れた訓練を行うことを示す。
論文 参考訳(メタデータ) (2020-06-04T21:51:21Z) - Dynamic Scale Training for Object Detection [111.33112051962514]
本稿では,オブジェクト検出におけるスケール変動問題を軽減するために,動的スケールトレーニングパラダイム(DST)を提案する。
提案したDSTのスケール変動処理に対する有効性を示す実験結果を得た。
推論オーバーヘッドを導入せず、一般的な検出設定のための無料ランチとして機能する。
論文 参考訳(メタデータ) (2020-04-26T16:48:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。