論文の概要: Improving the Straight-Through Estimator with Zeroth-Order Information
- arxiv url: http://arxiv.org/abs/2510.23926v1
- Date: Mon, 27 Oct 2025 23:14:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.614645
- Title: Improving the Straight-Through Estimator with Zeroth-Order Information
- Title(参考訳): ゼロ次情報を用いたストレートスルー推定器の改良
- Authors: Ningfeng Yang, Tor M. Aamodt,
- Abstract要約: 本稿では,量子化パラメータを用いたニューラルネットワークのトレーニング問題について検討する。
我々は、第1次誘導ゼロ階勾配蛍光(FOGZO)を提案する。
FOGZOは、量子化対応事前学習における品質とトレーニング時間のトレードオフを改善することを示す。
- 参考スコア(独自算出の注目度): 7.09016563801433
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the problem of training neural networks with quantized parameters. Learning low-precision quantized parameters by enabling computation of gradients via the Straight-Through Estimator (STE) can be challenging. While the STE enables back-propagation, which is a first-order method, recent works have explored the use of zeroth-order (ZO) gradient descent for fine-tuning. We note that the STE provides high-quality biased gradients, and ZO gradients are unbiased but can be expensive. We thus propose First-Order-Guided Zeroth-Order Gradient Descent (FOGZO) that reduces STE bias while reducing computations relative to ZO methods. Empirically, we show FOGZO improves the tradeoff between quality and training time in Quantization-Aware Pre-Training. Specifically, versus STE at the same number of iterations, we show a 1-8\% accuracy improvement for DeiT Tiny/Small, 1-2\% accuracy improvement on ResNet 18/50, and 1-22 perplexity point improvement for LLaMA models with up to 0.3 billion parameters. For the same loss, FOGZO yields a 796$\times$ reduction in computation versus n-SPSA for a 2-layer MLP on MNIST. Code is available at https://github.com/1733116199/fogzo.
- Abstract(参考訳): 本稿では,量子化パラメータを用いたニューラルネットワークのトレーニング問題について検討する。
STE(Straight-Through Estimator)による勾配の計算を可能にすることで、低精度の量子化パラメータを学習することは困難である。
STEは、一階法であるバックプロパゲーションを可能にするが、最近の研究では、微調整にゼロ階勾配勾配(ZO)を用いることを検討している。
STEは高品質な偏り勾配を提供し、ZO勾配は偏りがないが高価であることに留意する。
そこで本研究では,ZO法に対する計算量を削減しつつ,STEバイアスを低減し,第1次誘導ゼロ階勾配発振器(FOGZO)を提案する。
実証的に、FOGZOは、量子化対応事前学習における品質とトレーニング時間のトレードオフを改善する。
具体的には,DeiT Tiny/Smallの1~8倍の精度向上,ResNet 18/50の1~2倍の精度向上,最大0.3億のパラメータを持つLLaMAモデルの1~22パープレキシティポイント改善を示す。
同じ損失のため、FOGZO は MNIST 上の2層 MLP に対して 796$\times$ の計算を n-SPSA に対して還元する。
コードはhttps://github.com/1733116199/fogzoで入手できる。
関連論文リスト
- QuZO: Quantized Zeroth-Order Fine-Tuning for Large Language Models [27.730213115659986]
言語モデル(LLM)はしばしば、推論におけるメモリコストとレイテンシを低減するために、精度を下げるために量子化される。
従来の微調整手法ではバックプロパゲーションが必要であり、低精度設定ではエラーが発生しやすい。
本稿では,低精度フォワードパスを用いた微調整LDMのための量子ゼロオーダー(Quantized Zeroth-Order)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T22:20:31Z) - Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [63.10833446782114]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。
Zeroth-order (ZO) 最適化手法はメモリ効率の良い代替手段を提供する。
本稿では,高次元摂動によって生じる課題に対処するために,部分空間ゼロ次最適化を提案する。
論文 参考訳(メタデータ) (2024-10-11T17:01:43Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Relationship between Batch Size and Number of Steps Needed for Nonconvex
Optimization of Stochastic Gradient Descent using Armijo Line Search [0.8158530638728501]
本研究では,SGDが深層数値線を用いた場合,他の深層学習ネットワークよりも優れた性能を示す。
その結果,バッチサイズが大きくなるにつれて,SFOに必要なステップ数を推定できることが示唆された。
論文 参考訳(メタデータ) (2023-07-25T21:59:17Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Exploiting Adam-like Optimization Algorithms to Improve the Performance
of Convolutional Neural Networks [82.61182037130405]
勾配降下(SGD)は深いネットワークを訓練するための主要なアプローチです。
本研究では,現在と過去の勾配の違いに基づいて,Adamに基づく変分を比較する。
resnet50を勾配降下訓練したネットワークのアンサンブルと融合実験を行った。
論文 参考訳(メタデータ) (2021-03-26T18:55:08Z) - Correcting Momentum with Second-order Information [50.992629498861724]
最適積に$O(epsilon)$epsilon点を求める非臨界最適化のための新しいアルゴリズムを開発した。
我々は、さまざまな大規模ディープラーニングベンチマークとアーキテクチャで結果を検証する。
論文 参考訳(メタデータ) (2021-03-04T19:01:20Z) - Carath\'eodory Sampling for Stochastic Gradient Descent [79.55586575988292]
本稿では,Tchakaloff と Carath'eodory の古典的な結果から着想を得た手法を提案する。
我々は、測定値の低減を行う降下ステップを適応的に選択する。
これをBlock Coordinate Descentと組み合わせることで、測定の削減を極めて安価に行えるようにします。
論文 参考訳(メタデータ) (2020-06-02T17:52:59Z) - Resolving learning rates adaptively by locating Stochastic Non-Negative
Associated Gradient Projection Points using line searches [0.0]
ニューラルネットワークトレーニングにおける学習率は現在、高価なマニュアルや自動チューニングを使用したトレーニングの優先事項として決定されている。
本研究では,ニューラルネットワーク学習アルゴリズムの学習率を解くために,勾配のみの線探索を提案する。
論文 参考訳(メタデータ) (2020-01-15T03:08:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。