論文の概要: Per-example gradients: a new frontier for understanding and improving optimizers
- arxiv url: http://arxiv.org/abs/2510.00236v1
- Date: Tue, 30 Sep 2025 20:00:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.236073
- Title: Per-example gradients: a new frontier for understanding and improving optimizers
- Title(参考訳): サンプルごとの勾配:オプティマイザの理解と改善のための新たなフロンティア
- Authors: Vincent Roulet, Atish Agarwala,
- Abstract要約: 自動微分グラフの手術により勾配統計が実現可能であることを示す。
また、指数勾配変換のレンズを通して最適化における2つの非線形演算の理解を再考する。
全体として、指数勾配情報によって新しい解析とアルゴリズム設計の可能性が示される。
- 参考スコア(独自算出の注目度): 10.653229860484464
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Training algorithms in deep learning usually treat a mini-batch of samples as a single object; they average gradients over the mini-batch, and then process the average in various ways. Computing other statistics beyond the average may have been seen as prohibitively resource intensive in automatic differentiation (AD) frameworks. We show that this is not the case. Generally, gradient statistics can be implemented through a surgery of the AD graph, which, in some cases, incur almost no computational and memory overheads compared to the mini-batch gradient computation. Additionally, we show that in certain classes of models, including transformers, JAX's vectorization transformation offers a viable implementation for prototyping and experimentation. We then revise our understanding of two nonlinear operations in optimization through the lens of per-example gradient transformations. We first study signSGD and show that the optimal placement of the sign operation in the gradient processing chain is crucial to success and can be predicted with a simple signal-to-noise ratio argument. Next we study per-example variations of the Adam preconditioner, and show that optimization is best served when the preconditioner is dominated by the mean rather than the variance of the gradient distribution - in contrast to conventional wisdom. Overall we demonstrate that per-example gradient information enables new analyses and possibilities for algorithm design.
- Abstract(参考訳): ディープラーニングのトレーニングアルゴリズムは通常、サンプルのミニバッチを単一のオブジェクトとして扱う。
平均を超える他の統計を計算することは、自動微分(AD)フレームワークにおいて、違法なリソース集約と見なされたかもしれない。
私たちはそうではないことを示します。
一般に、勾配統計はADグラフの手術によって実現され、場合によってはミニバッチ勾配計算と比較して計算とメモリのオーバーヘッドはほとんど発生しない。
さらに、変換器を含むある種のモデルのクラスにおいて、JAXのベクトル化変換がプロトタイピングと実験のための実行可能な実装を提供することを示す。
次に、指数勾配変換のレンズを通して最適化における2つの非線形演算の理解を再考する。
本稿ではまず,信号対雑音比の単純な議論によって,信号演算を勾配処理チェーンに最適に配置することが成功に不可欠であることを示す。
次に、Adamプレコンディショナーの例ごとのバリエーションについて検討し、従来の知恵とは対照的に、事前コンディショナーが勾配分布のばらつきよりも平均に支配されている場合、最適化が最適であることを示す。
全体として、指数勾配情報によって新しい解析とアルゴリズム設計の可能性が示される。
関連論文リスト
- GradMetaNet: An Equivariant Architecture for Learning on Gradients [18.350495600116712]
勾配学習のための新しいアーキテクチャであるGradMetaNetを紹介する。
また,GradMetaNet に対して,従来の手法では自然勾配関数を近似できないことを示す。
次に,GradMetaNetの有効性を,勾配に基づくタスクの多種多様なセットで実証する。
論文 参考訳(メタデータ) (2025-07-02T12:22:39Z) - Revisiting the Initial Steps in Adaptive Gradient Descent Optimization [6.468625143772815]
Adamのような適応的な勾配最適化手法は、さまざまな機械学習タスクにわたるディープニューラルネットワークのトレーニングで広く使われている。
これらの手法は、降下勾配 (SGD) と比較して最適下一般化に苦しむことが多く、不安定性を示す。
非ゼロ値で2階モーメント推定を初期化する。
論文 参考訳(メタデータ) (2024-12-03T04:28:14Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Adapting Stepsizes by Momentumized Gradients Improves Optimization and
Generalization [89.66571637204012]
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
論文 参考訳(メタデータ) (2021-06-22T03:13:23Z) - Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box
Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。
座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-21T17:29:58Z) - Channel-Directed Gradients for Optimization of Convolutional Neural
Networks [50.34913837546743]
本稿では,畳み込みニューラルネットワークの最適化手法を提案する。
出力チャネル方向に沿って勾配を定義することで性能が向上し,他の方向が有害となることを示す。
論文 参考訳(メタデータ) (2020-08-25T00:44:09Z) - Randomized Automatic Differentiation [22.95414996614006]
我々は、ランダム化自動微分(RAD)のための一般的なフレームワークとアプローチを開発する。
RADは、分散の見返りにメモリを減らし、バイアスのない見積もりを計算できる。
本稿では,フィードフォワードネットワークのバッチサイズを小さくし,繰り返しネットワークの場合と同様の回数でRADが収束することを示す。
論文 参考訳(メタデータ) (2020-07-20T19:03:44Z) - Variance Reduction with Sparse Gradients [82.41780420431205]
SVRGやSpiderBoostのような分散還元法では、大きなバッチ勾配と小さなバッチ勾配が混在している。
我々は、新しい空間演算子:ランダムトップk演算子を導入する。
我々のアルゴリズムは、画像分類、自然言語処理、スパース行列分解など様々なタスクにおいて、一貫してSpiderBoostより優れています。
論文 参考訳(メタデータ) (2020-01-27T08:23:58Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。