論文の概要: StochGradAdam: Accelerating Neural Networks Training with Stochastic
Gradient Sampling
- arxiv url: http://arxiv.org/abs/2310.17042v2
- Date: Thu, 8 Feb 2024 23:39:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-12 20:20:40.049012
- Title: StochGradAdam: Accelerating Neural Networks Training with Stochastic
Gradient Sampling
- Title(参考訳): StochGradAdam: 確率勾配サンプリングによるニューラルネットワークの高速化
- Authors: Juyoung Yun
- Abstract要約: 本稿では,十分に無視されたAdamアルゴリズムの新たな適応であるStochGradAdamを公表する。
StochGradAdamは画像分類とセグメンテーションの両方において、従来のAdamよりも優れたパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: In the rapidly advancing domain of deep learning optimization, this paper
unveils the StochGradAdam optimizer, a novel adaptation of the well-regarded
Adam algorithm. Central to StochGradAdam is its gradient sampling technique.
This method not only ensures stable convergence but also leverages the
advantages of selective gradient consideration, fostering robust training by
potentially mitigating the effects of noisy or outlier data and enhancing the
exploration of the loss landscape for more dependable convergence. In both
image classification and segmentation tasks, StochGradAdam has demonstrated
superior performance compared to the traditional Adam optimizer. By judiciously
sampling a subset of gradients at each iteration, the optimizer is optimized
for managing intricate models. The paper provides a comprehensive exploration
of StochGradAdam's methodology, from its mathematical foundations to bias
correction strategies, heralding a promising advancement in deep learning
training techniques.
- Abstract(参考訳): ディープラーニング最適化の分野が急速に進歩する中で,本論文では,Adamアルゴリズムの新たな適応であるStochGradAdamオプティマイザを公表する。
StochGradAdamの中心は勾配サンプリング技術である。
この手法は, 安定収束を確保できるだけでなく, 選択的勾配考慮の利点を活用し, ノイズや外れ値の影響を軽減し, より信頼度の高い収束のために, 損失景観の探索を強化することにより, 堅牢なトレーニングを促進する。
StochGradAdamは画像分類とセグメンテーションの両方で、従来のAdamオプティマイザよりも優れたパフォーマンスを示している。
各イテレーションで勾配のサブセットを巧みにサンプリングすることで、オプティマイザは複雑なモデルを管理するために最適化される。
本稿では,StochGradAdamの方法論を数学的基礎からバイアス補正戦略まで包括的に探求し,深層学習訓練技術の進歩を約束する。
関連論文リスト
- Robust Neural Pruning with Gradient Sampling Optimization for Residual
Neural Networks [0.0]
本研究は, 採粒過程におけるStochGradAdamと同様の勾配サンプリング技術の適用に焦点を当てた。
実験により, 従来の最適化手法と比較して, 勾配サンプリング法により最適化されたモデルの方が, 刈り込み時の精度を保つのに有効であることが判明した。
計算資源の制約のある環境においても,精度を損なうことなく効率の良いニューラルネットワークを構築するための有望な方向性が示唆された。
論文 参考訳(メタデータ) (2023-12-26T12:19:22Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - A Control Theoretic Framework for Adaptive Gradient Optimizers in
Machine Learning [0.6526824510982802]
適応勾配法はディープニューラルネットワークの最適化に人気がある。
最近の例にはAdaGradとAdamがある。
我々は適応的勾配法のための汎用的なフレームワークを開発する。
論文 参考訳(メタデータ) (2022-06-04T17:55:33Z) - Gradient Descent, Stochastic Optimization, and Other Tales [8.034728173797953]
このチュートリアルは、勾配降下法と最適化法の形式的側面と非公式な側面の両方に対処することを避けない。
勾配降下は最適化を行う最も一般的なアルゴリズムの1つであり、機械学習タスクを最適化する最も一般的な方法である。
ディープニューラルネットワークでは、計算資源を節約し、サドルポイントから逃れるために、1つのサンプルまたはサンプルのバッチが続く勾配が使用される。
論文 参考訳(メタデータ) (2022-05-02T12:06:53Z) - Understanding the Generalization of Adam in Learning Neural Networks
with Proper Regularization [118.50301177912381]
我々は,重力減衰グローバリゼーションにおいても,目的の異なる解に確実に異なる誤差で収束できることを示す。
凸と重み減衰正則化を用いると、Adamを含む任意の最適化アルゴリズムは同じ解に収束することを示す。
論文 参考訳(メタデータ) (2021-08-25T17:58:21Z) - Adapting Stepsizes by Momentumized Gradients Improves Optimization and
Generalization [89.66571637204012]
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
論文 参考訳(メタデータ) (2021-06-22T03:13:23Z) - MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of
Gradients [112.00379151834242]
本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。
これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
論文 参考訳(メタデータ) (2020-06-21T21:47:43Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Dynamic Scale Training for Object Detection [111.33112051962514]
本稿では,オブジェクト検出におけるスケール変動問題を軽減するために,動的スケールトレーニングパラダイム(DST)を提案する。
提案したDSTのスケール変動処理に対する有効性を示す実験結果を得た。
推論オーバーヘッドを導入せず、一般的な検出設定のための無料ランチとして機能する。
論文 参考訳(メタデータ) (2020-04-26T16:48:17Z) - TAdam: A Robust Stochastic Gradient Optimizer [6.973803123972298]
機械学習アルゴリズムは、特にロボット分野において、いくつかのノイズを含むかもしれない観察からパターンを見つけることを目的としている。
このようなノイズにうまく対処するためには、外乱を検知し、必要に応じて破棄できると期待している。
そこで本研究では,アルゴリズムに頑健性を直接組み込んだ勾配最適化手法を提案し,その中核となる概念として頑健な学生分布を用いた。
論文 参考訳(メタデータ) (2020-02-29T04:32:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。