論文の概要: AGD: an Auto-switchable Optimizer using Stepwise Gradient Difference for
Preconditioning Matrix
- arxiv url: http://arxiv.org/abs/2312.01658v1
- Date: Mon, 4 Dec 2023 06:20:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 16:12:48.229020
- Title: AGD: an Auto-switchable Optimizer using Stepwise Gradient Difference for
Preconditioning Matrix
- Title(参考訳): AGD:プレコンディショニングマトリックスの段階的勾配差を用いたオートスウィッチブル最適化
- Authors: Yun Yue, Zhiling Ye, Jiadi Jiang, Yongchao Liu, Ke Zhang
- Abstract要約: 本稿では,2段階の勾配差を対角線要素として利用して,プレコンディショニング行列の設計手法を提案する。
我々は、自然言語処理(NLP)、コンピュータビジョン(CV)、レコメンデーションシステム(RecSys)の一般化に関するAGDの評価を行った。
実験の結果,AGDは最先端技術(SOTA)よりも優れており,高い競争力や予測性能が向上していることがわかった。
- 参考スコア(独自算出の注目度): 9.629238108795013
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adaptive optimizers, such as Adam, have achieved remarkable success in deep
learning. A key component of these optimizers is the so-called preconditioning
matrix, providing enhanced gradient information and regulating the step size of
each gradient direction. In this paper, we propose a novel approach to
designing the preconditioning matrix by utilizing the gradient difference
between two successive steps as the diagonal elements. These diagonal elements
are closely related to the Hessian and can be perceived as an approximation of
the inner product between the Hessian row vectors and difference of the
adjacent parameter vectors. Additionally, we introduce an auto-switching
function that enables the preconditioning matrix to switch dynamically between
Stochastic Gradient Descent (SGD) and the adaptive optimizer. Based on these
two techniques, we develop a new optimizer named AGD that enhances the
generalization performance. We evaluate AGD on public datasets of Natural
Language Processing (NLP), Computer Vision (CV), and Recommendation Systems
(RecSys). Our experimental results demonstrate that AGD outperforms the
state-of-the-art (SOTA) optimizers, achieving highly competitive or
significantly better predictive performance. Furthermore, we analyze how AGD is
able to switch automatically between SGD and the adaptive optimizer and its
actual effects on various scenarios. The code is available at
https://github.com/intelligent-machine-learning/dlrover/tree/master/atorch/atorch/optimizers.
- Abstract(参考訳): Adamのような適応型オプティマイザは、ディープラーニングにおいて大きな成功を収めています。
これらのオプティマイザの重要なコンポーネントは、いわゆるプレコンディショニングマトリックス(preconditioning matrix)であり、勾配情報を強化し、各勾配方向のステップサイズを調整する。
本稿では,2つの連続するステップ間の勾配差を対角要素として利用し,プリコンディショニング行列を設計する新しい手法を提案する。
これらの対角要素はヘッシアンと密接に関連しており、ヘッシアン列ベクトルと隣接するパラメータベクトルの差との間の内積の近似と見なすことができる。
さらに,事前条件付き行列をSGD(Stochastic Gradient Descent)と適応オプティマイザの間で動的に切り替えることができる自動切換機能を導入する。
これら2つの手法に基づいて,一般化性能を向上するAGDという新しい最適化器を開発した。
我々は、自然言語処理(NLP)、コンピュータビジョン(CV)、レコメンデーションシステム(RecSys)の公開データセット上でAGDを評価する。
実験の結果,AGDは最先端のSOTA(State-of-the-art)オプティマイザよりも優れた性能を示し,高い競争力や予測性能を実現している。
さらに,AGDがSGDとアダプティブオプティマイザとを自動的に切り替える方法と,その実際の影響を様々なシナリオで分析する。
コードはhttps://github.com/intelligent-machine-learning/dlrover/tree/master/atorch/atorch/optimizersで入手できる。
関連論文リスト
- Two Optimizers Are Better Than One: LLM Catalyst Empowers Gradient-Based Optimization for Prompt Tuning [69.95292905263393]
我々は,勾配に基づく最適化と大規模言語モデル(MsLL)が相互補完的であることを示し,協調的な最適化手法を提案する。
私たちのコードはhttps://www.guozix.com/guozix/LLM-catalystでリリースされています。
論文 参考訳(メタデータ) (2024-05-30T06:24:14Z) - SGD with Partial Hessian for Deep Neural Networks Optimization [18.78728272603732]
本稿では,チャネルワイドパラメータを更新するための2次行列と,他のパラメータを更新するための1次勾配降下(SGD)アルゴリズムを組み合わせた化合物を提案する。
一階述語と比較して、最適化を支援するためにヘッセン行列からの一定の量の情報を採用するが、既存の二階述語一般化と比較すると、一階述語一般化の性能は不正確である。
論文 参考訳(メタデータ) (2024-03-05T06:10:21Z) - Curvature-Informed SGD via General Purpose Lie-Group Preconditioners [6.760212042305871]
曲率情報を利用して勾配降下(SGD)を加速する新しい手法を提案する。
提案手法は,行列フリープレコンディショナーと低ランクプレコンディショナーの2つのプレコンディショナーを含む。
プレコンディショニングされたSGD(PSGD)は、ビジョン、NLP、RLタスクにおいてSoTAよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-07T03:18:00Z) - ELRA: Exponential learning rate adaption gradient descent optimization
method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。
本手法の主な考え方は,状況認識による$alphaの適応である。
これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文 参考訳(メタデータ) (2023-09-12T14:36:13Z) - Performance Embeddings: A Similarity-based Approach to Automatic
Performance Optimization [71.69092462147292]
パフォーマンス埋め込みは、アプリケーション間でパフォーマンスチューニングの知識伝達を可能にする。
本研究では, 深層ニューラルネットワーク, 密度およびスパース線形代数合成, および数値風速予測ステンシルのケーススタディにおいて, この伝達チューニング手法を実証する。
論文 参考訳(メタデータ) (2023-03-14T15:51:35Z) - Learning to Optimize Quasi-Newton Methods [22.504971951262004]
本稿では、最適化時に最適な事前条件をオンラインで学習するLODOと呼ばれる新しい機械学習を提案する。
他のL2Oメソッドとは異なり、LODOはトレーニングタスクの配布にメタトレーニングを一切必要としない。
この勾配は, 雑音場における逆 Hessian を近似し, 幅広い逆 Hessian を表現可能であることを示す。
論文 参考訳(メタデータ) (2022-10-11T03:47:14Z) - Self-Tuning Stochastic Optimization with Curvature-Aware Gradient
Filtering [53.523517926927894]
サンプルごとのHessian-vector積と勾配を用いて、自己チューニングの二次構造を構築する。
モデルに基づく手続きが雑音勾配設定に収束することを証明する。
これは自己チューニング二次体を構築するための興味深いステップである。
論文 参考訳(メタデータ) (2020-11-09T22:07:30Z) - Bilevel Optimization: Convergence Analysis and Enhanced Design [63.64636047748605]
バイレベル最適化は多くの機械学習問題に対するツールである。
Stoc-BiO という新しい確率効率勾配推定器を提案する。
論文 参考訳(メタデータ) (2020-10-15T18:09:48Z) - A Primer on Zeroth-Order Optimization in Signal Processing and Machine
Learning [95.85269649177336]
ZO最適化は、勾配推定、降下方向、ソリューション更新の3つの主要なステップを反復的に実行する。
我々は,ブラックボックス深層学習モデルによる説明文の評価や生成,効率的なオンラインセンサ管理など,ZO最適化の有望な応用を実証する。
論文 参考訳(メタデータ) (2020-06-11T06:50:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。