論文の概要: AA-DLADMM: An Accelerated ADMM-based Framework for Training Deep Neural
Networks
- arxiv url: http://arxiv.org/abs/2401.03619v1
- Date: Mon, 8 Jan 2024 01:22:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 18:04:44.720860
- Title: AA-DLADMM: An Accelerated ADMM-based Framework for Training Deep Neural
Networks
- Title(参考訳): AA-DLADMM: ディープニューラルネットワークをトレーニングするための高速化ADMMベースのフレームワーク
- Authors: Zeinab Ebrahimi, Gustavo Batista and Mohammad Deghat
- Abstract要約: 勾配降下(SGD)とその多くの変種は、ディープニューラルネットワークを訓練するための広範な最適化アルゴリズムである。
SGDは、勾配の消失、理論的保証の欠如、入力に対するかなりの感度など、避けられない欠点に悩まされている。
本稿では,この欠点に対処するため,Anderson Acceleration for Deep Learning ADMM (AA-DLADMM)アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 1.3812010983144802
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stochastic gradient descent (SGD) and its many variants are the widespread
optimization algorithms for training deep neural networks. However, SGD suffers
from inevitable drawbacks, including vanishing gradients, lack of theoretical
guarantees, and substantial sensitivity to input. The Alternating Direction
Method of Multipliers (ADMM) has been proposed to address these shortcomings as
an effective alternative to the gradient-based methods. It has been
successfully employed for training deep neural networks. However, ADMM-based
optimizers have a slow convergence rate. This paper proposes an Anderson
Acceleration for Deep Learning ADMM (AA-DLADMM) algorithm to tackle this
drawback. The main intention of the AA-DLADMM algorithm is to employ Anderson
acceleration to ADMM by considering it as a fixed-point iteration and attaining
a nearly quadratic convergence rate. We verify the effectiveness and efficiency
of the proposed AA-DLADMM algorithm by conducting extensive experiments on four
benchmark datasets contrary to other state-of-the-art optimizers.
- Abstract(参考訳): 確率勾配勾配(SGD)とその多くの変種は、ディープニューラルネットワークを訓練するための広範な最適化アルゴリズムである。
しかし、SGDは、勾配の消失、理論的保証の欠如、入力に対するかなりの感度など、避けられない欠点に悩まされている。
勾配に基づく手法の効果的な代替として, 乗算器の交互方向法(admm)が提案されている。
ディープニューラルネットワークのトレーニングに成功している。
しかし、ADMMベースのオプティマイザは収束速度が遅い。
本稿では,この欠点に対処するため,Anderson Acceleration for Deep Learning ADMM (AA-DLADMM)アルゴリズムを提案する。
AA-DLADMMアルゴリズムの主な目的は、アンダーソン加速度をADMMに採用することであり、固定点反復として考慮し、ほぼ2次収束率に達することである。
本研究では,AA-DLADMMアルゴリズムの有効性と効率を,他の最先端最適化アルゴリズムとは対照的に4つのベンチマークデータセットに対して広範な実験を行うことにより検証する。
関連論文リスト
- MARS: Unleashing the Power of Variance Reduction for Training Large Models [56.47014540413659]
Adam、Adam、およびそれらの変種のような大規模な勾配アルゴリズムは、この種のトレーニングの開発の中心となっている。
本稿では,事前条件付き勾配最適化手法と,スケールドモーメント手法による分散低減を両立させる枠組みを提案する。
論文 参考訳(メタデータ) (2024-11-15T18:57:39Z) - Faster WIND: Accelerating Iterative Best-of-$N$ Distillation for LLM Alignment [81.84950252537618]
本稿では,反復的BONDと自己プレイアライメントの統一的なゲーム理論接続を明らかにする。
WINレート支配(WIN rate Dominance, WIND)という新しいフレームワークを構築し, 正規化利率支配最適化のためのアルゴリズムを多数提案する。
論文 参考訳(メタデータ) (2024-10-28T04:47:39Z) - BADM: Batch ADMM for Deep Learning [35.39258144247444]
勾配降下に基づくアルゴリズムはディープニューラルネットワークのトレーニングに広く用いられているが、しばしば収束が遅い。
我々は、乗算器の交互方向法(ADMM)の枠組みを利用して、バッチADMM(Batch ADMM)と呼ばれる新しいデータ駆動アルゴリズムを開発する。
我々は,グラフモデリング,コンピュータビジョン,画像生成,自然言語処理など,さまざまなディープラーニングタスクにおけるBADMの性能を評価する。
論文 参考訳(メタデータ) (2024-06-30T20:47:15Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Federated Learning via Inexact ADMM [46.99210047518554]
本稿では,乗算器の不正確な交互方向法(ADMM)を提案する。
どちらも通信効率が高く、ストラグラー効果と戦うことができ、穏やかな条件下で収束する。
フェデレート学習のためのいくつかの最先端アルゴリズムと比較して高い数値性能を持つ。
論文 参考訳(メタデータ) (2022-04-22T09:55:33Z) - A Distributed Algorithm for Measure-valued Optimization with Additive
Objective [1.0965065178451106]
本稿では,加法目的を用いた測度パラメトリック最適化問題の解法として,分散非数値アルゴリズムを提案する。
提案アルゴリズムは2層交互方向乗算器(ADMM)からなる。
全体のアルゴリズムは、確率測度の多様体内の流れの演算子分割勾配を実現する。
論文 参考訳(メタデータ) (2022-02-17T23:09:41Z) - A Convergent ADMM Framework for Efficient Neural Network Training [17.764095204676973]
乗算器の交互方向法(ADMM)は多くの分類と回帰の応用において大きな成功を収めた。
本稿では,ADMM (dlADMM) を用いてニューラルネットワークの一般的なトレーニング問題を同時に解くための新しい枠組みを提案する。
提案したdlADMMアルゴリズムの収束, 効率, 有効性を示す7つのベンチマークデータセットの実験を行った。
論文 参考訳(メタデータ) (2021-12-22T01:55:24Z) - Adam revisited: a weighted past gradients perspective [57.54752290924522]
本稿では,非収束問題に取り組むための適応法重み付け適応アルゴリズム(wada)を提案する。
私たちは、WADAが重み付きデータ依存の後悔境界を達成できることを証明します。
論文 参考訳(メタデータ) (2021-01-01T14:01:52Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。