論文の概要: A Triple-Inertial Accelerated Alternating Optimization Method for Deep Learning Training
- arxiv url: http://arxiv.org/abs/2503.08489v1
- Date: Tue, 11 Mar 2025 14:42:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:45:18.741616
- Title: A Triple-Inertial Accelerated Alternating Optimization Method for Deep Learning Training
- Title(参考訳): 深層学習訓練のための三元慣性加速交代最適化法
- Authors: Chengcheng Yan, Jiawei Xu, Qingsong Wang, Zheng Peng,
- Abstract要約: 勾配降下法(SGD)アルゴリズムは、ディープラーニングモデルのトレーニングにおいて顕著な成功を収めた。
モデルトレーニングの有望な代替手段として、交代最小化(AM)メソッドが登場した。
本稿では,ニューラルネットワークトレーニングのための新しいTriple-Inertial Accelerated Alternating Minimization(TIAM)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 3.246129789918632
- License:
- Abstract: The stochastic gradient descent (SGD) algorithm has achieved remarkable success in training deep learning models. However, it has several limitations, including susceptibility to vanishing gradients, sensitivity to input data, and a lack of robust theoretical guarantees. In recent years, alternating minimization (AM) methods have emerged as a promising alternative for model training by employing gradient-free approaches to iteratively update model parameters. Despite their potential, these methods often exhibit slow convergence rates. To address this challenge, we propose a novel Triple-Inertial Accelerated Alternating Minimization (TIAM) framework for neural network training. The TIAM approach incorporates a triple-inertial acceleration strategy with a specialized approximation method, facilitating targeted acceleration of different terms in each sub-problem optimization. This integration improves the efficiency of convergence, achieving superior performance with fewer iterations. Additionally, we provide a convergence analysis of the TIAM algorithm, including its global convergence properties and convergence rate. Extensive experiments validate the effectiveness of the TIAM method, showing significant improvements in generalization capability and computational efficiency compared to existing approaches, particularly when applied to the rectified linear unit (ReLU) and its variants.
- Abstract(参考訳): 確率勾配降下(SGD)アルゴリズムは、ディープラーニングモデルのトレーニングにおいて顕著な成功を収めた。
しかし、勾配の受容性、入力データの感度、堅牢な理論的保証の欠如など、いくつかの制限がある。
近年, モデルパラメータを反復的に更新するために, 勾配のないアプローチを採用することで, モデルトレーニングに有望な代替手段として, 交代最小化 (AM) 手法が出現している。
その可能性にもかかわらず、これらの手法はしばしば緩やかな収束率を示す。
この課題に対処するために、ニューラルネットワークトレーニングのための新しいTriple-Inertial Accelerated Alternating Minimization(TIAM)フレームワークを提案する。
TIAMアプローチは、特殊近似法で三進慣性加速度戦略を取り入れ、各サブプロブレム最適化における異なる項のターゲット加速度を容易にする。
この統合は収束の効率を改善し、少ないイテレーションで優れたパフォーマンスを達成する。
さらに,その大域収束特性と収束率を含むTIAMアルゴリズムの収束解析を行う。
拡張実験によりTIAM法の有効性が検証され、特に修正線形単位(ReLU)とその変種に適用した場合に、既存の手法と比較して一般化能力と計算効率が大幅に向上した。
関連論文リスト
- $ψ$DAG: Projected Stochastic Approximation Iteration for DAG Structure Learning [6.612096312467342]
Directed A Graphs (DAGs) の構造を学ぶことは、ノード数に応じてスケールする可能なグラフの巨大な検索空間のため、大きな課題となる。
近年の進歩は、微分可能指数関数性制約を取り入れた連続最適化タスクとしてこの問題を再定義している。
本稿では,SGD(Gradient Descent)に基づく最適化手法と統合した近似手法を用いて,DAGを学習する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-31T12:13:11Z) - Towards Differentiable Multilevel Optimization: A Gradient-Based Approach [1.6114012813668932]
本稿では,多レベル最適化のための新しい勾配に基づくアプローチを提案する。
本手法は解の精度と収束速度を両立させながら計算複雑性を著しく低減する。
私たちの知る限りでは、これは暗黙の微分の一般的なバージョンを提供する最初のアルゴリズムの1つである。
論文 参考訳(メタデータ) (2024-10-15T06:17:59Z) - A Full Adagrad algorithm with O(Nd) operations [4.389938747401259]
この研究は大規模アプリケーションのための効率的で実用的なアルゴリズムを提供する。
この革新的な戦略は、一般的にフルマトリックスメソッドに関連する複雑さとリソース要求を著しく削減する。
論文 参考訳(メタデータ) (2024-05-03T08:02:08Z) - Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - An Automatic Learning Rate Schedule Algorithm for Achieving Faster
Convergence and Steeper Descent [10.061799286306163]
実世界のニューラルネットワーク最適化におけるデルタバーデルタアルゴリズムの収束挙動について検討する。
RDBD(Regrettable Delta-Bar-Delta)と呼ばれる新しい手法を提案する。
提案手法は,バイアス付き学習率調整の迅速な修正を可能にし,最適化プロセスの収束を保証する。
論文 参考訳(メタデータ) (2023-10-17T14:15:57Z) - An Accelerated Doubly Stochastic Gradient Method with Faster Explicit
Model Identification [97.28167655721766]
本稿では、分散正規化損失最小化問題に対する2倍加速勾配降下法(ADSGD)を提案する。
まず、ADSGDが線形収束率を達成でき、全体的な計算複雑性を低減できることを示す。
論文 参考訳(メタデータ) (2022-08-11T22:27:22Z) - Meta-Regularization: An Approach to Adaptive Choice of the Learning Rate
in Gradient Descent [20.47598828422897]
第一次下降法における学習率の適応的選択のための新しいアプローチであるtextit-Meta-Regularizationを提案する。
本手法は,正規化項を追加して目的関数を修正し,共同処理パラメータをキャストする。
論文 参考訳(メタデータ) (2021-04-12T13:13:34Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z) - Reparameterized Variational Divergence Minimization for Stable Imitation [57.06909373038396]
確率的発散の選択における変動が、より高性能なILOアルゴリズムをもたらす可能性について検討する。
本稿では,提案する$f$-divergence最小化フレームワークの課題を軽減するために,逆模倣学習のための再パラメータ化手法を提案する。
経験的に、我々の設計選択は、ベースラインアプローチより優れ、低次元連続制御タスクにおける専門家のパフォーマンスとより密に適合するIOOアルゴリズムを許容することを示した。
論文 参考訳(メタデータ) (2020-06-18T19:04:09Z) - Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。
一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。
本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文 参考訳(メタデータ) (2020-06-16T13:41:54Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。