論文の概要: Neural Network Training via Stochastic Alternating Minimization with Trainable Step Sizes
- arxiv url: http://arxiv.org/abs/2508.04193v1
- Date: Wed, 06 Aug 2025 08:23:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.624193
- Title: Neural Network Training via Stochastic Alternating Minimization with Trainable Step Sizes
- Title(参考訳): 学習可能なステップサイズによる確率交代最小化によるニューラルネットワークトレーニング
- Authors: Chengcheng Yan, Jiawei Xu, Zheng Peng, Qingsong Wang,
- Abstract要約: ディープニューラルネットワークのトレーニングは本質的に非最適化問題である。
勾配降下(SGD)のような標準的なアプローチでは、パラメータを同時に更新する必要がある。
そこで本研究では,SAMTを用いた列車最小化手法を提案する。
SAMTは、最先端のメソッドに比べて、パラメータ更新が少なく、パフォーマンスが向上する。
- 参考スコア(独自算出の注目度): 3.246129789918632
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The training of deep neural networks is inherently a nonconvex optimization problem, yet standard approaches such as stochastic gradient descent (SGD) require simultaneous updates to all parameters, often leading to unstable convergence and high computational cost. To address these issues, we propose a novel method, Stochastic Alternating Minimization with Trainable Step Sizes (SAMT), which updates network parameters in an alternating manner by treating the weights of each layer as a block. By decomposing the overall optimization into sub-problems corresponding to different blocks, this block-wise alternating strategy reduces per-step computational overhead and enhances training stability in nonconvex settings. To fully leverage these benefits, inspired by meta-learning, we proposed a novel adaptive step size strategy to incorporate into the sub-problem solving steps of alternating updates. It supports different types of trainable step sizes, including but not limited to scalar, element-wise, row-wise, and column-wise, enabling adaptive step size selection tailored to each block via meta-learning. We further provide a theoretical convergence guarantee for the proposed algorithm, establishing its optimization soundness. Extensive experiments for multiple benchmarks demonstrate that SAMT achieves better generalization performance with fewer parameter updates compared to state-of-the-art methods, highlighting its effectiveness and potential in neural network optimization.
- Abstract(参考訳): ディープニューラルネットワークのトレーニングは本質的に非凸最適化問題であるが、確率勾配降下(SGD)のような標準的なアプローチでは、全てのパラメータを同時に更新する必要があるため、しばしば不安定な収束と高い計算コストにつながる。
これらの問題に対処するために,各層の重みをブロックとして扱うことにより,ネットワークパラメータを交互に更新するStochastic Alternating Minimization with Trainable Step Sizes (SAMT)を提案する。
全体最適化を異なるブロックに対応するサブプロブレムに分解することにより、このブロックワイズ交互戦略はステップごとの計算オーバーヘッドを低減し、非凸設定でのトレーニング安定性を向上させる。
メタラーニングにインスパイアされたこれらの利点をフル活用するために、我々は、更新を交互に行うサブプロブレム解決ステップに組み込む、新しい適応的なステップサイズ戦略を提案した。
異なるタイプのトレーニング可能なステップサイズをサポートしており、スカラー、要素ワイド、行ワイド、列ワイドに制限されないため、メタラーニングを通じて各ブロックに調整された適応的なステップサイズ選択が可能である。
さらに,提案アルゴリズムに対する理論的収束保証を行い,その最適化音性を確立する。
複数のベンチマークに対する大規模な実験により、SAMTは最先端の手法に比べてパラメータ更新が少なく、より優れた一般化性能を達成でき、ニューラルネットワーク最適化の有効性と可能性を強調している。
関連論文リスト
- Blockwise Optimization for Projective Variational Quantum Dynamics (BLOP-VQD): Algorithm and Implementation for Lattice Systems [0.0]
本稿では,予測変動量子ダイナミクスを用いたリアルタイム量子力学の効率的なシミュレーション手法を提案する。
提案手法は,一方のブロックを1回に選択的に最適化し,他方のブロックを固定し,計算オーバーヘッドを大幅に削減する。
提案手法の性能を,サイズや複雑さの異なる一連のスピン格子モデルで実証する。
論文 参考訳(メタデータ) (2025-03-24T01:48:37Z) - Training Deep Learning Models with Norm-Constrained LMOs [56.00317694850397]
線形最小化オラクル(LMO)を用いて問題の幾何学に適応する新しいアルゴリズム群を提案する。
我々は,Adamに頼らずに,我々のアルゴリズムであるScionを用いたナノGPTトレーニングの大幅な高速化を示す。
論文 参考訳(メタデータ) (2025-02-11T13:10:34Z) - Constrained Hybrid Metaheuristic Algorithm for Probabilistic Neural Networks Learning [0.3686808512438362]
本研究では、確率論的ニューラルネットワーク(PNN)のトレーニングを強化するためのハイブリッドメタヒューリスティックアルゴリズムの可能性について検討する。
勾配に基づくアプローチのような伝統的な学習手法は、しばしば高次元で不確実な環境を最適化するのに苦労する。
本稿では,複数の個体群に基づく最適化手法を組み合わせた制約付きハイブリッドメタヒューリスティック(cHM)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-01-26T19:49:16Z) - Layer-wise Adaptive Step-Sizes for Stochastic First-Order Methods for
Deep Learning [8.173034693197351]
深層学習における一階最適化のための新しい階層ごとの適応的なステップサイズ手順を提案する。
提案手法は,ディープニューラルネットワーク(DNN)におけるヘシアン対角ブロックに含まれる層次曲率情報を用いて,各層に対する適応的なステップサイズ(LR)を算出する。
数値実験により、SGDの運動量とAdamWと、提案した層ごとのステップサイズを組み合わせることで、効率的なLRスケジュールを選択できることが示されている。
論文 参考訳(メタデータ) (2023-05-23T04:12:55Z) - Hyper-Learning for Gradient-Based Batch Size Adaptation [2.944323057176686]
バッチサイズをスケジューリングして拡大することは、ディープニューラルネットワークをトレーニングする際のノイズを制御する効果的な戦略である。
学習可能なスケジューリングのためのバッチサイズ適応を行うためのアルゴリズムとしてArbiterを導入する。
いくつかの実験でArbiterの有効性を実証した。
論文 参考訳(メタデータ) (2022-05-17T11:01:14Z) - An Adaptive Incremental Gradient Method With Support for Non-Euclidean
Norms [19.41328109094503]
そこで本研究では,SAGAアルゴリズムの適応型を新たにいくつか提案し,解析する。
一般的な設定の下で収束保証を確立する。
我々は、非ユークリッドノルムをサポートするためにSAGAの分析を改善した。
論文 参考訳(メタデータ) (2022-04-28T09:43:07Z) - Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。
この2つの設定の間には自然なシナジーがあることが示されています。
この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文 参考訳(メタデータ) (2021-11-25T19:59:33Z) - Adaptive pruning-based optimization of parameterized quantum circuits [62.997667081978825]
Variisyハイブリッド量子古典アルゴリズムは、ノイズ中間量子デバイスの使用を最大化する強力なツールである。
我々は、変分量子アルゴリズムで使用されるそのようなアンサーゼを「効率的な回路訓練」(PECT)と呼ぶ戦略を提案する。
すべてのアンサッツパラメータを一度に最適化する代わりに、PECTは一連の変分アルゴリズムを起動する。
論文 参考訳(メタデータ) (2020-10-01T18:14:11Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z) - AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。
実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文 参考訳(メタデータ) (2020-06-11T16:36:31Z) - Adaptivity of Stochastic Gradient Methods for Nonconvex Optimization [71.03797261151605]
適応性は現代最適化理論において重要であるが、研究されていない性質である。
提案アルゴリズムは,PL目標に対して既存のアルゴリズムよりも優れた性能を保ちながら,PL目標に対して最適な収束性を実現することを実証した。
論文 参考訳(メタデータ) (2020-02-13T05:42:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。