論文の概要: ADMM Algorithms for Residual Network Training: Convergence Analysis and Parallel Implementation
- arxiv url: http://arxiv.org/abs/2310.15334v2
- Date: Mon, 31 Mar 2025 03:37:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:28:09.990576
- Title: ADMM Algorithms for Residual Network Training: Convergence Analysis and Parallel Implementation
- Title(参考訳): 残差ネットワークトレーニングのためのADMMアルゴリズム:収束解析と並列実装
- Authors: Jintao Xu, Yifei Li, Wenxun Xing,
- Abstract要約: 残差ニューラルネットワークを訓練するための乗算器アルゴリズム(ADMM)のシリアルおよび並列近距離(線形化)の交互方向法を提案する。
提案アルゴリズムは反復点と目的関数の値の両方に対してR-線形(サブ線形)で収束することを示す。
実験により提案したADMMアルゴリズムの有効性を検証し, 高速で安定な収束, 性能向上, 高い計算効率を示した。
- 参考スコア(独自算出の注目度): 5.3446906736406135
- License:
- Abstract: We propose both serial and parallel proximal (linearized) alternating direction method of multipliers (ADMM) algorithms for training residual neural networks. In contrast to backpropagation-based approaches, our methods inherently mitigate the exploding gradient issue and are well-suited for parallel and distributed training through regional updates. Theoretically, we prove that the proposed algorithms converge at an R-linear (sublinear) rate for both the iteration points and the objective function values. These results hold without imposing stringent constraints on network width, depth, or training data size. Furthermore, we theoretically analyze our parallel/distributed ADMM algorithms, highlighting their reduced time complexity and lower per-node memory consumption. To facilitate practical deployment, we develop a control protocol for parallel ADMM implementation using Python's multiprocessing and interprocess communication. Experimental results validate the proposed ADMM algorithms, demonstrating rapid and stable convergence, improved performance, and high computational efficiency. Finally, we highlight the improved scalability and efficiency achieved by our parallel ADMM training strategy.
- Abstract(参考訳): 残差ニューラルネットワークを訓練するための乗算器アルゴリズム(ADMM)のシリアルおよび並列近距離(線形化)の交互方向法を提案する。
バックプロパゲーションに基づくアプローチとは対照的に、我々の手法は本質的に爆発的な勾配問題を緩和し、地域更新による並列および分散トレーニングに適している。
理論的には、提案アルゴリズムは反復点と目的関数の値の両方に対してR-線形(サブ線形)速度で収束することが証明される。
これらの結果は、ネットワーク幅、深さ、トレーニングデータサイズに厳密な制約を課すことなく保持される。
さらに、並列/分散ADMMアルゴリズムを理論的に解析し、その時間の短縮とノード単位のメモリ消費の低減を強調した。
そこで我々は,Pythonのマルチプロセッサとプロセス間通信を用いた並列ADMM実装のための制御プロトコルを開発した。
実験により提案したADMMアルゴリズムの有効性を検証し, 高速で安定な収束, 性能向上, 高い計算効率を示した。
最後に、並列ADMMトレーニング戦略によって達成されたスケーラビリティと効率の改善を強調します。
関連論文リスト
- Approximating G(t)/GI/1 queues with deep learning [0.0]
待ち行列理論の問題を解くために教師付き機械学習手法を適用する。
G(t)/GI/1 の系における数の過渡分布を推定する。
我々はこれらの分布を高速かつ正確に予測するニューラルネットワーク機構を開発する。
論文 参考訳(メタデータ) (2024-07-11T05:25:45Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Efficient Parametric Approximations of Neural Network Function Space
Distance [6.117371161379209]
モデルパラメータとトレーニングデータの重要な特性をコンパクトに要約して、データセット全体を保存または/または反復することなく後で使用できるようにすることが、しばしば有用である。
我々は,FSD(Function Space Distance)をトレーニングセット上で推定することを検討する。
本稿では、線形化活性化TRick (LAFTR) を提案し、ReLUニューラルネットワークに対するFSDの効率的な近似を導出する。
論文 参考訳(メタデータ) (2023-02-07T15:09:23Z) - Convergence Rates of Training Deep Neural Networks via Alternating
Minimization Methods [6.425552131743896]
本稿では,ディープニューラルネットワーク(DNN)の収束速度を解析するための統合フレームワークを提案する。
本稿では、KL の$theta$ が$[0,1)$ のとき、局所収束指数の詳細な値を示す。
論文 参考訳(メタデータ) (2022-08-30T14:58:44Z) - Comparative Analysis of Interval Reachability for Robust Implicit and
Feedforward Neural Networks [64.23331120621118]
我々は、暗黙的ニューラルネットワーク(INN)の堅牢性を保証するために、区間到達可能性分析を用いる。
INNは暗黙の方程式をレイヤとして使用する暗黙の学習モデルのクラスである。
提案手法は, INNに最先端の区間境界伝搬法を適用するよりも, 少なくとも, 一般的には, 有効であることを示す。
論文 参考訳(メタデータ) (2022-04-01T03:31:27Z) - Path Regularization: A Convexity and Sparsity Inducing Regularization
for Parallel ReLU Networks [75.33431791218302]
本稿では,ディープニューラルネットワークのトレーニング問題について検討し,最適化環境に隠された凸性を明らかにするための解析的アプローチを提案する。
我々は、標準のディープ・ネットワークとResNetを特別なケースとして含む、ディープ・パラレルなReLUネットワークアーキテクチャについて検討する。
論文 参考訳(メタデータ) (2021-10-18T18:00:36Z) - A Convergence Theory Towards Practical Over-parameterized Deep Neural
Networks [56.084798078072396]
ネットワーク幅と収束時間の両方で既知の理論境界を大幅に改善することにより、理論と実践のギャップを埋める一歩を踏み出します。
本研究では, サンプルサイズが2次幅で, 両者の時間対数で線形なネットワークに対して, 地球最小値への収束が保証されていることを示す。
私たちの分析と収束境界は、いつでも合理的なサイズの同等のRELUネットワークに変換できる固定アクティベーションパターンを備えたサロゲートネットワークの構築によって導出されます。
論文 参考訳(メタデータ) (2021-01-12T00:40:45Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - Understanding the Effects of Data Parallelism and Sparsity on Neural
Network Training [126.49572353148262]
ニューラルネットワークトレーニングにおける2つの要因として,データ並列性と疎性について検討する。
有望なメリットにもかかわらず、ニューラルネットワークトレーニングに対する彼らの影響を理解することは、依然として明白である。
論文 参考訳(メタデータ) (2020-03-25T10:49:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。