論文の概要: ADMM Training Algorithms for Residual Networks: Convergence, Complexity
and Parallel Training
- arxiv url: http://arxiv.org/abs/2310.15334v1
- Date: Mon, 23 Oct 2023 20:01:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 21:41:38.173563
- Title: ADMM Training Algorithms for Residual Networks: Convergence, Complexity
and Parallel Training
- Title(参考訳): 残差ネットワークのためのadmmトレーニングアルゴリズム:収束、複雑性、並列トレーニング
- Authors: Jintao Xu, Yifei Li, Wenxun Xing
- Abstract要約: 我々はFCResNetsトレーニング問題に対して,一連のシリアルおよび並列近位点(漸進点)ADMMを設計する。
近点バージョンの収束性は、Kurtyka-Lojasiewicz (KL)プロパティ分析フレームワークに基づいて証明される。
並列実装の利点は、時間的複雑さの低減と(ノード単位の)メモリ消費の削減である。
- 参考スコア(独自算出の注目度): 6.0068966996888395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We design a series of serial and parallel proximal point (gradient) ADMMs for
the fully connected residual networks (FCResNets) training problem by
introducing auxiliary variables. Convergence of the proximal point version is
proven based on a Kurdyka-Lojasiewicz (KL) property analysis framework, and we
can ensure a locally R-linear or sublinear convergence rate depending on the
different ranges of the Kurdyka-Lojasiewicz (KL) exponent, in which a necessary
auxiliary function is constructed to realize our goal. Moreover, the advantages
of the parallel implementation in terms of lower time complexity and less
(per-node) memory consumption are analyzed theoretically. To the best of our
knowledge, this is the first work analyzing the convergence, convergence rate,
time complexity and (per-node) runtime memory requirement of the ADMM applied
in the FCResNets training problem theoretically. Experiments are reported to
show the high speed, better performance, robustness and potential in the deep
network training tasks. Finally, we present the advantage and potential of our
parallel training in large-scale problems.
- Abstract(参考訳): 本稿では,完全連結残留ネットワーク(FCResNets)トレーニング問題に対して,補助変数を導入することで,一連のシリアルおよび並列近位点ADMMを設計する。
近点版の収束性は、クルディカ・ロジャシエヴィチ(KL)特性解析フレームワークに基づいて証明され、我々の目標を達成するために必要な補助関数が構築されるクルディカ・ロジャシエヴィチ(KL)指数の異なる範囲に依存する局所的なR-線形あるいはサブ線形収束率を確保することができる。
さらに、並列実装の利点として、時間的複雑さの低減と(ノード単位の)メモリ消費の削減を理論的に分析する。
我々の知る限りでは、FCResNetsのトレーニング問題に適用されるADMMの収束、収束率、時間複雑性、および(ノード毎)ランタイムメモリ要件を理論的に解析する最初の研究である。
ディープネットワークトレーニングタスクにおいて、高速、パフォーマンス、堅牢性、潜在能力を示す実験が報告されている。
最後に、大規模問題における並列トレーニングの利点と可能性を示す。
関連論文リスト
- Approximating G(t)/GI/1 queues with deep learning [0.0]
待ち行列理論の問題を解くために教師付き機械学習手法を適用する。
G(t)/GI/1 の系における数の過渡分布を推定する。
我々はこれらの分布を高速かつ正確に予測するニューラルネットワーク機構を開発する。
論文 参考訳(メタデータ) (2024-07-11T05:25:45Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Efficient Parametric Approximations of Neural Network Function Space
Distance [6.117371161379209]
モデルパラメータとトレーニングデータの重要な特性をコンパクトに要約して、データセット全体を保存または/または反復することなく後で使用できるようにすることが、しばしば有用である。
我々は,FSD(Function Space Distance)をトレーニングセット上で推定することを検討する。
本稿では、線形化活性化TRick (LAFTR) を提案し、ReLUニューラルネットワークに対するFSDの効率的な近似を導出する。
論文 参考訳(メタデータ) (2023-02-07T15:09:23Z) - Convergence Rates of Training Deep Neural Networks via Alternating
Minimization Methods [6.425552131743896]
本稿では,ディープニューラルネットワーク(DNN)の収束速度を解析するための統合フレームワークを提案する。
本稿では、KL の$theta$ が$[0,1)$ のとき、局所収束指数の詳細な値を示す。
論文 参考訳(メタデータ) (2022-08-30T14:58:44Z) - Comparative Analysis of Interval Reachability for Robust Implicit and
Feedforward Neural Networks [64.23331120621118]
我々は、暗黙的ニューラルネットワーク(INN)の堅牢性を保証するために、区間到達可能性分析を用いる。
INNは暗黙の方程式をレイヤとして使用する暗黙の学習モデルのクラスである。
提案手法は, INNに最先端の区間境界伝搬法を適用するよりも, 少なくとも, 一般的には, 有効であることを示す。
論文 参考訳(メタデータ) (2022-04-01T03:31:27Z) - Path Regularization: A Convexity and Sparsity Inducing Regularization
for Parallel ReLU Networks [75.33431791218302]
本稿では,ディープニューラルネットワークのトレーニング問題について検討し,最適化環境に隠された凸性を明らかにするための解析的アプローチを提案する。
我々は、標準のディープ・ネットワークとResNetを特別なケースとして含む、ディープ・パラレルなReLUネットワークアーキテクチャについて検討する。
論文 参考訳(メタデータ) (2021-10-18T18:00:36Z) - A Convergence Theory Towards Practical Over-parameterized Deep Neural
Networks [56.084798078072396]
ネットワーク幅と収束時間の両方で既知の理論境界を大幅に改善することにより、理論と実践のギャップを埋める一歩を踏み出します。
本研究では, サンプルサイズが2次幅で, 両者の時間対数で線形なネットワークに対して, 地球最小値への収束が保証されていることを示す。
私たちの分析と収束境界は、いつでも合理的なサイズの同等のRELUネットワークに変換できる固定アクティベーションパターンを備えたサロゲートネットワークの構築によって導出されます。
論文 参考訳(メタデータ) (2021-01-12T00:40:45Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - Understanding the Effects of Data Parallelism and Sparsity on Neural
Network Training [126.49572353148262]
ニューラルネットワークトレーニングにおける2つの要因として,データ並列性と疎性について検討する。
有望なメリットにもかかわらず、ニューラルネットワークトレーニングに対する彼らの影響を理解することは、依然として明白である。
論文 参考訳(メタデータ) (2020-03-25T10:49:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。