論文の概要: ADMM Training Algorithms for Residual Networks: Convergence, Complexity
and Parallel Training
- arxiv url: http://arxiv.org/abs/2310.15334v1
- Date: Mon, 23 Oct 2023 20:01:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-10-25 21:41:38.173563
- Title: ADMM Training Algorithms for Residual Networks: Convergence, Complexity
and Parallel Training
- Title(参考訳): 残差ネットワークのためのadmmトレーニングアルゴリズム:収束、複雑性、並列トレーニング
- Authors: Jintao Xu, Yifei Li, Wenxun Xing
- Abstract要約: 我々はFCResNetsトレーニング問題に対して,一連のシリアルおよび並列近位点(漸進点)ADMMを設計する。
近点バージョンの収束性は、Kurtyka-Lojasiewicz (KL)プロパティ分析フレームワークに基づいて証明される。
並列実装の利点は、時間的複雑さの低減と(ノード単位の)メモリ消費の削減である。
- 参考スコア(独自算出の注目度): 6.0068966996888395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We design a series of serial and parallel proximal point (gradient) ADMMs for
the fully connected residual networks (FCResNets) training problem by
introducing auxiliary variables. Convergence of the proximal point version is
proven based on a Kurdyka-Lojasiewicz (KL) property analysis framework, and we
can ensure a locally R-linear or sublinear convergence rate depending on the
different ranges of the Kurdyka-Lojasiewicz (KL) exponent, in which a necessary
auxiliary function is constructed to realize our goal. Moreover, the advantages
of the parallel implementation in terms of lower time complexity and less
(per-node) memory consumption are analyzed theoretically. To the best of our
knowledge, this is the first work analyzing the convergence, convergence rate,
time complexity and (per-node) runtime memory requirement of the ADMM applied
in the FCResNets training problem theoretically. Experiments are reported to
show the high speed, better performance, robustness and potential in the deep
network training tasks. Finally, we present the advantage and potential of our
parallel training in large-scale problems.
- Abstract(参考訳): 本稿では,完全連結残留ネットワーク(FCResNets)トレーニング問題に対して,補助変数を導入することで,一連のシリアルおよび並列近位点ADMMを設計する。
近点版の収束性は、クルディカ・ロジャシエヴィチ(KL)特性解析フレームワークに基づいて証明され、我々の目標を達成するために必要な補助関数が構築されるクルディカ・ロジャシエヴィチ(KL)指数の異なる範囲に依存する局所的なR-線形あるいはサブ線形収束率を確保することができる。
さらに、並列実装の利点として、時間的複雑さの低減と(ノード単位の)メモリ消費の削減を理論的に分析する。
我々の知る限りでは、FCResNetsのトレーニング問題に適用されるADMMの収束、収束率、時間複雑性、および(ノード毎)ランタイムメモリ要件を理論的に解析する最初の研究である。
ディープネットワークトレーニングタスクにおいて、高速、パフォーマンス、堅牢性、潜在能力を示す実験が報告されている。
最後に、大規模問題における並列トレーニングの利点と可能性を示す。
関連論文リスト
- Approximating G(t)/GI/1 queues with deep learning [0.0]
待ち行列理論の問題を解くために教師付き機械学習手法を適用する。
G(t)/GI/1 の系における数の過渡分布を推定する。
我々はこれらの分布を高速かつ正確に予測するニューラルネットワーク機構を開発する。
論文 参考訳(メタデータ) (2024-07-11T05:25:45Z) - BADM: Batch ADMM for Deep Learning [35.39258144247444]
勾配降下に基づくアルゴリズムはディープニューラルネットワークのトレーニングに広く用いられているが、しばしば収束が遅い。
我々は、乗算器の交互方向法(ADMM)の枠組みを利用して、バッチADMM(Batch ADMM)と呼ばれる新しいデータ駆動アルゴリズムを開発する。
我々は,グラフモデリング,コンピュータビジョン,画像生成,自然言語処理など,さまざまなディープラーニングタスクにおけるBADMの性能を評価する。
論文 参考訳(メタデータ) (2024-06-30T20:47:15Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Efficient Parametric Approximations of Neural Network Function Space
Distance [6.117371161379209]
モデルパラメータとトレーニングデータの重要な特性をコンパクトに要約して、データセット全体を保存または/または反復することなく後で使用できるようにすることが、しばしば有用である。
我々は,FSD(Function Space Distance)をトレーニングセット上で推定することを検討する。
本稿では、線形化活性化TRick (LAFTR) を提案し、ReLUニューラルネットワークに対するFSDの効率的な近似を導出する。
論文 参考訳(メタデータ) (2023-02-07T15:09:23Z) - Convergence Rates of Training Deep Neural Networks via Alternating
Minimization Methods [6.425552131743896]
本稿では,ディープニューラルネットワーク(DNN)の収束速度を解析するための統合フレームワークを提案する。
本稿では、KL の$theta$ が$[0,1)$ のとき、局所収束指数の詳細な値を示す。
論文 参考訳(メタデータ) (2022-08-30T14:58:44Z) - Comparative Analysis of Interval Reachability for Robust Implicit and
Feedforward Neural Networks [64.23331120621118]
我々は、暗黙的ニューラルネットワーク(INN)の堅牢性を保証するために、区間到達可能性分析を用いる。
INNは暗黙の方程式をレイヤとして使用する暗黙の学習モデルのクラスである。
提案手法は, INNに最先端の区間境界伝搬法を適用するよりも, 少なくとも, 一般的には, 有効であることを示す。
論文 参考訳(メタデータ) (2022-04-01T03:31:27Z) - Path Regularization: A Convexity and Sparsity Inducing Regularization
for Parallel ReLU Networks [75.33431791218302]
本稿では,ディープニューラルネットワークのトレーニング問題について検討し,最適化環境に隠された凸性を明らかにするための解析的アプローチを提案する。
我々は、標準のディープ・ネットワークとResNetを特別なケースとして含む、ディープ・パラレルなReLUネットワークアーキテクチャについて検討する。
論文 参考訳(メタデータ) (2021-10-18T18:00:36Z) - Adaptive Stochastic ADMM for Decentralized Reinforcement Learning in
Edge Industrial IoT [106.83952081124195]
強化学習 (Reinforcement Learning, RL) は, 意思決定および最適制御プロセスのための有望な解法として広く研究されている。
本稿では,Adaptive ADMM (asI-ADMM)アルゴリズムを提案する。
実験の結果,提案アルゴリズムは通信コストやスケーラビリティの観点から技術状況よりも優れており,複雑なIoT環境に適応できることがわかった。
論文 参考訳(メタデータ) (2021-06-30T16:49:07Z) - Partitioning sparse deep neural networks for scalable training and
inference [8.282177703075453]
最先端のディープニューラルネットワーク(DNN)には、計算とデータ管理の大幅な要件がある。
スパシフィケーション法とプルーニング法は,DNNの大量の接続を除去するのに有効であることが示されている。
その結果得られたスパースネットワークは、ディープラーニングにおけるトレーニングと推論の計算効率をさらに向上するためのユニークな課題を提示する。
論文 参考訳(メタデータ) (2021-04-23T20:05:52Z) - A Convergence Theory Towards Practical Over-parameterized Deep Neural
Networks [56.084798078072396]
ネットワーク幅と収束時間の両方で既知の理論境界を大幅に改善することにより、理論と実践のギャップを埋める一歩を踏み出します。
本研究では, サンプルサイズが2次幅で, 両者の時間対数で線形なネットワークに対して, 地球最小値への収束が保証されていることを示す。
私たちの分析と収束境界は、いつでも合理的なサイズの同等のRELUネットワークに変換できる固定アクティベーションパターンを備えたサロゲートネットワークの構築によって導出されます。
論文 参考訳(メタデータ) (2021-01-12T00:40:45Z) - Distributed Optimization, Averaging via ADMM, and Network Topology [0.0]
センサローカライゼーションの現実問題において,ネットワークトポロジと異なるアルゴリズムの収束率の関係について検討する。
また、ADMMと持ち上げマルコフ連鎖の間の興味深い関係を示すとともに、その収束を明示的に特徴づける。
論文 参考訳(メタデータ) (2020-09-05T21:44:39Z) - Restructuring, Pruning, and Adjustment of Deep Models for Parallel
Distributed Inference [15.720414948573753]
複数の処理ノード(ワーカ)上で既に訓練済みのディープモデルの並列実装について検討する。
並列化モデル全体の性能を保証するレイヤワイドモデル再構成およびプルーニング手法であるRePurposeを提案する。
既存の手法と比較して,RePurposeは並列実装による分散推論の効率を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2020-08-19T06:44:41Z) - Iterative Algorithm Induced Deep-Unfolding Neural Networks: Precoding
Design for Multiuser MIMO Systems [59.804810122136345]
本稿では,AIIDNN(ディープ・アンフォールディング・ニューラルネット)を一般化した,ディープ・アンフォールディングのためのフレームワークを提案する。
古典的重み付き最小二乗誤差(WMMSE)反復アルゴリズムの構造に基づく効率的なIAIDNNを提案する。
提案したIAIDNNは,計算複雑性を低減した反復WMMSEアルゴリズムの性能を効率よく向上することを示す。
論文 参考訳(メタデータ) (2020-06-15T02:57:57Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - Parallelization Techniques for Verifying Neural Networks [52.917845265248744]
検証問題に基づくアルゴリズムを反復的に導入し、2つの分割戦略を探索する。
また、ニューラルネットワークの検証問題を単純化するために、ニューロンアクティベーションフェーズを利用する、高度に並列化可能な前処理アルゴリズムも導入する。
論文 参考訳(メタデータ) (2020-04-17T20:21:47Z) - Understanding the Effects of Data Parallelism and Sparsity on Neural
Network Training [126.49572353148262]
ニューラルネットワークトレーニングにおける2つの要因として,データ並列性と疎性について検討する。
有望なメリットにもかかわらず、ニューラルネットワークトレーニングに対する彼らの影響を理解することは、依然として明白である。
論文 参考訳(メタデータ) (2020-03-25T10:49:22Z) - Accelerating Feedforward Computation via Parallel Nonlinear Equation
Solving [106.63673243937492]
ニューラルネットワークの評価や自己回帰モデルからのサンプリングなどのフィードフォワード計算は、機械学習においてユビキタスである。
本稿では,非線形方程式の解法としてフィードフォワード計算の課題を定式化し,ジャコビ・ガウス・シーデル固定点法とハイブリッド法を用いて解を求める。
提案手法は, 並列化可能な繰り返し回数の削減(あるいは等値化)により, 元のフィードフォワード計算と全く同じ値が与えられることを保証し, 十分な並列化計算能力を付与する。
論文 参考訳(メタデータ) (2020-02-10T10:11:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。