論文の概要: Block Layer Decomposition schemes for training Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2003.08123v1
- Date: Wed, 18 Mar 2020 09:53:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 13:17:51.893621
- Title: Block Layer Decomposition schemes for training Deep Neural Networks
- Title(参考訳): ディープニューラルネットワーク学習のためのブロック層分割スキーム
- Authors: Laura Palagi, Ruggiero Seccia
- Abstract要約: ディープフィードフォワードネットワーク(DFNN)の重み付け推定は、多くの局所的(グローバルではない)最小化器、サドル点、および大きな台地を持つ非常に大きな非コーディネート最適化問題に依存する。
その結果、最適化アルゴリズムは、悪い解決策につながる可能性があるか、最適化プロセスを遅くすることができるローカルな最小化器に惹きつけることができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Feedforward Neural Networks' (DFNNs) weights estimation relies on the
solution of a very large nonconvex optimization problem that may have many
local (no global) minimizers, saddle points and large plateaus. As a
consequence, optimization algorithms can be attracted toward local minimizers
which can lead to bad solutions or can slow down the optimization process.
Furthermore, the time needed to find good solutions to the training problem
depends on both the number of samples and the number of variables. In this
work, we show how Block Coordinate Descent (BCD) methods can be applied to
improve performance of state-of-the-art algorithms by avoiding bad stationary
points and flat regions. We first describe a batch BCD method ables to
effectively tackle the network's depth and then we further extend the algorithm
proposing a \textit{minibatch} BCD framework able to scale with respect to both
the number of variables and the number of samples by embedding a BCD approach
into a minibatch framework. By extensive numerical results on standard datasets
for several architecture networks, we show how the application of BCD methods
to the training phase of DFNNs permits to outperform standard batch and
minibatch algorithms leading to an improvement on both the training phase and
the generalization performance of the networks.
- Abstract(参考訳): ディープフィードフォワードニューラルネットワーク(dfnn)の重み推定は、非常に大きな非凸最適化問題の解に依存している。
その結果、最適化アルゴリズムは、悪い解決策につながるか、最適化プロセスを遅くする可能性がある局所的最小化器に惹かれることができる。
さらに、トレーニング問題に対する優れた解を見つけるのに必要な時間は、サンプルの数と変数の数の両方に依存する。
本稿では,ブロック座標降下法(bcd法)を用いて,定常点や平坦領域を回避し,最先端アルゴリズムの性能を向上させる方法を示す。
まず、ネットワークの深さに効果的に取り組むことができるバッチBCD法について述べ、次に、BCDアプローチをミニバッチフレームワークに埋め込むことで、変数数とサンプル数の両方をスケールできる \textit{minibatch} BCD フレームワークを提案するアルゴリズムをさらに拡張する。
複数のアーキテクチャネットワークにおける標準データセットの広範囲な数値計算により,dfnnのトレーニングフェーズへのbcd手法の適用が,標準バッチアルゴリズムやミニバッチアルゴリズムよりも優れており,トレーニングフェーズとネットワークの一般化性能の両方が向上していることを示す。
関連論文リスト
- Training Artificial Neural Networks by Coordinate Search Algorithm [0.20971479389679332]
本稿では、ニューラルネットワークのトレーニングのための勾配自由座標探索(CS)アルゴリズムの効率的なバージョンを提案する。
提案アルゴリズムは、微分不可能なアクティベーション関数で使用することができ、多目的/マルチロス問題に適合する。
ANNの重みに対する最適値を求めることは、大規模な最適化問題である。
論文 参考訳(メタデータ) (2024-02-20T01:47:25Z) - Optimization Guarantees of Unfolded ISTA and ADMM Networks With Smooth
Soft-Thresholding [57.71603937699949]
我々は,学習エポックの数の増加とともに,ほぼゼロに近いトレーニング損失を達成するための最適化保証について検討した。
トレーニングサンプル数に対する閾値は,ネットワーク幅の増加とともに増加することを示す。
論文 参考訳(メタデータ) (2023-09-12T13:03:47Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Let the Flows Tell: Solving Graph Combinatorial Optimization Problems
with GFlowNets [86.43523688236077]
組合せ最適化(CO)問題はしばしばNPハードであり、正確なアルゴリズムには及ばない。
GFlowNetsは、複合非正規化密度を逐次サンプリングする強力な機械として登場した。
本稿では,異なる問題に対してマルコフ決定プロセス(MDP)を設計し,条件付きGFlowNetを学習して解空間からサンプルを作成することを提案する。
論文 参考訳(メタデータ) (2023-05-26T15:13:09Z) - The Cascaded Forward Algorithm for Neural Network Training [61.06444586991505]
本稿では,ニューラルネットワークのための新しい学習フレームワークであるCascaded Forward(CaFo)アルゴリズムを提案する。
FFとは異なり、我々のフレームワークは各カスケードブロックのラベル分布を直接出力する。
我々のフレームワークでは、各ブロックは独立して訓練できるので、並列加速度システムに容易に展開できる。
論文 参考訳(メタデータ) (2023-03-17T02:01:11Z) - Deep learning via message passing algorithms based on belief propagation [2.931240348160871]
本稿では,局所的なエントロピー分布に偏りを持つ強化場を有するBPベースのメッセージパッシングアルゴリズムのファミリについて述べる。
これらのアルゴリズムは、SGDにインスパイアされたソリューションに匹敵するパフォーマンスで、離散重みとアクティベーションを持つ多層ニューラルネットワークをトレーニングすることができる。
論文 参考訳(メタデータ) (2021-10-27T16:52:26Z) - DESTRESS: Computation-Optimal and Communication-Efficient Decentralized
Nonconvex Finite-Sum Optimization [43.31016937305845]
インターネット・オブ・シング、ネットワークセンシング、自律システム、有限サム最適化のための分散アルゴリズムのためのフェデレーション学習。
非有限サム最適化のためのDecentralized STochastic Recursive MethodDESTRESSを開発した。
詳細な理論的および数値的な比較は、DESTRESSが事前の分散アルゴリズムにより改善されていることを示している。
論文 参考訳(メタデータ) (2021-10-04T03:17:41Z) - Lower Bounds and Optimal Algorithms for Smooth and Strongly Convex
Decentralized Optimization Over Time-Varying Networks [79.16773494166644]
通信ネットワークのノード間を分散的に保存するスムーズで強い凸関数の和を最小化するタスクについて検討する。
我々は、これらの下位境界を達成するための2つの最適アルゴリズムを設計する。
我々は,既存の最先端手法と実験的な比較を行うことにより,これらのアルゴリズムの理論的効率を裏付ける。
論文 参考訳(メタデータ) (2021-06-08T15:54:44Z) - An Adaptive Memory Multi-Batch L-BFGS Algorithm for Neural Network
Training [0.951828574518325]
近年,大規模なニューラルネットワークトレーニング問題に対して,BFGSアルゴリズムの限られたメモリバージョンが注目されている。
MB-AMと呼ばれるマルチバッチL-BFGSアルゴリズムを提案し,曲率情報に対する信頼度を徐々に高める。
論文 参考訳(メタデータ) (2020-12-14T11:40:41Z) - Tunable Subnetwork Splitting for Model-parallelism of Neural Network
Training [12.755664985045582]
本稿では,深層ニューラルネットワークの分解を調整可能なサブネットワーク分割法(TSSM)を提案する。
提案するTSSMは,トレーニング精度を損なうことなく,大幅な高速化を実現することができる。
論文 参考訳(メタデータ) (2020-09-09T01:05:12Z) - Second-Order Guarantees in Centralized, Federated and Decentralized
Nonconvex Optimization [64.26238893241322]
単純なアルゴリズムは、多くの文脈において優れた経験的結果をもたらすことが示されている。
いくつかの研究は、非最適化問題を研究するための厳密な分析的正当化を追求している。
これらの分析における重要な洞察は、摂動が局所的な降下アルゴリズムを許容する上で重要な役割を担っていることである。
論文 参考訳(メタデータ) (2020-03-31T16:54:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。