論文の概要: Towards Accelerating Training of Batch Normalization: A Manifold
Perspective
- arxiv url: http://arxiv.org/abs/2101.02916v1
- Date: Fri, 8 Jan 2021 08:53:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-10 05:05:11.385806
- Title: Towards Accelerating Training of Batch Normalization: A Manifold
Perspective
- Title(参考訳): バッチ正規化の学習促進に向けて:多様体的視点
- Authors: Mingyang Yi, Qi Meng, Wei Chen, Zhi-Ming Ma
- Abstract要約: バッチ正規化(bn)は、さまざまなディープニューラルネットワークにおいて重要なコンポーネントとなっている。
我々は、bn を持つネットワークのすべての等価重みが同一の要素と見なされる商多様体 emphpsi 多様体を提案する。
我々のアルゴリズムは, 様々な実験環境において, 一貫して優れた性能を達成できることを示す。
- 参考スコア(独自算出の注目度): 19.55158964644964
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Batch normalization (BN) has become a crucial component across diverse deep
neural networks. The network with BN is invariant to positively linear
re-scaling of weights, which makes there exist infinite functionally equivalent
networks with various scales of weights. However, optimizing these equivalent
networks with the first-order method such as stochastic gradient descent will
converge to different local optima owing to different gradients across
training. To alleviate this, we propose a quotient manifold \emph{PSI
manifold}, in which all the equivalent weights of the network with BN are
regarded as the same one element. Then, gradient descent and stochastic
gradient descent on the PSI manifold are also constructed. The two algorithms
guarantee that every group of equivalent weights (caused by positively
re-scaling) converge to the equivalent optima. Besides that, we give the
convergence rate of the proposed algorithms on PSI manifold and justify that
they accelerate training compared with the algorithms on the Euclidean weight
space. Empirical studies show that our algorithms can consistently achieve
better performances over various experimental settings.
- Abstract(参考訳): バッチ正規化(bn)は、さまざまなディープニューラルネットワークにおいて重要なコンポーネントとなっている。
BN を持つネットワークは、重みの正の線形再スケーリングに不変であり、様々な重みのスケールを持つ無限の機能的に等価なネットワークが存在する。
しかし、これらの等価ネットワークを確率勾配勾配のような一階法で最適化することは、トレーニング間の異なる勾配のために異なる局所最適に収束する。
これを緩和するために、bn を持つネットワークの等価重みを全て同一の要素とみなす商多様体 \emph{psi manifold} を提案する。
また, PSI多様体上の勾配勾配勾配と確率勾配勾配も構築した。
この2つのアルゴリズムは、等価重みのすべての群(正に再スケーリングによって生じる)が等価オプティマに収束することを保証している。
さらに、提案したアルゴリズムのPSI多様体への収束率を与え、ユークリッド重み空間上のアルゴリズムと比較してトレーニングを加速することを正当化する。
実験により, アルゴリズムは様々な実験環境において, 常に優れた性能を達成できることを示す。
関連論文リスト
- Convergence of Implicit Gradient Descent for Training Two-Layer Physics-Informed Neural Networks [3.680127959836384]
暗黙の勾配降下(IGD)は、ある種のマルチスケール問題を扱う場合、共通勾配降下(GD)よりも優れる。
IGDは線形収束速度で大域的に最適解を収束することを示す。
論文 参考訳(メタデータ) (2024-07-03T06:10:41Z) - Concurrent Training and Layer Pruning of Deep Neural Networks [0.0]
トレーニングの初期段階において、ニューラルネットワークの無関係な層を特定し、排除できるアルゴリズムを提案する。
本研究では,非線形区間を切断した後にネットワークを流れる情報の流れを,非線形ネットワーク区間の周囲の残差接続を用いた構造を用いる。
論文 参考訳(メタデータ) (2024-06-06T23:19:57Z) - Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Equivariant Deep Weight Space Alignment [54.65847470115314]
本稿では,ウェイトアライメント問題を解決するための学習を目的とした新しいフレームワークを提案する。
まず、重み調整が2つの基本対称性に一致することを証明し、それからこれらの対称性を尊重する深いアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-10-20T10:12:06Z) - On the Effect of Initialization: The Scaling Path of 2-Layer Neural
Networks [21.69222364939501]
教師付き学習では、正規化経路はゼロからの勾配降下の最適化経路の便利な理論的プロキシとして用いられることがある。
この経路がカーネルとリッチレジームの間に連続的に補間されていることを示す。
論文 参考訳(メタデータ) (2023-03-31T05:32:11Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - AskewSGD : An Annealed interval-constrained Optimisation method to train
Quantized Neural Networks [12.229154524476405]
我々は、深層ニューラルネットワーク(DNN)を量子化重みでトレーニングするための新しいアルゴリズム、Annealed Skewed SGD - AskewSGDを開発した。
アクティブなセットと実行可能な方向を持つアルゴリズムとは異なり、AskewSGDは実行可能な全セットの下でのプロジェクションや最適化を避けている。
実験結果から,AskewSGDアルゴリズムは古典的ベンチマークの手法と同等以上の性能を示した。
論文 参考訳(メタデータ) (2022-11-07T18:13:44Z) - Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。
この2つの設定の間には自然なシナジーがあることが示されています。
この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文 参考訳(メタデータ) (2021-11-25T19:59:33Z) - Improving the Backpropagation Algorithm with Consequentialism Weight
Updates over Mini-Batches [0.40611352512781856]
適応フィルタのスタックとして多層ニューラルネットワークを考えることが可能であることを示す。
我々は,BPで発生した行動の悪影響を予測し,その発生前にも予測し,よりよいアルゴリズムを導入する。
我々の実験は、ディープニューラルネットワークのトレーニングにおけるアルゴリズムの有用性を示す。
論文 参考訳(メタデータ) (2020-03-11T08:45:36Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。