論文の概要: An Adaptive Memory Multi-Batch L-BFGS Algorithm for Neural Network
Training
- arxiv url: http://arxiv.org/abs/2012.07434v1
- Date: Mon, 14 Dec 2020 11:40:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-08 14:25:40.191765
- Title: An Adaptive Memory Multi-Batch L-BFGS Algorithm for Neural Network
Training
- Title(参考訳): ニューラルネットワーク学習のための適応メモリ多重バッチL-BFGSアルゴリズム
- Authors: Federico Zocco and Se\'an McLoone
- Abstract要約: 近年,大規模なニューラルネットワークトレーニング問題に対して,BFGSアルゴリズムの限られたメモリバージョンが注目されている。
MB-AMと呼ばれるマルチバッチL-BFGSアルゴリズムを提案し,曲率情報に対する信頼度を徐々に高める。
- 参考スコア(独自算出の注目度): 0.951828574518325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motivated by the potential for parallel implementation of batch-based
algorithms and the accelerated convergence achievable with approximated second
order information a limited memory version of the BFGS algorithm has been
receiving increasing attention in recent years for large neural network
training problems. As the shape of the cost function is generally not quadratic
and only becomes approximately quadratic in the vicinity of a minimum, the use
of second order information by L-BFGS can be unreliable during the initial
phase of training, i.e. when far from a minimum. Therefore, to control the
influence of second order information as training progresses, we propose a
multi-batch L-BFGS algorithm, namely MB-AM, that gradually increases its trust
in the curvature information by implementing a progressive storage and use of
curvature data through a development-based increase (dev-increase) scheme.
Using six discriminative modelling benchmark problems we show empirically that
MB-AM has slightly faster convergence and, on average, achieves better
solutions than the standard multi-batch L-BFGS algorithm when training MLP and
CNN models.
- Abstract(参考訳): バッチ型アルゴリズムの並列実装の可能性と、近似された2次情報を持つ高速化された収束能力に動機づけられたbfgsアルゴリズムの限られたメモリバージョンは、近年大規模ニューラルネットワークのトレーニング問題で注目を集めている。
コスト関数の形状は概して2次ではなく、最小の近傍でほぼ2次になるので、L-BFGSによる2次情報の使用は、トレーニングの初期段階、すなわち、信頼できない。
最低限ではありません
そこで,2次情報の影響をトレーニングの進行として制御するために,開発ベースの増減(dev-increase)方式による漸進的記憶と曲率データの活用により,徐々に曲率情報の信頼度を高めるマルチバッチl-bfgsアルゴリズム,mb-amを提案する。
MLPおよびCNNモデルのトレーニングにおいて,6つの識別モデルベンチマーク問題を用いてMB-AMの収束がわずかに速く,平均的に標準マルチバッチL-BFGSアルゴリズムよりも優れた解が得られることを示す。
関連論文リスト
- BADM: Batch ADMM for Deep Learning [35.39258144247444]
勾配降下に基づくアルゴリズムはディープニューラルネットワークのトレーニングに広く用いられているが、しばしば収束が遅い。
我々は、乗算器の交互方向法(ADMM)の枠組みを利用して、バッチADMM(Batch ADMM)と呼ばれる新しいデータ駆動アルゴリズムを開発する。
我々は,グラフモデリング,コンピュータビジョン,画像生成,自然言語処理など,さまざまなディープラーニングタスクにおけるBADMの性能を評価する。
論文 参考訳(メタデータ) (2024-06-30T20:47:15Z) - Provably Efficient Information-Directed Sampling Algorithms for Multi-Agent Reinforcement Learning [50.92957910121088]
本研究は,情報指向サンプリング(IDS)の原理に基づくマルチエージェント強化学習(MARL)のための新しいアルゴリズムの設計と解析を行う。
エピソディックな2プレーヤゼロサムMGに対して、ナッシュ平衡を学習するための3つのサンプル効率アルゴリズムを提案する。
我々は、Reg-MAIDSをマルチプレイヤー汎用MGに拡張し、ナッシュ平衡または粗相関平衡をサンプル効率良く学習できることを証明する。
論文 参考訳(メタデータ) (2024-04-30T06:48:56Z) - mL-BFGS: A Momentum-based L-BFGS for Distributed Large-Scale Neural
Network Optimization [35.08820062020787]
大規模分散ディープニューラルネットワーク(DNN)における準ニュートン法(QN)の道筋を舗装する運動量に基づくL-BFGSアルゴリズムを提案する。
大規模なモデルトレーニングでは、mL-BFGSはブロックワイドのヘシアンを近似し、計算とメモリのコストを全計算に分散させる。
以上の結果から,mL-BFGSはグラデーションワイドとウォールクロックのスピードアップを両立させることがわかった。
論文 参考訳(メタデータ) (2023-07-25T18:03:29Z) - Faster Adaptive Federated Learning [84.38913517122619]
フェデレートラーニングは分散データの出現に伴って注目を集めている。
本稿では,クロスサイロFLにおけるモーメントに基づく分散低減手法に基づく適応アルゴリズム(FAFED)を提案する。
論文 参考訳(メタデータ) (2022-12-02T05:07:50Z) - Learning from Images: Proactive Caching with Parallel Convolutional
Neural Networks [94.85780721466816]
本稿では,プロアクティブキャッシングのための新しいフレームワークを提案する。
モデルベースの最適化とデータ駆動技術を組み合わせて、最適化問題をグレースケールのイメージに変換する。
数値計算の結果,提案手法は71.6%の計算時間を0.8%のコストで削減できることがわかった。
論文 参考訳(メタデータ) (2021-08-15T21:32:47Z) - Dual Optimization for Kolmogorov Model Learning Using Enhanced Gradient
Descent [8.714458129632158]
コルモゴロフモデル(コルモゴロフモデル、英: Kolmogorov model、KM)は、確率変数の集合の基本的な確率構造を学ぶための解釈可能で予測可能な表現手法である。
正規化双対最適化と拡張勾配降下法(GD)を併用した計算スケーラブルなKM学習アルゴリズムを提案する。
提案したKM学習アルゴリズムを用いた論理的関係マイニングの精度は80%以上である。
論文 参考訳(メタデータ) (2021-07-11T10:33:02Z) - JUMBO: Scalable Multi-task Bayesian Optimization using Offline Data [86.8949732640035]
追加データをクエリすることで制限をサイドステップするMBOアルゴリズムであるJUMBOを提案する。
GP-UCBに類似した条件下では, 応答が得られないことを示す。
実世界の2つの最適化問題に対する既存手法に対する性能改善を実証的に示す。
論文 参考訳(メタデータ) (2021-06-02T05:03:38Z) - Covariance-Free Sparse Bayesian Learning [62.24008859844098]
共分散行列の明示的な反転を回避する新しいSBL推論アルゴリズムを導入する。
私たちの手法は、既存のベースラインよりも数千倍も高速です。
我々は,SBLが高次元信号回復問題に難なく対処できる新しいアルゴリズムについて紹介する。
論文 参考訳(メタデータ) (2021-05-21T16:20:07Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - Block Layer Decomposition schemes for training Deep Neural Networks [0.0]
ディープフィードフォワードネットワーク(DFNN)の重み付け推定は、多くの局所的(グローバルではない)最小化器、サドル点、および大きな台地を持つ非常に大きな非コーディネート最適化問題に依存する。
その結果、最適化アルゴリズムは、悪い解決策につながる可能性があるか、最適化プロセスを遅くすることができるローカルな最小化器に惹きつけることができる。
論文 参考訳(メタデータ) (2020-03-18T09:53:40Z) - Federated Matrix Factorization: Algorithm Design and Application to Data
Clustering [18.917444528804463]
データプライバシに関する近年の要求は、大規模で異種ネットワークにおける新たな分散学習パラダイムとして、フェデレートラーニング(FL)を提唱している。
我々は,モデル平均化と勾配共有原理に基づく2つの新しいFedMFアルゴリズム,すなわちFedMAvgとFedMGSを提案する。
論文 参考訳(メタデータ) (2020-02-12T11:48:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。