論文の概要: A Solver + Gradient Descent Training Algorithm for Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2207.03264v1
- Date: Thu, 7 Jul 2022 12:35:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-08 21:51:14.299166
- Title: A Solver + Gradient Descent Training Algorithm for Deep Neural Networks
- Title(参考訳): ディープニューラルネットワークのためのソルバ+勾配降下訓練アルゴリズム
- Authors: Dhananjay Ashok, Vineel Nagisetty, Christopher Srinivasa and Vijay
Ganesh
- Abstract要約: 本稿では、最先端のグラディエント・ディフレッシュ(GD)法とMILP(Mixed Linear Programming)解法を組み合わせた、Deep Neural Networksを訓練するための新しいハイブリッドアルゴリズムを提案する。
我々のGD+rハイブリッドアルゴリズムはGDrと呼ばれ、入力として$D$を与えられたとき、GDrはGDを呼び出し、ローカルのミニマに収まるまで部分的に$D$を訓練する。
回帰タスクでは、GDrは平均して48%の時間でMSEが31.5%低いモデルを作成し、分類タスクでは、GDrは全ての競合よりも高い精度を達成することができた。
- 参考スコア(独自算出の注目度): 13.54997712245495
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a novel hybrid algorithm for training Deep Neural Networks that
combines the state-of-the-art Gradient Descent (GD) method with a Mixed Integer
Linear Programming (MILP) solver, outperforming GD and variants in terms of
accuracy, as well as resource and data efficiency for both regression and
classification tasks. Our GD+Solver hybrid algorithm, called GDSolver, works as
follows: given a DNN $D$ as input, GDSolver invokes GD to partially train $D$
until it gets stuck in a local minima, at which point GDSolver invokes an MILP
solver to exhaustively search a region of the loss landscape around the weight
assignments of $D$'s final layer parameters with the goal of tunnelling through
and escaping the local minima. The process is repeated until desired accuracy
is achieved. In our experiments, we find that GDSolver not only scales well to
additional data and very large model sizes, but also outperforms all other
competing methods in terms of rates of convergence and data efficiency. For
regression tasks, GDSolver produced models that, on average, had 31.5% lower
MSE in 48% less time, and for classification tasks on MNIST and CIFAR10,
GDSolver was able to achieve the highest accuracy over all competing methods,
using only 50% of the training data that GD baselines required.
- Abstract(参考訳): 本稿では,最先端勾配降下法 (gd) 法と混合整数線形計画法 (milp) を組み合わせた深層ニューラルネットワークの学習のための新しいハイブリッドアルゴリズムを提案する。
我々のGD+SolverハイブリッドアルゴリズムはGDSolverと呼ばれ、入力としてDNN$D$を与えられたとき、GDSolverはGDを呼び出し、ローカルのミニマに収まるまでD$を部分的に訓練する。
所望の精度に達するまでプロセスを繰り返します。
我々の実験では、GDSolverは追加データや非常に大きなモデルサイズにスケールするだけでなく、収束率やデータ効率の点で競合する他の手法よりも優れています。
回帰タスクでは、GDSolverは平均して48%の時間でMSEが31.5%低下し、MNISTとCIFAR10の分類タスクではGDSolverはGDベースラインに必要なトレーニングデータの50%しか必要とせず、全ての競合する手法よりも高い精度を達成できた。
関連論文リスト
- Communication-Efficient Adam-Type Algorithms for Distributed Data Mining [93.50424502011626]
我々はスケッチを利用した新しい分散Adam型アルゴリズムのクラス(例:SketchedAMSGrad)を提案する。
我々の新しいアルゴリズムは、反復毎に$O(frac1sqrtnT + frac1(k/d)2 T)$の高速収束率を$O(k log(d))$の通信コストで達成する。
論文 参考訳(メタデータ) (2022-10-14T01:42:05Z) - Meta-learning for Out-of-Distribution Detection via Density Estimation
in Latent Space [40.58524521473793]
そこで本研究では,OoD を目標タスク内の小さな分布データで検出する,シンプルで効果的なメタ学習手法を提案する。
すべてのタスク間で共有されるニューラルネットワークは、元の空間のインスタンスを潜在空間に柔軟にマッピングするために使用される。
6つのデータセットを用いた実験において,提案手法は既存のメタラーニング法やOoD検出法よりも優れた性能が得られることを示した。
論文 参考訳(メタデータ) (2022-06-20T02:44:42Z) - Effective Model Sparsification by Scheduled Grow-and-Prune Methods [73.03533268740605]
本稿では,高密度モデルの事前学習を伴わない新規なGrow-and-prune(GaP)手法を提案する。
実験により、そのようなモデルは様々なタスクにおいて80%の間隔で高度に最適化された高密度モデルの品質に適合または打ち勝つことができることが示された。
論文 参考訳(メタデータ) (2021-06-18T01:03:13Z) - Partitioning sparse deep neural networks for scalable training and
inference [8.282177703075453]
最先端のディープニューラルネットワーク(DNN)には、計算とデータ管理の大幅な要件がある。
スパシフィケーション法とプルーニング法は,DNNの大量の接続を除去するのに有効であることが示されている。
その結果得られたスパースネットワークは、ディープラーニングにおけるトレーニングと推論の計算効率をさらに向上するためのユニークな課題を提示する。
論文 参考訳(メタデータ) (2021-04-23T20:05:52Z) - Research of Damped Newton Stochastic Gradient Descent Method for Neural
Network Training [6.231508838034926]
勾配降下(SGD)のような一階法は、最近ディープニューラルネットワーク(DNN)を訓練するための一般的な最適化方法です。
本稿では、平均二乗誤差(MSE)の回帰問題とクロスエントロピー損失(CEL)の分類問題に対するDNNの訓練方法として、DN-SGD(Damped Newton Descent)とGGD-DN(Gradient Descent Damped Newton)を提案する。
提案手法はパラメータのごく一部を正確に計算し,計算コストを大幅に削減し,sgdよりも高速かつ高精度な学習プロセスを実現する。
論文 参考訳(メタデータ) (2021-03-31T02:07:18Z) - Exploiting Adam-like Optimization Algorithms to Improve the Performance
of Convolutional Neural Networks [82.61182037130405]
勾配降下(SGD)は深いネットワークを訓練するための主要なアプローチです。
本研究では,現在と過去の勾配の違いに基づいて,Adamに基づく変分を比較する。
resnet50を勾配降下訓練したネットワークのアンサンブルと融合実験を行った。
論文 参考訳(メタデータ) (2021-03-26T18:55:08Z) - Human Body Model Fitting by Learned Gradient Descent [48.79414884222403]
画像に3次元の人体形状を適合させる新しいアルゴリズムを提案する。
このアルゴリズムは高速(約120ms収束)で、データセットに頑健であり、公開評価データセットの最先端結果が得られることを示す。
論文 参考訳(メタデータ) (2020-08-19T14:26:47Z) - Learning Low-rank Deep Neural Networks via Singular Vector Orthogonality
Regularization and Singular Value Sparsification [53.50708351813565]
各ステップにSVDを適用することなく、トレーニング中に低ランクDNNを明示的に達成する最初の方法であるSVDトレーニングを提案する。
SVDトレーニングがDNN層のランクを著しく低減し,同じ精度で計算負荷の低減を実現することを実証的に示す。
論文 参考訳(メタデータ) (2020-04-20T02:40:43Z) - On the Global Convergence of Training Deep Linear ResNets [104.76256863926629]
我々は、$L$-hidden-layer linear residual network(ResNets)のトレーニングのための勾配降下(GD)と勾配降下(SGD)の収束について検討する。
入力層と出力層で一定の線形変換を施したディープ残差ネットワークのトレーニングを行う場合,GDとSGDは共に,トレーニング損失の最小限に収束できることを示す。
論文 参考訳(メタデータ) (2020-03-02T18:34:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。