論文の概要: A block coordinate descent optimizer for classification problems
exploiting convexity
- arxiv url: http://arxiv.org/abs/2006.10123v1
- Date: Wed, 17 Jun 2020 19:49:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 19:51:06.986118
- Title: A block coordinate descent optimizer for classification problems
exploiting convexity
- Title(参考訳): 凸性を利用した分類問題に対するブロック座標降下最適化器
- Authors: Ravi G. Patel, Nathaniel A. Trask, Mamikon A. Gulian, Eric C. Cyr
- Abstract要約: 隠れ層の重み付けにおけるクロスエントロピー損失の凸性を利用した分類タスクのためのディープ線形ネットワークに座標降下法を導入する。
線形層に対する大域的最適パラメータと隠蔽層への勾配勾配を求める2次法とを交互に組み合わせることで、トレーニング全体を通してデータに対する適応基底の最適適合性を確保する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Second-order optimizers hold intriguing potential for deep learning, but
suffer from increased cost and sensitivity to the non-convexity of the loss
surface as compared to gradient-based approaches. We introduce a coordinate
descent method to train deep neural networks for classification tasks that
exploits global convexity of the cross-entropy loss in the weights of the
linear layer. Our hybrid Newton/Gradient Descent (NGD) method is consistent
with the interpretation of hidden layers as providing an adaptive basis and the
linear layer as providing an optimal fit of the basis to data. By alternating
between a second-order method to find globally optimal parameters for the
linear layer and gradient descent to train the hidden layers, we ensure an
optimal fit of the adaptive basis to data throughout training. The size of the
Hessian in the second-order step scales only with the number weights in the
linear layer and not the depth and width of the hidden layers; furthermore, the
approach is applicable to arbitrary hidden layer architecture. Previous work
applying this adaptive basis perspective to regression problems demonstrated
significant improvements in accuracy at reduced training cost, and this work
can be viewed as an extension of this approach to classification problems. We
first prove that the resulting Hessian matrix is symmetric semi-definite, and
that the Newton step realizes a global minimizer. By studying classification of
manufactured two-dimensional point cloud data, we demonstrate both an
improvement in validation error and a striking qualitative difference in the
basis functions encoded in the hidden layer when trained using NGD. Application
to image classification benchmarks for both dense and convolutional
architectures reveals improved training accuracy, suggesting possible gains of
second-order methods over gradient descent.
- Abstract(参考訳): 2階オプティマイザはディープラーニングの興味深い可能性を持っているが、勾配ベースのアプローチに比べて損失面の非凸性に対するコストと感度が上昇する。
本稿では,線形層の重みにおけるクロスエントロピー損失の大域的凸性を利用して,ディープニューラルネットワークを学習するための座標降下法を提案する。
ハイブリッドニュートン/勾配降下法 (ngd) は, 適応基底と線形層をデータに最適な適合性を与えるものとして, 隠れ層を解釈することと一致している。
線形層に対する大域的最適パラメータを求める二階法と隠蔽層を訓練する勾配降下法とを交互に組み合わせることで、トレーニング全体を通してデータに対する適応基底の最適適合性を確保する。
第2次ステップにおけるヘッシアンのサイズは、線形層内の数重みにのみスケールし、隠れ層の深さと幅ではなく、任意の隠れ層アーキテクチャに適用できる。
この適応的ベースパースペクティブを回帰問題に適用した以前の研究は、トレーニングコストの削減による精度の大幅な向上を示し、この手法を分類問題への拡張と見なすことができる。
まず、結果のヘッセン行列が対称半定値であること、ニュートンステップが大域的最小化を実現することを証明する。
製造した2次元点クラウドデータの分類を検討した結果, ngdを用いた学習において, 検証誤差の改善と, 隠れ層に符号化された基本関数の質的差異が明らかとなった。
画像分類ベンチマークへの高密度および畳み込みアーキテクチャの適用により、トレーニング精度が向上し、勾配勾配よりも2階法が向上する可能性が示唆された。
関連論文リスト
- Gradient-Variation Online Learning under Generalized Smoothness [56.38427425920781]
勾配変分オンライン学習は、オンライン関数の勾配の変化とともにスケールする後悔の保証を達成することを目的としている。
ニューラルネットワーク最適化における最近の取り組みは、一般化された滑らかさ条件を示唆し、滑らかさは勾配ノルムと相関する。
ゲームにおける高速収束と拡張逆最適化への応用について述べる。
論文 参考訳(メタデータ) (2024-08-17T02:22:08Z) - Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - Neural Gradient Learning and Optimization for Oriented Point Normal
Estimation [53.611206368815125]
本研究では,3次元点雲から勾配ベクトルを一貫した向きで学習し,正規推定を行うためのディープラーニング手法を提案する。
局所平面幾何に基づいて角距離場を学習し、粗勾配ベクトルを洗練する。
本手法は,局所特徴記述の精度と能力の一般化を図りながら,グローバル勾配近似を効率的に行う。
論文 参考訳(メタデータ) (2023-09-17T08:35:11Z) - Layer-wise Adaptive Step-Sizes for Stochastic First-Order Methods for
Deep Learning [8.173034693197351]
深層学習における一階最適化のための新しい階層ごとの適応的なステップサイズ手順を提案する。
提案手法は,ディープニューラルネットワーク(DNN)におけるヘシアン対角ブロックに含まれる層次曲率情報を用いて,各層に対する適応的なステップサイズ(LR)を算出する。
数値実験により、SGDの運動量とAdamWと、提案した層ごとのステップサイズを組み合わせることで、効率的なLRスケジュールを選択できることが示されている。
論文 参考訳(メタデータ) (2023-05-23T04:12:55Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Cogradient Descent for Dependable Learning [64.02052988844301]
双線形最適化問題に対処するために,CoGDアルゴリズムに基づく信頼度の高い学習法を提案する。
CoGDは、ある変数がスパーシティ制約を持つ場合の双線形問題を解くために導入された。
また、特徴と重みの関連を分解するためにも使用できるため、畳み込みニューラルネットワーク(CNN)をより良く訓練するための我々の手法をさらに一般化することができる。
論文 参考訳(メタデータ) (2021-06-20T04:28:20Z) - Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。
一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。
本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文 参考訳(メタデータ) (2020-06-16T13:41:54Z) - The duality structure gradient descent algorithm: analysis and applications to neural networks [0.0]
本稿では,非漸近的性能解析に寄与する双対構造勾配降下法(DSGD)を提案する。
いくつかのニューラルネットワークトレーニングシナリオにおいて,DSGDの動作を実証的に示す。
論文 参考訳(メタデータ) (2017-08-01T21:24:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。