論文の概要: Resolving learning rates adaptively by locating Stochastic Non-Negative
Associated Gradient Projection Points using line searches
- arxiv url: http://arxiv.org/abs/2001.05113v1
- Date: Wed, 15 Jan 2020 03:08:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 06:05:17.724805
- Title: Resolving learning rates adaptively by locating Stochastic Non-Negative
Associated Gradient Projection Points using line searches
- Title(参考訳): 線探索を用いた確率的非負関連勾配投影点の探索による学習率の適応化
- Authors: Dominic Kafka and Daniel N. Wilke
- Abstract要約: ニューラルネットワークトレーニングにおける学習率は現在、高価なマニュアルや自動チューニングを使用したトレーニングの優先事項として決定されている。
本研究では,ニューラルネットワーク学習アルゴリズムの学習率を解くために,勾配のみの線探索を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning rates in stochastic neural network training are currently determined
a priori to training, using expensive manual or automated iterative tuning.
This study proposes gradient-only line searches to resolve the learning rate
for neural network training algorithms. Stochastic sub-sampling during training
decreases computational cost and allows the optimization algorithms to progress
over local minima. However, it also results in discontinuous cost functions.
Minimization line searches are not effective in this context, as they use a
vanishing derivative (first order optimality condition), which often do not
exist in a discontinuous cost function and therefore converge to
discontinuities as opposed to minima from the data trends. Instead, we base
candidate solutions along a search direction purely on gradient information, in
particular by a directional derivative sign change from negative to positive (a
Non-negative Associative Gradient Projection Point (NN- GPP)). Only considering
a sign change from negative to positive always indicates a minimum, thus
NN-GPPs contain second order information. Conversely, a vanishing gradient is
purely a first order condition, which may indicate a minimum, maximum or saddle
point. This insight allows the learning rate of an algorithm to be reliably
resolved as the step size along a search direction, increasing convergence
performance and eliminating an otherwise expensive hyperparameter.
- Abstract(参考訳): 確率的ニューラルネットワークトレーニングの学習速度は現在、高価な手動または自動反復チューニングを使用して、トレーニングに先立って決定される。
本研究では,ニューラルネットワーク学習アルゴリズムの学習率を解くために,勾配のみの線探索を提案する。
トレーニング中の確率的なサブサンプリングは計算コストを削減し、最適化アルゴリズムを局所的なミニマを超えて前進させることができる。
しかし、それはまた不連続なコスト関数をもたらす。
最小化線探索はこの文脈では有効ではなく、不連続なコスト関数に存在しない不連続な微分(第一次最適条件)を使い、従ってデータトレンドの最小化とは対照的に不連続性に収束する。
代わりに、探索方向に沿った候補解を純粋に勾配情報に基づいており、特に、方向微分符号が負から正に変化する(非負の連想勾配射影点(NN-GPP))。
負から正への符号変更を考慮すれば、常に最小となるため、nn-gppsは第2次情報を含む。
逆に、消失勾配は純粋に第一次条件であり、最小、最大、または鞍点を示す。
この洞察により、探索方向に沿ったステップサイズとしてアルゴリズムの学習率が確実に解決され、収束性能が向上し、その他の高価なハイパーパラメータを排除できる。
関連論文リスト
- Efficient line search for optimizing Area Under the ROC Curve in gradient descent [2.094821665776961]
偽陰性率と偽陰性率のAUM(Area Under Min)の分別線形/定数特性について検討した。
降下段階毎に最適な学習率を選択するための,新しい効率的な経路追従アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-11T08:59:06Z) - An Accelerated Algorithm for Stochastic Bilevel Optimization under Unbounded Smoothness [15.656614304616006]
本稿では,上層関数が非非有界な滑らかさであり,下層関数が強く凸であるような二層最適化問題のクラスについて検討する。
これらの問題は、ニューラルネットワークを用いたテキスト分類など、データ学習に大きな応用がある。
論文 参考訳(メタデータ) (2024-09-28T02:30:44Z) - A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - Ordering for Non-Replacement SGD [7.11967773739707]
我々は,アルゴリズムの非置換形式に対する収束率を改善する順序付けを求める。
我々は,強い凸関数と凸関数のステップサイズを一定かつ小さくするための最適順序付けを開発する。
さらに、注文とミニバッチを組み合わせることで、より複雑なニューラルネットワークにも適用できます。
論文 参考訳(メタデータ) (2023-06-28T00:46:58Z) - Unsupervised Learning of Initialization in Deep Neural Networks via
Maximum Mean Discrepancy [74.34895342081407]
本稿では,入力データに対する優れた初期化を求めるための教師なしアルゴリズムを提案する。
まず、パラメータ空間における各パラメータ構成が、d-way分類の特定の下流タスクに対応することに気付く。
次に、学習の成功は、初期パラメータの近傍で下流タスクがいかに多様であるかに直接関連していると推測する。
論文 参考訳(メタデータ) (2023-02-08T23:23:28Z) - Sequential Gradient Descent and Quasi-Newton's Method for Change-Point
Analysis [0.348097307252416]
変更点を検出するための一般的なアプローチは、変更点の数と位置に関するコスト関数を最小化することである。
本稿では, 勾配降下法 (SeGD) と準ニュートン法 (SeN) とを結合し, コストを効果的に求める新しいシーケンシャル手法 (SE) を提案する。
論文 参考訳(メタデータ) (2022-10-21T20:30:26Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Online estimation and control with optimal pathlength regret [52.28457815067461]
オンライン学習アルゴリズムを設計する際の自然なゴールは、入力シーケンスの時間的変動の観点から、アルゴリズムの後悔を束縛することである。
OCOや盗賊など、さまざまなオンライン学習問題に対して、データ依存の「病的」後悔境界が最近取得されている。
論文 参考訳(メタデータ) (2021-10-24T22:43:15Z) - Learning Frequency Domain Approximation for Binary Neural Networks [68.79904499480025]
フーリエ周波数領域における符号関数の勾配を正弦関数の組み合わせを用いて推定し,BNNの訓練を行う。
いくつかのベンチマークデータセットとニューラルネットワークの実験により、この手法で学習したバイナリネットワークが最先端の精度を達成することが示されている。
論文 参考訳(メタデータ) (2021-03-01T08:25:26Z) - Convergence rates for gradient descent in the training of
overparameterized artificial neural networks with biases [3.198144010381572]
近年、人工ニューラルネットワークは、古典的なソリューションが近づいている多数の問題に対処するための強力なツールに発展しています。
ランダムな勾配降下アルゴリズムが限界に達する理由はまだ不明である。
論文 参考訳(メタデータ) (2021-02-23T18:17:47Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。