論文の概要: To Clip or not to Clip: the Dynamics of SGD with Gradient Clipping in High-Dimensions
- arxiv url: http://arxiv.org/abs/2406.11733v2
- Date: Sun, 06 Oct 2024 18:51:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 18:00:07.995923
- Title: To Clip or not to Clip: the Dynamics of SGD with Gradient Clipping in High-Dimensions
- Title(参考訳): クリップするかどうか:高次元のグラディエント・クリップによるSGDのダイナミクス
- Authors: Noah Marshall, Ke Liang Xiao, Atish Agarwala, Elliot Paquette,
- Abstract要約: ストリーミングSGDにおける最小二乗問題における勾配クリッピングについて検討した。
ガウスノイズクリッピングではSGD性能が向上しないことを示す。
クリッピングしきい値のほぼ最適なスケジューリング法を提案する。
- 参考スコア(独自算出の注目度): 6.653325043862049
- License:
- Abstract: The success of modern machine learning is due in part to the adaptive optimization methods that have been developed to deal with the difficulties of training large models over complex datasets. One such method is gradient clipping: a practical procedure with limited theoretical underpinnings. In this work, we study clipping in a least squares problem under streaming SGD. We develop a theoretical analysis of the learning dynamics in the limit of large intrinsic dimension-a model and dataset dependent notion of dimensionality. In this limit we find a deterministic equation that describes the evolution of the loss and demonstrate that this equation predicts the path of clipped SGD on synthetic, CIFAR10, and Wikitext2 data. We show that with Gaussian noise clipping cannot improve SGD performance. Yet, in other noisy settings, clipping can provide benefits with tuning of the clipping threshold. We propose a simple heuristic for near optimal scheduling of the clipping threshold which requires the tuning of only one hyperparameter. We conclude with a discussion about the links between high-dimensional clipping and neural network training.
- Abstract(参考訳): 現代の機械学習の成功は、部分的には、複雑なデータセットよりも大規模なモデルを訓練することの難しさに対処するために開発された適応最適化手法に起因している。
そのような方法の1つは勾配クリッピングであり、理論的な基盤を限定した実践的な方法である。
本研究では,ストリーミングSGDにおいて,少なくとも2乗問題におけるクリッピングについて検討する。
我々は,大規模内在次元モデルとデータセット依存次元の概念の限界における学習力学の理論的解析を開発する。
この限界において、損失の進化を記述した決定論的方程式を見つけ、この方程式が合成、CIFAR10、Wikitext2データ上で切断されたSGDの経路を予測することを示す。
ガウスノイズクリッピングではSGD性能が向上しないことを示す。
しかし、他のノイズの多い設定では、クリップングしきい値のチューニングによって、クリッピングがメリットをもたらす可能性がある。
本稿では,1つのハイパーパラメータのみのチューニングを必要とするクリッピングしきい値の近似的最適スケジューリングのための簡単なヒューリスティックを提案する。
本稿では,高次元クリッピングとニューラルネットワークトレーニングの関連性について論じる。
関連論文リスト
- On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Flatter, faster: scaling momentum for optimal speedup of SGD [0.0]
ニューラルネットワークのトレーニングにおいて、勾配降下(SGD)とラベルノイズと運動量との相互作用から生じるトレーニングダイナミクスについて検討した。
運動量ハイパーパラメータ1-NISTbeta$を学習率で2/3$にスケーリングすると、一般化を犠牲にすることなく、最大で2/3$のトレーニングが加速することがわかった。
論文 参考訳(メタデータ) (2022-10-28T20:41:48Z) - Non-linear manifold ROM with Convolutional Autoencoders and Reduced
Over-Collocation method [0.0]
非アフィンパラメトリックな依存、非線形性、興味のモデルにおける対流支配的な規則は、ゆっくりとしたコルモゴロフ n-幅の崩壊をもたらす。
我々は,Carlbergらによって導入された非線形多様体法を,オーバーコロケーションの削減とデコーダの教師/学生による学習により実現した。
本研究では,2次元非線形保存法と2次元浅水モデルを用いて方法論を検証し,時間とともに動的に進化する純粋データ駆動型手法と長期記憶ネットワークとの比較を行った。
論文 参考訳(メタデータ) (2022-03-01T11:16:50Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Improved Analysis of Clipping Algorithms for Non-convex Optimization [19.507750439784605]
最近、citetzhang 2019gradient show that clipped (stochastic) Gradient Descent (GD) converges faster than vanilla GD/SGD。
実験は、深層学習におけるクリッピングに基づく手法の優位性を確認する。
論文 参考訳(メタデータ) (2020-10-05T14:36:59Z) - Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。
一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。
本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文 参考訳(メタデータ) (2020-06-16T13:41:54Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Belief Propagation Reloaded: Learning BP-Layers for Labeling Problems [83.98774574197613]
最も単純な推論手法の1つとして、切り詰められた最大積のBelief伝播を取り上げ、それをディープラーニングモデルの適切なコンポーネントにするために必要となるものを加えます。
このBP-Layerは畳み込みニューラルネットワーク(CNN)の最終ブロックまたは中間ブロックとして使用できる
このモデルは様々な密集予測問題に適用可能であり、パラメータ効率が高く、ステレオ、光フロー、セマンティックセグメンテーションにおける堅牢な解を提供する。
論文 参考訳(メタデータ) (2020-03-13T13:11:35Z) - Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。
これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。
この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-02-21T05:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。