Fugu-MT 論文翻訳(概要): A Clipped Trip: the Dynamics of SGD with Gradient Clipping in High-Dimensions

論文の概要: A Clipped Trip: the Dynamics of SGD with Gradient Clipping in High-Dimensions

arxiv url: http://arxiv.org/abs/2406.11733v1
Date: Mon, 17 Jun 2024 16:50:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-18 13:43:30.057829
Title: A Clipped Trip: the Dynamics of SGD with Gradient Clipping in High-Dimensions
Title（参考訳）: クラップトリップ:高寸法のグラディエントクリッピングによるSGDのダイナミクス
Authors: Noah Marshall, Ke Liang Xiao, Atish Agarwala, Elliot Paquette,
Abstract要約: 本研究では,大次元内在型モデルとデータセット依存型次元概念の極限における学習力学の理論的解析を開発する。ガウスノイズクリッピングではSGD性能が向上しないことを示す。他のノイズの多い設定では、クリップングしきい値のチューニングにメリットがある。
参考スコア（独自算出の注目度）: 6.653325043862049
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The success of modern machine learning is due in part to the adaptive optimization methods that have been developed to deal with the difficulties of training large models over complex datasets. One such method is gradient clipping: a practical procedure with limited theoretical underpinnings. In this work, we study clipping in a least squares problem under streaming SGD. We develop a theoretical analysis of the learning dynamics in the limit of large intrinsic dimension-a model and dataset dependent notion of dimensionality. In this limit we find a deterministic equation that describes the evolution of the loss. We show that with Gaussian noise clipping cannot improve SGD performance. Yet, in other noisy settings, clipping can provide benefits with tuning of the clipping threshold. In these cases, clipping biases updates in a way beneficial to training which cannot be recovered by SGD under any schedule. We conclude with a discussion about the links between high-dimensional clipping and neural network training.
Abstract（参考訳）: 現代の機械学習の成功は、部分的には、複雑なデータセットよりも大規模なモデルを訓練することの難しさに対処するために開発された適応最適化手法に起因している。そのような方法の1つは勾配クリッピングであり、理論的な基盤を限定した実践的な方法である。本研究では,ストリーミングSGDにおいて,少なくとも2乗問題におけるクリッピングについて検討する。我々は,大規模内在次元モデルとデータセット依存次元の概念の限界における学習力学の理論的解析を開発する。この極限では、損失の進化を記述する決定論的方程式が見つかる。ガウスノイズクリッピングではSGD性能が向上しないことを示す。しかし、他のノイズの多い設定では、クリップングしきい値のチューニングによって、クリッピングがメリットをもたらす可能性がある。このような場合、クリップングバイアスは、任意のスケジュール下でSGDによって回復できないトレーニングに役立つ方法で更新される。本稿では,高次元クリッピングとニューラルネットワークトレーニングの関連性について論じる。

関連論文リスト

Gradient Descent as a Perceptron Algorithm: Understanding Dynamics and Implicit Acceleration [67.12978375116599]
勾配降下(GD)のステップが一般化されたパーセプトロンアルゴリズムのステップに還元されることを示す。これは、ニューラルネットワークで観測される最適化力学と暗黙の加速現象を説明するのに役立つ。
論文参考訳（メタデータ） (2025-12-12T14:16:35Z)
Gradient Descent with Provably Tuned Learning-rate Schedules [14.391648046717073]
そこで我々は,勾配に基づくアルゴリズムにおいて,因子を確実にチューニングするための新しい解析ツールを開発した。我々の分析は、一般的に使用される活性化関数を持つニューラルネットワークに適用される。
論文参考訳（メタデータ） (2025-12-04T18:49:58Z)
Noise Hypernetworks: Amortizing Test-Time Compute in Diffusion Models [57.49136894315871]
テストタイムスケーリングの新しいパラダイムは、推論モデルと生成視覚モデルにおいて驚くべきブレークスルーをもたらした。本稿では,テスト時間スケーリングの知識をモデルに組み込むことの課題に対する1つの解決策を提案する。拡散モデルにおいて、初期入力ノイズを変調するノイズハイパーネットワークにより、報酬誘導試験時間雑音の最適化を行う。
論文参考訳（メタデータ） (2025-08-13T17:33:37Z)
Scaling Collapse Reveals Universal Dynamics in Compute-Optimally Trained Neural Networks [59.552873049024775]
計算最適化モデルでは, 極めて高精度な普遍性を示すことを示す。学習速度が減衰すると、崩壊は非常に厳しくなり、モデル間の正規化曲線の差はノイズフロアより下になる。これらの現象は、典型的なニューラルスケーリング法則において、崩壊とパワー・ロー構造を結びつけることによって説明される。
論文参考訳（メタデータ） (2025-07-02T20:03:34Z)
TensorGRaD: Tensor Gradient Robust Decomposition for Memory-Efficient Neural Operator Training [91.8932638236073]
textbfTensorGRaDは,重み付けに伴うメモリ問題に直接対処する新しい手法である。 SparseGRaD は総メモリ使用量を 50% 以上削減し,同時に精度も向上することを示した。
論文参考訳（メタデータ） (2025-01-04T20:51:51Z)
On the Convergence of DP-SGD with Adaptive Clipping [56.24689348875711]
勾配クリッピングによるグラディエントDescentは、微分プライベート最適化を実現するための強力な技術である。本稿では,量子クリッピング(QC-SGD)を用いたSGDの総合収束解析について述べる。本稿では,QC-SGDが一定閾値クリッピングSGDに類似したバイアス問題にどのように悩まされているかを示す。
論文参考訳（メタデータ） (2024-12-27T20:29:47Z)
On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文参考訳（メタデータ） (2023-12-13T02:11:07Z)
Flatter, faster: scaling momentum for optimal speedup of SGD [0.0]
ニューラルネットワークのトレーニングにおいて、勾配降下(SGD)とラベルノイズと運動量との相互作用から生じるトレーニングダイナミクスについて検討した。運動量ハイパーパラメータ1-NISTbeta$を学習率で2/3$にスケーリングすると、一般化を犠牲にすることなく、最大で2/3$のトレーニングが加速することがわかった。
論文参考訳（メタデータ） (2022-10-28T20:41:48Z)
Non-linear manifold ROM with Convolutional Autoencoders and Reduced Over-Collocation method [0.0]
非アフィンパラメトリックな依存、非線形性、興味のモデルにおける対流支配的な規則は、ゆっくりとしたコルモゴロフ n-幅の崩壊をもたらす。我々は,Carlbergらによって導入された非線形多様体法を,オーバーコロケーションの削減とデコーダの教師/学生による学習により実現した。本研究では,2次元非線形保存法と2次元浅水モデルを用いて方法論を検証し,時間とともに動的に進化する純粋データ駆動型手法と長期記憶ネットワークとの比較を行った。
論文参考訳（メタデータ） (2022-03-01T11:16:50Z)
Direction Matters: On the Implicit Bias of Stochastic Gradient Descent with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。 SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文参考訳（メタデータ） (2020-11-04T21:07:52Z)
Improved Analysis of Clipping Algorithms for Non-convex Optimization [19.507750439784605]
最近、citetzhang 2019gradient show that clipped (stochastic) Gradient Descent (GD) converges faster than vanilla GD/SGD。実験は、深層学習におけるクリッピングに基づく手法の優位性を確認する。
論文参考訳（メタデータ） (2020-10-05T14:36:59Z)
Perceptron Synthesis Network: Rethinking the Action Scale Variances in Videos [48.57686258913474]
ビデオアクション認識は、固定サイズの3Dカーネルを積み重ねたCNNによって部分的に解決されている。データから最適なスケールのカーネルを学習することを提案する。固定サイズのカーネルの袋からカーネルを生成するために,テキスト分割パーセプトロンシンセサイザーを提案する。
論文参考訳（メタデータ） (2020-07-22T14:22:29Z)
Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文参考訳（メタデータ） (2020-06-16T13:41:54Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)
Belief Propagation Reloaded: Learning BP-Layers for Labeling Problems [83.98774574197613]
最も単純な推論手法の1つとして、切り詰められた最大積のBelief伝播を取り上げ、それをディープラーニングモデルの適切なコンポーネントにするために必要となるものを加えます。このBP-Layerは畳み込みニューラルネットワーク(CNN)の最終ブロックまたは中間ブロックとして使用できるこのモデルは様々な密集予測問題に適用可能であり、パラメータ効率が高く、ステレオ、光フロー、セマンティックセグメンテーションにおける堅牢な解を提供する。
論文参考訳（メタデータ） (2020-03-13T13:11:35Z)
Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文参考訳（メタデータ） (2020-02-21T05:00:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。