論文の概要: Robust and Fast Training via Per-Sample Clipping
- arxiv url: http://arxiv.org/abs/2605.02701v1
- Date: Mon, 04 May 2026 15:11:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.358264
- Title: Robust and Fast Training via Per-Sample Clipping
- Title(参考訳): パーサンプルクリッピングによるロバストと高速トレーニング
- Authors: Davide Nobile, Philipp Grohs,
- Abstract要約: 我々は,PS-Clip--SGDがSGDよりも運動量や勾配の蓄積に優れることを示す。
この発見は、切断が完了した後だけに行われる一般的な慣習とは矛盾する。
- 参考スコア(独自算出の注目度): 3.4519796338615225
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a robust gradient estimator based on per-sample gradient clipping and analyze its properties both theoretically and empirically. We show that the resulting method, per-sample clipped SGD (PS-Clip-SGD), achieves optimal in-expectation convergence rates for non-convex optimization problems under heavy-tailed gradient noise. Moreover, we establish high-probability convergence guarantees that match the in-expectation rates up to polylogarithmic factors in the failure probability. We complement our theoretical results with multiple numerical experiments. In particular, we demonstrate that PS-Clip-SGD outperforms both vanilla SGD with momentum and standard gradient clipping when training AlexNet on the CIFAR-100 dataset, even after accounting for the additional computational time caused by per-sample clipping. We also empirically show that, in the presence of gradient accumulation, applying clipping at the mini-batch level can improve training performance while incurring virtually no additional computational cost. This finding is particularly interesting, as it contradicts the common practice of applying clipping only after all accumulation steps have been completed.
- Abstract(参考訳): サンプルごとの勾配クリッピングに基づく頑健な勾配推定器を提案し,その特性を理論的・実験的に解析する。
その結果, 重み付き勾配雑音下での非凸最適化問題に対して, SGD (PS-Clip-SGD) が最適であることを示す。
さらに、予測できない確率と失敗確率の多対数因子との一致を保証し、高い確率収束性を確立する。
複数の数値実験で理論結果を補完する。
特に,PS-Clip-SGDは,サンプルごとのクリッピングによる計算時間の増加を考慮しても,CIFAR-100データセット上でAlexNetをトレーニングする際に,モメンタと標準勾配クリッピングの両方でバニラSGDより優れていることを示す。
また, 勾配の蓄積が存在する場合, クリッピングをミニバッチレベルで適用すれば, ほぼ計算コストの増大を伴わず, トレーニング性能が向上することを示した。
この発見は、すべての累積ステップが完了した後にのみクリッピングを適用するという一般的な慣習と矛盾するため、特に興味深い。
関連論文リスト
- On the Convergence of DP-SGD with Adaptive Clipping [56.24689348875711]
勾配クリッピングによるグラディエントDescentは、微分プライベート最適化を実現するための強力な技術である。
本稿では,量子クリッピング(QC-SGD)を用いたSGDの総合収束解析について述べる。
本稿では,QC-SGDが一定閾値クリッピングSGDに類似したバイアス問題にどのように悩まされているかを示す。
論文 参考訳(メタデータ) (2024-12-27T20:29:47Z) - Gradient Normalization Provably Benefits Nonconvex SGD under Heavy-Tailed Noise [60.92029979853314]
重み付き雑音下でのグラディエントDescence(SGD)の収束を確実にする上での勾配正規化とクリッピングの役割について検討する。
我々の研究は、重尾雑音下でのSGDの勾配正規化の利点を示す最初の理論的証拠を提供する。
我々は、勾配正規化とクリッピングを取り入れた加速SGD変種を導入し、さらに重み付き雑音下での収束率を高めた。
論文 参考訳(メタデータ) (2024-10-21T22:40:42Z) - Robust Stochastic Optimization via Gradient Quantile Clipping [6.2844649973308835]
グラディエントDescent(SGD)のための量子クリッピング戦略を導入する。
通常のクリッピングチェーンとして、グラデーション・ニュー・アウトリージを使用します。
本稿では,Huberiles を用いたアルゴリズムの実装を提案する。
論文 参考訳(メタデータ) (2023-09-29T15:24:48Z) - Efficient Private SCO for Heavy-Tailed Data via Averaged Clipping [40.69950711262191]
我々は、差分プライベート(DP)を保証する重み付きデータに対する差分プライベート凸最適化について検討する。
我々は,制約付きおよび制約なし凸問題に対するAClipped-dpSGDというアルゴリズムに対して,新たな収束結果を確立し,複雑性境界を改善した。
論文 参考訳(メタデータ) (2022-06-27T01:39:15Z) - Heavy-tailed Streaming Statistical Estimation [58.70341336199497]
ストリーミング$p$のサンプルから重み付き統計推定の課題を考察する。
そこで我々は,傾きの雑音に対して,よりニュアンスな条件下での傾きの傾きの低下を設計し,より詳細な解析を行う。
論文 参考訳(メタデータ) (2021-08-25T21:30:27Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - High-probability Bounds for Non-Convex Stochastic Optimization with
Heavy Tails [55.561406656549686]
我々は、勾配推定が末尾を持つ可能性のある一階アルゴリズムを用いたヒルベルト非最適化を考える。
本研究では, 勾配, 運動量, 正規化勾配勾配の収束を高確率臨界点に収束させることと, 円滑な損失に対する最もよく知られた繰り返しを示す。
論文 参考訳(メタデータ) (2021-06-28T00:17:01Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。