Fugu-MT 論文翻訳(概要): Tight Generalization Error Bounds for Stochastic Gradient Descent in Non-convex Learning

論文の概要: Tight Generalization Error Bounds for Stochastic Gradient Descent in Non-convex Learning

arxiv url: http://arxiv.org/abs/2506.18645v1
Date: Mon, 23 Jun 2025 13:47:25 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-24 19:06:37.006159
Title: Tight Generalization Error Bounds for Stochastic Gradient Descent in Non-convex Learning
Title（参考訳）: 非凸学習における確率的グラディエントディフレッシュのためのタイト一般化誤差境界
Authors: Wenjun Xiong, Juan Ding, Xinlei Zuo, Qizhai Li,
Abstract要約: 本研究では、ディープネットワークにおける非有界データを保証するために、より厳密な項を確立するために、グラディエント・Descent(SGD)を使用できることを示す。 MNISTARはトレーニングおよび神経訓練におけるT2pm-SGDの有効性を示す。
参考スコア（独自算出の注目度）: 1.8136828360307795
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Stochastic Gradient Descent (SGD) is fundamental for training deep neural networks, especially in non-convex settings. Understanding SGD's generalization properties is crucial for ensuring robust model performance on unseen data. In this paper, we analyze the generalization error bounds of SGD for non-convex learning by introducing the Type II perturbed SGD (T2pm-SGD), which accommodates both sub-Gaussian and bounded loss functions. The generalization error bound is decomposed into two components: the trajectory term and the flatness term. Our analysis improves the trajectory term to $O(n^{-1})$, significantly enhancing the previous $O((nb)^{-1/2})$ bound for bounded losses, where n is the number of training samples and b is the batch size. By selecting an optimal variance for the perturbation noise, the overall bound is further refined to $O(n^{-2/3})$. For sub-Gaussian loss functions, a tighter trajectory term is also achieved. In both cases, the flatness term remains stable across iterations and is smaller than those reported in previous literature, which increase with iterations. This stability, ensured by T2pm-SGD, leads to tighter generalization error bounds for both loss function types. Our theoretical results are validated through extensive experiments on benchmark datasets, including MNIST and CIFAR-10, demonstrating the effectiveness of T2pm-SGD in establishing tighter generalization bounds.
Abstract（参考訳）: Stochastic Gradient Descent(SGD)は、特に非凸設定において、ディープニューラルネットワークのトレーニングに基本となる。 SGDの一般化特性を理解することは、目に見えないデータ上での堅牢なモデル性能を保証するために不可欠である。本稿では,非凸学習におけるSGDの一般化誤差を,準ガウス的および有界な損失関数に対応するII型摂動型SGD(T2pm-SGD)を導入することによって解析する。一般化誤差境界は、軌道項と平坦項の2つの成分に分解される。我々の分析は、軌道項を$O(n^{-1})$に改善し、前回の$O((nb)^{-1/2})$バウンドを有界損失に対して著しく高め、nはトレーニングサンプルの数、bはバッチサイズとする。摂動雑音に対する最適分散を選択することにより、全体境界はさらに$O(n^{-2/3})$に洗練される。ガウス下損失関数に対しては、より厳密な軌道項も達成される。いずれの場合も、平坦性という用語はイテレーション全体で安定であり、イテレーションによって増加する以前の文献よりも小さい。この安定性はT2pm-SGDによって保証され、両方の損失関数の型に対するより厳密な一般化誤差境界をもたらす。 MNIST や CIFAR-10 などベンチマークデータセットの広範な実験により,より厳密な一般化境界を確立する上での T2pm-SGD の有効性を検証した。

関連論文リスト

Any-stepsize Gradient Descent for Separable Data under Fenchel--Young Losses [17.835960292396255]
emphFenchel-Young損失の枠組みに基づく一般損失関数に対して任意のステップの勾配収束を示す。我々は、自己有界性の代わりに損失関数の分岐マージンによって、これらのより良いレートが可能であると論じる。
論文参考訳（メタデータ） (2025-02-07T12:52:12Z)
Towards Understanding the Generalizability of Delayed Stochastic Gradient Descent [63.43247232708004]
非同期で実行される勾配降下は、大規模機械学習モデルのトレーニングにおいて重要な役割を果たす。既存の一般化誤差境界は悲観的であり、非同期遅延と一般化の相関を明らかにすることはできない。我々の理論的結果は、非同期遅延は遅延SGDアルゴリズムの一般化誤差を低減することを示唆している。
論文参考訳（メタデータ） (2023-08-18T10:00:27Z)
Benign Underfitting of Stochastic Gradient Descent [72.38051710389732]
本研究では,適切な学習データを得ることで,一般化性能を実現する「従来型」学習ルールとして,勾配降下度(SGD)がどの程度理解されるかを検討する。類似現象が起こらない近縁な交換SGDを解析し、その集団リスクが実際に最適な速度で収束することを証明する。
論文参考訳（メタデータ） (2022-02-27T13:25:01Z)
Black-Box Generalization [31.80268332522017]
微分一般化によるブラックボックス学習のための最初の誤り解析を行う。どちらの一般化も独立$d$,$K$であり、適切な選択の下では学習率がわずかに低下していることを示す。
論文参考訳（メタデータ） (2022-02-14T17:14:48Z)
On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。理論的にも経験的にも二重降下現象を観察する。
論文参考訳（メタデータ） (2021-10-13T17:47:39Z)
On the Generalization of Stochastic Gradient Descent with Momentum [58.900860437254885]
まず,アルゴリズムの安定性が一般化保証の確立に失敗する凸損失関数が存在することを示す。滑らかなリプシッツ損失関数に対して、修正モーメントに基づく更新規則を解析し、一般化誤差の上界を認めることを示す。強凸損失関数の特別な場合において、標準 SGDM の複数のエポックが SGDEM の特別な形式として一般化されるような運動量の範囲を見出す。
論文参考訳（メタデータ） (2021-02-26T18:58:29Z)
Convergence Rates of Stochastic Gradient Descent under Infinite Noise Variance [14.06947898164194]
ヘビーテールは様々なシナリオで勾配降下 (sgd) で現れる。 SGDの収束保証は、潜在的に無限のばらつきを持つ状態依存性および重尾ノイズ下で提供します。その結果,SGDは無限に分散した重尾雑音下であっても,地球最適値に収束できることが示された。
論文参考訳（メタデータ） (2021-02-20T13:45:11Z)
Direction Matters: On the Implicit Bias of Stochastic Gradient Descent with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。 SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文参考訳（メタデータ） (2020-11-04T21:07:52Z)
On the Generalization of Stochastic Gradient Descent with Momentum [84.54924994010703]
運動量に基づく勾配降下(SGD)の加速変種は、機械学習モデルを訓練する際に広く用いられる。まず,標準重球運動量(SGDM)を持つSGDの複数のエポックに対する安定性ギャップが非有界となる凸損失関数が存在することを示す。滑らかなリプシッツ損失関数に対しては、修正モーメントベースの更新規則、すなわち、幅広いステップサイズで初期運動量(SGDEM)を解析する。
論文参考訳（メタデータ） (2018-09-12T17:02:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。