論文の概要: On-Average Stability of Multipass Preconditioned SGD and Effective Dimension
- arxiv url: http://arxiv.org/abs/2603.11989v1
- Date: Thu, 12 Mar 2026 14:41:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:26.146399
- Title: On-Average Stability of Multipass Preconditioned SGD and Effective Dimension
- Title(参考訳): マルチパスプレコンディショニングSGDのオンアベイジ安定性と有効寸法
- Authors: Simon Vary, Tyler Farghly, Ilja Kuzborskij, Patrick Rebeschini,
- Abstract要約: 我々は,マルチパスプレコンディショニング・グラディエント・ディフレッシュ(PSGD)の一般化能力に関する,集団リスク曲率,騒音形状,プレコンディショニングのトレードオフについて検討する。
特に、不適切に選択されたプレコンディショナーは、最適化と一般化の両方において、最適以下の有効次元依存性が得られることを示す。
- 参考スコア(独自算出の注目度): 15.521925194920891
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study trade-offs between the population risk curvature, geometry of the noise, and preconditioning on the generalisation ability of the multipass Preconditioned Stochastic Gradient Descent (PSGD). Many practical optimisation heuristics implicitly navigate this trade-off in different ways -- for instance, some aim to whiten gradient noise, while others aim to align updates with expected loss curvature. When the geometry of the population risk curvature and the geometry of the gradient noise do not match, an aggressive choice that improves one aspect can amplify instability along the other, leading to suboptimal statistical behavior. In this paper we employ on-average algorithmic stability to connect generalisation of PSGD to the effective dimension that depends on these sources of curvature. While existing techniques for on-average stability of SGD are limited to a single pass, as first contribution we develop a new on-average stability analysis for multipass SGD that handles the correlations induced by data reuse. This allows us to derive excess risk bounds that depend on the effective dimension. In particular, we show that an improperly chosen preconditioner can yield suboptimal effective dimension dependence in both optimisation and generalisation. Finally, we complement our upper bounds with matching, instance-dependent lower bounds.
- Abstract(参考訳): マルチパスプレコンディショニングされた確率勾配Descent (PSGD) の一般化能力について, 集団リスク曲率, 騒音形状, プレコンディショニングのトレードオフについて検討した。
多くの実用的な最適化ヒューリスティックは、異なる方法でこのトレードオフを暗黙的にナビゲートします。
集団リスク曲率の幾何と勾配雑音の幾何が一致しない場合、一方の側面を改善する攻撃的な選択は他方の安定性を増幅し、最適以下の統計的挙動をもたらす。
本稿では,PSGDの一般化をこれらの曲率源に依存する実効次元に結びつけるために,平均的なアルゴリズム安定性を用いる。
既存のSGDの平均安定性技術は1パスに制限されているが、まず、データ再利用によって引き起こされる相関を扱うマルチパスSGDのための新しい平均安定性解析を開発する。
これにより、有効次元に依存する過剰なリスク境界を導出することができます。
特に、不適切に選択されたプレコンディショナーは、最適化と一般化の両方において、最適以下の有効次元依存性が得られることを示す。
最後に、上界を一致する、インスタンス依存の下界で補う。
関連論文リスト
- Score-Guided Proximal Projection: A Unified Geometric Framework for Rectified Flow Editing [1.0312968200748118]
Rectified Flowモデルは最先端の世代品質を実現するが、正確なタスクのためにそれらを制御することは依然として困難である。
現在のアプローチは「幾何学的ロック」に苦しむ逆法に基づくガイダンスに分岐する
Score-Guided Proximal Projectionは,決定論的最適化と縮尺サンプリングのギャップを埋める統一フレームワークである。
論文 参考訳(メタデータ) (2026-03-05T23:44:45Z) - Not All Preferences Are Created Equal: Stability-Aware and Gradient-Efficient Alignment for Reasoning Models [52.48582333951919]
ポリシー更新の信号対雑音比を最大化することにより、アライメントの信頼性を高めるために設計された動的フレームワークを提案する。
SAGE(Stability-Aware Gradient Efficiency)は、モデル能力に基づいて候補プールをリフレッシュする粗いきめ細かいカリキュラムメカニズムを統合する。
複数の数学的推論ベンチマークの実験により、SAGEは収束を著しく加速し、静的ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2026-02-01T12:56:10Z) - Generalization Bounds of Surrogate Policies for Combinatorial Optimization Problems [53.03951222945921]
我々はスムーズな(摂動された)ポリシーを解析し、線形オラクルが使用する方向に対して制御されたランダムな摂動を付加する。
我々の主な貢献は、過剰リスクを摂動バイアス、統計的推定誤差、最適化誤差に分解する一般化境界である。
車両のスケジューリングやスムーズ化がトラクタブルトレーニングと制御された一般化の両方を可能にしていることを示す。
論文 参考訳(メタデータ) (2024-07-24T12:00:30Z) - Adaptive debiased SGD in high-dimensional GLMs with streaming data [4.704144189806667]
本稿では,高次元一般化線形モデルにおけるオンライン推論に対する新しいアプローチを提案する。
提案手法は単一パスモードで動作し,全データセットアクセスや大次元要約統計ストレージを必要とする既存手法とは異なる。
我々の方法論的革新の核心は、動的目的関数に適した適応的降下アルゴリズムと、新しいオンラインデバイアス処理である。
論文 参考訳(メタデータ) (2024-05-28T15:36:48Z) - A Precise Characterization of SGD Stability Using Loss Surface Geometry [8.942671556572073]
Descent Gradient (SGD) は実世界の実証的な成功を証明しているが、理論的な理解は比較的限られている。
最近の研究は、その実用性に寄与する重要な要因である暗黙の正規化を照らしている。
論文 参考訳(メタデータ) (2024-01-22T19:46:30Z) - Distributionally Robust Optimization with Bias and Variance Reduction [9.341215359733601]
勾配に基づくアルゴリズムであるProspectは、スムーズな正規化損失に対する線形収束を享受していることを示す。
また、勾配法のようなベースラインよりも2~3$times$早く収束できることも示している。
論文 参考訳(メタデータ) (2023-10-21T00:03:54Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z) - On the Convergence of SGD with Biased Gradients [28.400751656818215]
偏り勾配法 (SGD) の導出領域を解析し, 個々の更新を圧縮によって劣化させる。
偏差精度と収束率の影響の程度を定量化する。
論文 参考訳(メタデータ) (2020-07-31T19:37:59Z) - Fine-Grained Analysis of Stability and Generalization for Stochastic
Gradient Descent [55.85456985750134]
我々は,SGDの反復的リスクによって制御される新しい境界を開発する,平均モデル安定性と呼ばれる新しい安定性尺度を導入する。
これにより、最良のモデルの振舞いによって一般化境界が得られ、低雑音環境における最初の既知の高速境界が導かれる。
我々の知る限りでは、このことはSGDの微分不能な損失関数でさえも初めて知られている安定性と一般化を与える。
論文 参考訳(メタデータ) (2020-06-15T06:30:19Z) - Stability of Stochastic Gradient Descent on Nonsmooth Convex Losses [52.039438701530905]
任意のリプシッツ非平滑凸損失に対して,数種類の勾配勾配降下(SGD)に対して,鋭い上下境界を与える。
我々の限界は、極端に過剰な集団リスクを伴う、微分的にプライベートな非平滑凸最適化のための新しいアルゴリズムを導出することを可能にする。
論文 参考訳(メタデータ) (2020-06-12T02:45:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。