論文の概要: Limitations of SGD for Multi-Index Models Beyond Statistical Queries
- arxiv url: http://arxiv.org/abs/2602.05704v1
- Date: Thu, 05 Feb 2026 14:29:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.972283
- Title: Limitations of SGD for Multi-Index Models Beyond Statistical Queries
- Title(参考訳): 統計的クエリを超えるマルチインデックスモデルに対するSGDの限界
- Authors: Daniel Barzilai, Ohad Shamir,
- Abstract要約: 勾配降下(SGD)は学習理論における中心的な課題である。
既存の結果は、標準SGDのノイズを反映しない逆方向または特別に構成された勾配雑音に依存している。
我々は、標準バニラSGDの限界を研究するための新しい非SQフレームワークを開発する。
- 参考スコア(独自算出の注目度): 26.518651842868135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding the limitations of gradient methods, and stochastic gradient descent (SGD) in particular, is a central challenge in learning theory. To that end, a commonly used tool is the Statistical Queries (SQ) framework, which studies performance limits of algorithms based on noisy interaction with the data. However, it is known that the formal connection between the SQ framework and SGD is tenuous: Existing results typically rely on adversarial or specially-structured gradient noise that does not reflect the noise in standard SGD, and (as we point out here) can sometimes lead to incorrect predictions. Moreover, many analyses of SGD for challenging problems rely on non-trivial algorithmic modifications, such as restricting the SGD trajectory to the sphere or using very small learning rates. To address these shortcomings, we develop a new, non-SQ framework to study the limitations of standard vanilla SGD, for single-index and multi-index models (namely, when the target function depends on a low-dimensional projection of the inputs). Our results apply to a broad class of settings and architectures, including (potentially deep) neural networks.
- Abstract(参考訳): 勾配法、特に確率勾配降下(SGD)の限界を理解することは、学習理論における中心的な課題である。
そのためによく使われるツールは、統計クエリ(SQ)フレームワークであり、データとのノイズの相互作用に基づいてアルゴリズムのパフォーマンス限界を研究する。
しかし、SQフレームワークとSGDの間の公式な接続は緊張的であることが知られている: 既存の結果は通常、標準SGDのノイズを反映しない逆あるいは特別に構造化された勾配ノイズに依存しており、(ここで指摘したように)誤った予測につながることがある。
さらに、難題に対するSGDの分析の多くは、SGD軌道を球に制限したり、非常に少ない学習率を使用するなど、非自明なアルゴリズム修正に依存している。
これらの欠点に対処するために、単一インデックスモデルとマルチインデックスモデル(すなわち、ターゲット関数が入力の低次元射影に依存する場合)に対する標準バニラSGDの限界を研究するための新しい非SQフレームワークを開発する。
私たちの結果は、(潜在的に深い)ニューラルネットワークを含む、幅広い種類の設定とアーキテクチャに適用されます。
関連論文リスト
- A Lightweight Gradient-based Causal Discovery Framework with Applications to Complex Industrial Processes [5.351842005323824]
グラディエント正規化に基づくニューラルグラガー因果性(GRNGC)を提案する。
GRNGCは1つの時系列予測モデルのみを必要とし、モデルの入力と出力の勾配に$L_1$正規化を適用して、グランガー因果関係を推測する。
DREAM、Lorenz-96、fMRI、CausalTimeの数値シミュレーションにより、GRNGCは既存のベースラインよりも優れ、計算オーバーヘッドを大幅に削減することが示された。
論文 参考訳(メタデータ) (2025-07-15T10:35:29Z) - The Optimality of (Accelerated) SGD for High-Dimensional Quadratic Optimization [4.7256945641654164]
勾配降下(SGD)は機械学習、特にニューラルネットワークトレーニングにおいて広く使われているアルゴリズムである。
正準2次最適化や線形回帰のSGDに関する最近の研究は、適切な高次元設定で十分に一般化できることを示している。
本稿では,ステップサイズスケジュールと運動量指数の2つの基本成分を持つSGDについて検討する。
論文 参考訳(メタデータ) (2024-09-15T14:20:03Z) - Average Causal Effect Estimation in DAGs with Hidden Variables: Beyond Back-Door and Front-Door Criteria [0.8880611506199766]
隠れ変数DAGのクラスに対して,新しいワンステップ修正プラグインと最小損失に基づく因果効果推定器を導入する。
これらの推定器は、モデリング仮定を最小化するためにデータ適応機械学習アルゴリズムを利用する。
論文 参考訳(メタデータ) (2024-09-06T01:07:29Z) - Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文 参考訳(メタデータ) (2022-09-19T18:48:00Z) - A Biased Graph Neural Network Sampler with Near-Optimal Regret [57.70126763759996]
グラフニューラルネットワーク(GNN)は、グラフおよびリレーショナルデータにディープネットワークアーキテクチャを適用する手段として登場した。
本論文では,既存の作業に基づいて,GNN近傍サンプリングをマルチアームバンディット問題として扱う。
そこで本研究では,分散を低減し,不安定かつ非限定的な支払いを回避すべく設計されたバイアスをある程度導入した報酬関数を提案する。
論文 参考訳(メタデータ) (2021-03-01T15:55:58Z) - On the Generalization of Stochastic Gradient Descent with Momentum [58.900860437254885]
まず,アルゴリズムの安定性が一般化保証の確立に失敗する凸損失関数が存在することを示す。
滑らかなリプシッツ損失関数に対して、修正モーメントに基づく更新規則を解析し、一般化誤差の上界を認めることを示す。
強凸損失関数の特別な場合において、標準 SGDM の複数のエポックが SGDEM の特別な形式として一般化されるような運動量の範囲を見出す。
論文 参考訳(メタデータ) (2021-02-26T18:58:29Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Towards an Efficient and General Framework of Robust Training for Graph
Neural Networks [96.93500886136532]
グラフニューラルネットワーク(GNN)は、いくつかの基本的な推論タスクに大きく進歩している。
GNNの目覚ましい性能にもかかわらず、グラフ構造上の摂動を慎重に作り、誤った予測を下すことが観察されている。
我々は,強靭なGNNを得るために,欲求探索アルゴリズムとゼロ階法を利用する汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-25T15:17:58Z) - On the Generalization of Stochastic Gradient Descent with Momentum [84.54924994010703]
運動量に基づく勾配降下(SGD)の加速変種は、機械学習モデルを訓練する際に広く用いられる。
まず,標準重球運動量(SGDM)を持つSGDの複数のエポックに対する安定性ギャップが非有界となる凸損失関数が存在することを示す。
滑らかなリプシッツ損失関数に対しては、修正モーメントベースの更新規則、すなわち、幅広いステップサイズで初期運動量(SGDEM)を解析する。
論文 参考訳(メタデータ) (2018-09-12T17:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。