論文の概要: Discrete error dynamics of mini-batch gradient descent for least squares regression
- arxiv url: http://arxiv.org/abs/2406.03696v1
- Date: Thu, 6 Jun 2024 02:26:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 18:35:44.969569
- Title: Discrete error dynamics of mini-batch gradient descent for least squares regression
- Title(参考訳): 最小二乗回帰のためのミニバッチ勾配勾配の離散誤差ダイナミクス
- Authors: Jackie Lok, Rishi Sonthalia, Elizaveta Rebrova,
- Abstract要約: 置換のないサンプリングにおいて,少なくとも正方形に対するミニバッチ勾配勾配のダイナミクスについて検討した。
また、連続時間勾配流解析では検出できない離散化効果について検討し、最小バッチ勾配降下がステップサイズ依存解に収束することを示す。
- 参考スコア(独自算出の注目度): 4.159762735751163
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the discrete dynamics of mini-batch gradient descent for least squares regression when sampling without replacement. We show that the dynamics and generalization error of mini-batch gradient descent depends on a sample cross-covariance matrix $Z$ between the original features $X$ and a set of new features $\widetilde{X}$, in which each feature is modified by the mini-batches that appear before it during the learning process in an averaged way. Using this representation, we rigorously establish that the dynamics of mini-batch and full-batch gradient descent agree up to leading order with respect to the step size using the linear scaling rule. We also study discretization effects that a continuous-time gradient flow analysis cannot detect, and show that mini-batch gradient descent converges to a step-size dependent solution, in contrast with full-batch gradient descent. Finally, we investigate the effects of batching, assuming a random matrix model, by using tools from free probability theory to numerically compute the spectrum of $Z$.
- Abstract(参考訳): 本研究では, 最小二乗回帰に対するミニバッチ勾配勾配の離散的ダイナミクスについて検討した。
ミニバッチ勾配勾配の動的および一般化誤差は、元の特徴である$X$と一連の新機能の集合である$\widetilde{X}$のサンプル共分散行列$Z$に依存しており、各特徴は学習過程中に出現するミニバッチによって平均的に修正される。
この表現を用いて,ミニバッチとフルバッチ勾配勾配のダイナミクスが線形スケーリング則を用いて,ステップサイズに関して先行順序に一致することを厳密に証明する。
また, 連続時間勾配流解析では検出できない離散化効果について検討し, フルバッチ勾配降下とは対照的に, 最小バッチ勾配降下がステップサイズ依存解に収束することを示す。
最後に,確率論のツールを用いて,ランダム行列モデルを仮定したバッチ処理の効果を解析し,Z$のスペクトルを数値計算する。
関連論文リスト
- A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimiax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - Aiming towards the minimizers: fast convergence of SGD for
overparametrized problems [25.077446336619378]
本稿では,勾配法と同一のケース複雑性を有する勾配法を提案する。
既存の保証は全て勾配法で小さなステップを踏む必要があり、結果として収束速度ははるかに遅くなる。
我々は,線形出力層を用いた十分に広いフィードフォワードニューラルネットワークのトレーニングにおいて,この条件が成り立つことを実証した。
論文 参考訳(メタデータ) (2023-06-05T05:21:01Z) - Learning Compact Features via In-Training Representation Alignment [19.273120635948363]
各エポックでは、トレーニングセットからサンプリングしたミニバッチを用いて損失関数の真の勾配を推定する。
In-Training Representation Alignment (ITRA) を提案する。
また,特徴表現学習における一致損失の望ましい影響を厳密に分析する。
論文 参考訳(メタデータ) (2022-11-23T22:23:22Z) - Faster One-Sample Stochastic Conditional Gradient Method for Composite
Convex Minimization [61.26619639722804]
滑らかで非滑らかな項の和として形成される凸有限サム目標を最小化するための条件勾配法(CGM)を提案する。
提案手法は, 平均勾配 (SAG) 推定器を備え, 1回に1回のサンプルしか必要としないが, より高度な分散低減技術と同等の高速収束速度を保証できる。
論文 参考訳(メタデータ) (2022-02-26T19:10:48Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - A Study of Gradient Variance in Deep Learning [56.437755740715396]
階層化サンプリングによる平均ミニバッチ勾配のばらつきを最小化する手法であるグラディエントクラスタリングを導入する。
我々は、一般的なディープラーニングベンチマークの勾配分散を測定し、一般的な仮定に反して、トレーニング中に勾配分散が増加することを観察する。
論文 参考訳(メタデータ) (2020-07-09T03:23:10Z) - Path Sample-Analytic Gradient Estimators for Stochastic Binary Networks [78.76880041670904]
二進的アクティベーションや二進的重みを持つニューラルネットワークでは、勾配降下によるトレーニングは複雑である。
そこで本研究では,サンプリングと解析近似を併用した新しい推定法を提案する。
勾配推定において高い精度を示し、深部畳み込みモデルにおいてより安定かつ優れた訓練を行うことを示す。
論文 参考訳(メタデータ) (2020-06-04T21:51:21Z) - Carath\'eodory Sampling for Stochastic Gradient Descent [79.55586575988292]
本稿では,Tchakaloff と Carath'eodory の古典的な結果から着想を得た手法を提案する。
我々は、測定値の低減を行う降下ステップを適応的に選択する。
これをBlock Coordinate Descentと組み合わせることで、測定の削減を極めて安価に行えるようにします。
論文 参考訳(メタデータ) (2020-06-02T17:52:59Z) - The Impact of the Mini-batch Size on the Variance of Gradients in
Stochastic Gradient Descent [28.148743710421932]
ミニバッチ勾配勾配(SGD)アルゴリズムは機械学習モデルのトレーニングに広く用いられている。
線形回帰および2層線形ネットワーク下でのSGDダイナミクスについて検討し,より深い線形ネットワークへの拡張を容易にする。
論文 参考訳(メタデータ) (2020-04-27T20:06:11Z) - The Implicit Regularization of Stochastic Gradient Flow for Least
Squares [24.976079444818552]
最小二乗回帰の基本問題に適用したミニバッチ勾配勾配の暗黙正則化について検討した。
我々は勾配流と呼ばれる勾配降下と同じモーメントを持つ連続時間微分方程式を利用する。
チューニングパラメータ $lambda = 1/t$ で、リッジレグレッションを越えて、時間 $t$ での勾配フローの過剰なリスクに制限を与えます。
論文 参考訳(メタデータ) (2020-03-17T16:37:25Z) - Amortized variance reduction for doubly stochastic objectives [17.064916635597417]
複素確率モデルにおける近似推論は二重目的関数の最適化を必要とする。
現在のアプローチでは、ミニバッチがサンプリング性にどのように影響するかを考慮せず、結果として準最適分散が減少する。
本稿では,認識ネットワークを用いて各ミニバッチに対して最適な制御変数を安価に近似する手法を提案する。
論文 参考訳(メタデータ) (2020-03-09T13:23:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。