論文の概要: NGD converges to less degenerate solutions than SGD
- arxiv url: http://arxiv.org/abs/2409.04913v2
- Date: Thu, 12 Sep 2024 21:04:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-16 18:46:54.822658
- Title: NGD converges to less degenerate solutions than SGD
- Title(参考訳): NGDはSGDよりも退化解に収束する
- Authors: Moosa Saghir, N. R. Raghavendra, Zihe Liu, Evan Ryan Gunter,
- Abstract要約: モデルの自由パラメータ(次元)の数は、その複雑さを測る簡単な方法である。
しかし、これは正確な複雑さの尺度ではない。トレーニングデータを記憶できるモデルは、高次元にもかかわらずしばしば一般化される。
有効ディメンションは、モデルの機能性を表すのに必要なパラメータの数だけを数えることで、モデルの複雑さをより直接的に捉えることを目的としています。
- 参考スコア(独自算出の注目度): 0.5249805590164902
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The number of free parameters, or dimension, of a model is a straightforward way to measure its complexity: a model with more parameters can encode more information. However, this is not an accurate measure of complexity: models capable of memorizing their training data often generalize well despite their high dimension. Effective dimension aims to more directly capture the complexity of a model by counting only the number of parameters required to represent the functionality of the model. Singular learning theory (SLT) proposes the learning coefficient $ \lambda $ as a more accurate measure of effective dimension. By describing the rate of increase of the volume of the region of parameter space around a local minimum with respect to loss, $ \lambda $ incorporates information from higher-order terms. We compare $ \lambda $ of models trained using natural gradient descent (NGD) and stochastic gradient descent (SGD), and find that those trained with NGD consistently have a higher effective dimension for both of our methods: the Hessian trace $ \text{Tr}(\mathbf{H}) $, and the estimate of the local learning coefficient (LLC) $ \hat{\lambda}(w^*) $.
- Abstract(参考訳): モデルの自由パラメータ数、あるいは次元は、その複雑さを測定するための簡単な方法である。
しかし、これは正確な複雑さの尺度ではない。トレーニングデータを記憶できるモデルは、高次元にもかかわらずしばしば一般化される。
有効ディメンションは、モデルの機能性を表すのに必要なパラメータの数だけを数えることで、モデルの複雑さをより直接的に捉えることを目的としています。
特異学習理論(SLT)は、より正確な有効次元の尺度として学習係数 $ \lambda $ を提案する。
損失に関して、局所的に最小のパラメータ空間の領域の体積の増加率を記述することで、$ \lambda $は高次項からの情報を取り込む。
自然勾配降下 (NGD) と確率勾配降下 (SGD) を用いて訓練されたモデルの$ \lambda $ を比較し、NGD で訓練されたモデルでは、ヘッセントレース $ \text{Tr}(\mathbf{H}) $ と局所学習係数 (LLC) $ \hat{\lambda}(w^*) $ の2つの手法に対して、一貫して高い有効次元を持つことを示した。
関連論文リスト
- Scaling Laws in Linear Regression: Compute, Parameters, and Data [86.48154162485712]
無限次元線形回帰セットアップにおけるスケーリング法則の理論について検討する。
テストエラーの再現可能な部分は$Theta(-(a-1) + N-(a-1)/a)$であることを示す。
我々の理論は経験的ニューラルスケーリング法則と一致し、数値シミュレーションによって検証される。
論文 参考訳(メタデータ) (2024-06-12T17:53:29Z) - Computational-Statistical Gaps in Gaussian Single-Index Models [77.1473134227844]
単次元モデル(Single-Index Models)は、植木構造における高次元回帰問題である。
我々は,統計的クエリ (SQ) と低遅延多項式 (LDP) フレームワークの両方において,計算効率のよいアルゴリズムが必ずしも$Omega(dkstar/2)$サンプルを必要とすることを示した。
論文 参考訳(メタデータ) (2024-03-08T18:50:19Z) - Gaussian process regression and conditional Karhunen-Lo\'{e}ve models
for data assimilation in inverse problems [68.8204255655161]
偏微分方程式モデルにおけるデータ同化とパラメータ推定のためのモデル逆アルゴリズムCKLEMAPを提案する。
CKLEMAP法は標準的なMAP法に比べてスケーラビリティがよい。
論文 参考訳(メタデータ) (2023-01-26T18:14:12Z) - Minimax Optimal Quantization of Linear Models: Information-Theoretic
Limits and Efficient Algorithms [59.724977092582535]
測定から学習した線形モデルの定量化の問題を考える。
この設定の下では、ミニマックスリスクに対する情報理論の下限を導出する。
本稿では,2層ReLUニューラルネットワークに対して,提案手法と上界を拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-02-23T02:39:04Z) - Faster Convergence of Local SGD for Over-Parameterized Models [1.5504102675587357]
現代の機械学習アーキテクチャは、しばしば非常に表現力が高い。
不均一なデータ設定における過パラメータ化関数に対する局所SGD(またはFedAvg)の収束を解析する。
一般凸損失関数に対しては、$O(K/T)$の誤差が成立する。
非剰余関数に対しては、どちらの場合も$O(K/T)$の誤差が証明される。
確立された収束率を、合理的に小さなステップサイズで一定の要因に密着した問題インスタンスを提供することで、結果を完成させる。
論文 参考訳(メタデータ) (2022-01-30T04:05:56Z) - Exponential Family Model-Based Reinforcement Learning via Score Matching [97.31477125728844]
有限水平表層強化学習(RL)のための楽観的モデルベースアルゴリズムSMRLを提案する。
SMRLは、リッジ回帰によるモデルパラメータの効率的な推定を可能にする非正規化密度推定手法であるスコアマッチングを用いる。
論文 参考訳(メタデータ) (2021-12-28T15:51:07Z) - Inverting brain grey matter models with likelihood-free inference: a
tool for trustable cytoarchitecture measurements [62.997667081978825]
脳の灰白質細胞構造の特徴は、体密度と体積に定量的に敏感であり、dMRIでは未解決の課題である。
我々は新しいフォワードモデル、特に新しい方程式系を提案し、比較的スパースなb殻を必要とする。
次に,提案手法を逆転させるため,確率自由推論 (LFI) として知られるベイズ解析から最新のツールを適用した。
論文 参考訳(メタデータ) (2021-11-15T09:08:27Z) - SGD Through the Lens of Kolmogorov Complexity [0.15229257192293197]
勾配降下 (SGD) はデータセット全体の分類精度が$ (1-epsilon)$の解を求める。
特定のアーキテクチャやアクティベーション関数を持つためにモデルを必要としないのです。
論文 参考訳(メタデータ) (2021-11-10T01:32:38Z) - Revisiting minimum description length complexity in overparameterized
models [38.21167656112762]
本稿では,線形モデルとカーネル手法に対するMDL-COMPの広範な理論的特性について述べる。
カーネル法では,MDL-COMPがサンプル内誤差を最小化し,入力の次元が増加するにつれて減少することを示す。
また、MDL-COMPがサンプル内平均二乗誤差(MSE)を束縛していることも証明する。
論文 参考訳(メタデータ) (2020-06-17T22:45:14Z) - Learning the Stein Discrepancy for Training and Evaluating Energy-Based
Models without Sampling [30.406623987492726]
非正規化密度モデルの評価と訓練のための新しい手法を提案する。
データ密度$p(x)$とデータのベクトル関数で定義されるモデル密度$q(x)$とのスタイン差を推定する。
これは、既存の手法を高次元データで上回る、新しい適合性テストをもたらす。
論文 参考訳(メタデータ) (2020-02-13T16:39:07Z) - Dual Stochastic Natural Gradient Descent and convergence of interior
half-space gradient approximations [0.0]
多項ロジスティック回帰(MLR)は統計学や機械学習で広く使われている。
勾配降下(SGD)は、ビッグデータシナリオにおけるMLRモデルのパラメータを決定する最も一般的な手法である。
論文 参考訳(メタデータ) (2020-01-19T00:53:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。