論文の概要: An Effective Gram Matrix Characterizes Generalization in Deep Networks
- arxiv url: http://arxiv.org/abs/2504.16450v2
- Date: Thu, 24 Apr 2025 02:31:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.024679
- Title: An Effective Gram Matrix Characterizes Generalization in Deep Networks
- Title(参考訳): ディープネットワークにおける一般化を特徴付ける効果的なグラム行列
- Authors: Rubing Yang, Pratik Chaudhari,
- Abstract要約: 我々は、勾配降下によって深層ネットワークが訓練されるとき、一般化ギャップの進化を制御できる微分方程式を導出する。
我々は、この微分方程式を解析して、学習後の一般化ギャップを特徴づける効果的なグラム行列'を計算する。
- 参考スコア(独自算出の注目度): 22.314071077213935
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We derive a differential equation that governs the evolution of the generalization gap when a deep network is trained by gradient descent. This differential equation is controlled by two quantities, a contraction factor that brings together trajectories corresponding to slightly different datasets, and a perturbation factor that accounts for them training on different datasets. We analyze this differential equation to compute an ``effective Gram matrix'' that characterizes the generalization gap after training in terms of the alignment between this Gram matrix and a certain initial ``residual''. Empirical evaluations on image classification datasets indicate that this analysis can predict the test loss accurately. Further, at any point during training, the residual predominantly lies in the subspace of the effective Gram matrix with the smallest eigenvalues. This indicates that the training process is benign, i.e., it does not lead to significant deterioration of the generalization gap (which is zero at initialization). The alignment between the effective Gram matrix and the residual is different for different datasets and architectures. The match/mismatch of the data and the architecture is primarily responsible for good/bad generalization.
- Abstract(参考訳): 我々は、勾配降下によって深層ネットワークが訓練されるとき、一般化ギャップの進化を制御できる微分方程式を導出する。
この微分方程式は、わずかに異なるデータセットに対応する軌道をまとめる収縮係数と、異なるデータセットでトレーニングする際の摂動係数の2つの量で制御される。
この微分方程式を解析して、「有効グラム行列」を計算し、このグラム行列とある初期「残留」との整合性の観点から訓練後の一般化ギャップを特徴づける。
画像分類データセットの実験的評価は、この分析がテスト損失を正確に予測できることを示している。
さらに、訓練中の任意の時点において、残余は最小の固有値を持つ実効的なグラム行列の部分空間に主に存在する。
これは、トレーニングプロセスが良性であること、すなわち、一般化ギャップ(初期化でゼロである)が著しく劣化しないことを意味する。
効果的なグラム行列と残差のアライメントは、異なるデータセットやアーキテクチャで異なる。
データとアーキテクチャのマッチ/ミスマッチは、主に良い/悪い一般化に責任がある。
関連論文リスト
- Landscape Complexity for the Empirical Risk of Generalized Linear Models: Discrimination between Structured Data [2.486161976966064]
我々は、Kac-Rice公式とランダム行列理論の結果を用いて、高次元の経験的損失関数の族の平均臨界点数を求める。
相関は、現在の機械学習システムでよく見られるように、データ中の構造の存在をモデル化するために導入された。
完全性のために、相関入力データの存在下での一般線形モデルの訓練に使用される損失関数についても検討する。
論文 参考訳(メタデータ) (2025-03-18T16:44:33Z) - Generalization for Least Squares Regression With Simple Spiked Covariances [3.9134031118910264]
勾配降下によって訓練された2層ニューラルネットワークの一般化特性はいまだよく分かっていない。
最近の研究は、隠れた層における特徴行列のスペクトルを記述することで進展した。
しかし、スパイク共分散を持つ線形モデルの一般化誤差は以前には決定されていない。
論文 参考訳(メタデータ) (2024-10-17T19:46:51Z) - Symmetry Discovery for Different Data Types [52.2614860099811]
等価ニューラルネットワークは、そのアーキテクチャに対称性を取り入れ、より高度な一般化性能を実現する。
本稿では,タスクの入出力マッピングを近似したトレーニングニューラルネットワークによる対称性発見手法であるLieSDを提案する。
我々は,2体問題,慣性行列予測のモーメント,トップクォークタグ付けといった課題におけるLieSDの性能を検証した。
論文 参考訳(メタデータ) (2024-10-13T13:39:39Z) - Implicit Regularization of Gradient Flow on One-Layer Softmax Attention [10.060496091806694]
一層ソフトマックスアテンションモデルを用いた分類問題に対する指数損失の勾配流について検討した。
データ上の分離性仮定では、勾配流が最小損失値を達成すると、鍵とクエリの重み行列の積の核ノルムを暗黙的に最小化する。
論文 参考訳(メタデータ) (2024-03-13T17:02:27Z) - Learning High-Dimensional Differential Graphs From Multi-Attribute Data [12.94486861344922]
類似構造を持つことが知られている2つのガウス図形モデル(GGM)の違いを推定する問題を考える。
差分グラフ推定の既存の方法は単一属性(SA)モデルに基づいている。
本稿では,多属性データから差分グラフ学習のためのグループラッソペナル化Dトレース損失関数手法を解析する。
論文 参考訳(メタデータ) (2023-12-05T18:54:46Z) - Does the Data Induce Capacity Control in Deep Learning? [0.0]
本稿では,データセットがディープネットワークの異常一般化性能の原因である可能性について検討する。
典型的な分類データセットのデータ相関行列は、急激な初期降下の後、指数関数的に広い範囲で多数の小さな固有値が均一に分布する固有スペクトルを持つことを示す。
論文 参考訳(メタデータ) (2021-10-27T04:40:27Z) - Understanding the Generalization of Adam in Learning Neural Networks
with Proper Regularization [118.50301177912381]
我々は,重力減衰グローバリゼーションにおいても,目的の異なる解に確実に異なる誤差で収束できることを示す。
凸と重み減衰正則化を用いると、Adamを含む任意の最適化アルゴリズムは同じ解に収束することを示す。
論文 参考訳(メタデータ) (2021-08-25T17:58:21Z) - Distribution of Classification Margins: Are All Data Equal? [61.16681488656473]
我々は理論的に動機付け、トレーニングセット上のマージン分布の曲線の下の領域が実際は一般化のよい尺度であることを実証的に示す。
結果として生じる"高いキャパシティ"機能のサブセットは、異なるトレーニング実行間で一貫性がない。
論文 参考訳(メタデータ) (2021-07-21T16:41:57Z) - Multilayer Clustered Graph Learning [66.94201299553336]
我々は、観測された層を代表グラフに適切に集約するために、データ忠実度用語として対照的な損失を用いる。
実験により,本手法がクラスタクラスタw.r.tに繋がることが示された。
クラスタリング問題を解くためのクラスタリングアルゴリズムを学習する。
論文 参考訳(メタデータ) (2020-10-29T09:58:02Z) - Asymptotic Analysis of an Ensemble of Randomly Projected Linear
Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。
我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。
また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文 参考訳(メタデータ) (2020-04-17T12:47:04Z) - Eigendecomposition-Free Training of Deep Networks for Linear
Least-Square Problems [107.3868459697569]
我々は、ディープネットワークのトレーニングに固有分解のないアプローチを導入する。
この手法は固有分解の明示的な微分よりもはるかに堅牢であることを示す。
我々の手法は収束特性が良く、最先端の結果が得られます。
論文 参考訳(メタデータ) (2020-04-15T04:29:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。