論文の概要: Spectral alignment of stochastic gradient descent for high-dimensional classification tasks
- arxiv url: http://arxiv.org/abs/2310.03010v2
- Date: Thu, 15 May 2025 20:42:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:10.765628
- Title: Spectral alignment of stochastic gradient descent for high-dimensional classification tasks
- Title(参考訳): 高次元分類タスクにおける確率勾配勾配のスペクトルアライメント
- Authors: Gerard Ben Arous, Reza Gheissari, Jiaoyang Huang, Aukosh Jagannath,
- Abstract要約: 本研究では,SGDによるトレーニングダイナミクスと経験的ヘッセン行列と勾配行列のスペクトルの関係について検討した。
マルチクラス高次元混合系と1層または2層ニューラルネットワークの2つの標準分類タスクにおいて、SGD軌道と創発的なアウトリー固有空間が共通の低次元部分空間と整合していることが証明された。
- 参考スコア(独自算出の注目度): 11.143337341980978
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We rigorously study the relation between the training dynamics via stochastic gradient descent (SGD) and the spectra of empirical Hessian and gradient matrices. We prove that in two canonical classification tasks for multi-class high-dimensional mixtures and either 1 or 2-layer neural networks, both the SGD trajectory and emergent outlier eigenspaces of the Hessian and gradient matrices align with a common low-dimensional subspace. Moreover, in multi-layer settings this alignment occurs per layer, with the final layer's outlier eigenspace evolving over the course of training, and exhibiting rank deficiency when the SGD converges to sub-optimal classifiers. This establishes some of the rich predictions that have arisen from extensive numerical studies in the last decade about the spectra of Hessian and information matrices over the course of training in overparametrized networks.
- Abstract(参考訳): 確率勾配降下(SGD)によるトレーニング力学と経験的ヘッセン行列および勾配行列のスペクトルとの関係を厳密に研究した。
マルチクラス高次元混合系と1層または2層ニューラルネットワークの2つの標準分類タスクにおいて、ヘッセン行列と勾配行列のSGD軌道と創発的アウトリー固有空間が共通の低次元部分空間と一致することを証明した。
さらに、多層的な設定では、このアライメントは層ごとに発生し、最終層のアウトリー固有空間はトレーニングの過程で進化し、SGDが準最適分類器に収束するとランク不足を示す。
このことは、過度にパラメータ化されたネットワークでのトレーニングの過程で、ヘッセンのスペクトルと情報行列について、過去10年間に広範な数値研究から生じたリッチな予測のいくつかを確立している。
関連論文リスト
- Layer-wise Quantization for Quantized Optimistic Dual Averaging [75.4148236967503]
我々は、訓練の過程で不均一性に適応し、厳密な分散とコード長境界を持つ一般的な層ワイド量子化フレームワークを開発する。
本稿では,適応学習率を持つ量子最適化双対平均化(QODA)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-05-20T13:53:58Z) - An Analytical Characterization of Sloppiness in Neural Networks: Insights from Linear Models [18.99511760351873]
近年の研究では、複数の深層ニューラルネットワークのトレーニング軌道が、驚くほど低次元の「ハイパーリボン様」多様体上で進化することが示されている。
深層ネットワークと線形ネットワークの訓練軌跡の類似性から着想を得て,この現象を後者に対して解析的に特徴付ける。
この低次元多様体の幾何学は, (i) トレーニングデータの入力相関行列の固有値の減衰率, (ii) トレーニング開始時の接地トラスト出力の相対スケール, (iii) 勾配勾配のステップ数によって制御されることを示す。
論文 参考訳(メタデータ) (2025-05-13T19:20:19Z) - On the Convergence of (Stochastic) Gradient Descent for Kolmogorov--Arnold Networks [56.78271181959529]
Kolmogorov--Arnold Networks (KAN) はディープラーニングコミュニティで注目されている。
実験により、勾配降下(SGD)により最適化されたカンが、ほぼゼロに近い訓練損失を達成できることが示された。
論文 参考訳(メタデータ) (2024-10-10T15:34:10Z) - Unifying Low Dimensional Observations in Deep Learning Through the Deep Linear Unconstrained Feature Model [0.0]
深部ニューラルネットワークの重み,ヘッセン,勾配,特徴ベクトルの低次元構造について検討した。
一般化された制約のない特徴モデルでそれらを統一する方法を示す。
論文 参考訳(メタデータ) (2024-04-09T08:17:32Z) - Understanding Incremental Learning of Gradient Descent: A Fine-grained
Analysis of Matrix Sensing [74.2952487120137]
GD(Gradient Descent)は、機械学習モデルにおいて、良い一般化に対する暗黙のバイアスをもたらすと考えられている。
本稿では,行列センシング問題に対するGDのダイナミクスを詳細に解析する。
論文 参考訳(メタデータ) (2023-01-27T02:30:51Z) - WLD-Reg: A Data-dependent Within-layer Diversity Regularizer [98.78384185493624]
ニューラルネットワークは、勾配に基づく最適化と共同で訓練された階層構造に配置された複数の層で構成されている。
我々は、この従来の「中間層」フィードバックを補うために、同じ層内での活性化の多様性を促進するために、追加の「中間層」フィードバックを補うことを提案する。
本稿では,提案手法が複数のタスクにおける最先端ニューラルネットワークモデルの性能を向上させることを実証した広範な実証研究を提案する。
論文 参考訳(メタデータ) (2023-01-03T20:57:22Z) - Linearization and Identification of Multiple-Attractors Dynamical System
through Laplacian Eigenmaps [8.161497377142584]
速度拡張カーネルを利用したグラフベースのスペクトルクラスタリング手法を提案し,同じダイナミックスに属するデータポイントを接続する。
部分力学が線型であり、n-次元埋め込みが準線型であるような2次元埋め込み空間が常に存在することを証明する。
我々は、ラプラシアン埋め込み空間から元の空間への微分同相性を学び、ラプラシアン埋め込みが良好な再構成精度とより高速な訓練時間をもたらすことを示す。
論文 参考訳(メタデータ) (2022-02-18T12:43:25Z) - Phase diagram of Stochastic Gradient Descent in high-dimensional
two-layer neural networks [22.823904789355495]
本研究では, 平均流体力学系とサード・アンド・ソルラのセミナルアプローチの関連について検討する。
我々の研究は、統計物理学から高次元の速度を決定論的に記述することに基づいている。
論文 参考訳(メタデータ) (2022-02-01T09:45:07Z) - Recycling Model Updates in Federated Learning: Are Gradient Subspaces
Low-Rank? [26.055358499719027]
本稿では,この低ランク性を利用して勾配リサイクルを実現する「Look-back Gradient Multiplier(LBGM)」アルゴリズムを提案する。
我々は,LBGMの収束挙動を解析的に特徴付け,通信貯蓄とモデル性能のトレードオフの性質を明らかにする。
LBGMは,既存の分散モデルトレーニングのためのスペーシフィケーション技術の上に,スタンドアロンあるいは積み重ねて使用可能な汎用的なプラグアンドプレイアルゴリズムであることを示す。
論文 参考訳(メタデータ) (2022-02-01T09:05:32Z) - Learning Gaussian Mixtures with Generalised Linear Models: Precise
Asymptotics in High-dimensions [79.35722941720734]
多クラス分類問題に対する一般化線形モデルは、現代の機械学習タスクの基本的な構成要素の1つである。
実験的リスク最小化による高次元推定器の精度を実証する。
合成データの範囲を超えて我々の理論をどのように適用できるかを論じる。
論文 参考訳(メタデータ) (2021-06-07T16:53:56Z) - Joint and Progressive Subspace Analysis (JPSA) with Spatial-Spectral
Manifold Alignment for Semi-Supervised Hyperspectral Dimensionality Reduction [48.73525876467408]
本稿では,超スペクトル部分空間解析のための新しい手法を提案する。
この手法はジョイント・アンド・プログレッシブ・サブスペース分析(JPSA)と呼ばれる。
2つの広帯域超スペクトルデータセットに対して提案したJPSAの優位性と有効性を示す実験を行った。
論文 参考訳(メタデータ) (2020-09-21T16:29:59Z) - Dual-constrained Deep Semi-Supervised Coupled Factorization Network with
Enriched Prior [80.5637175255349]
本稿では、DS2CF-Netと呼ばれる、拡張された事前制約付きDual-Constrained Deep Semi-Supervised Coupled Factorization Networkを提案する。
隠れた深い特徴を抽出するために、DS2CF-Netは、深い構造と幾何学的な構造に制約のあるニューラルネットワークとしてモデル化される。
我々のネットワークは、表現学習とクラスタリングのための最先端の性能を得ることができる。
論文 参考訳(メタデータ) (2020-09-08T13:10:21Z) - Understanding Gradient Clipping in Private SGD: A Geometric Perspective [68.61254575987013]
ディープラーニングモデルは、トレーニングデータが機密情報を含む可能性がある多くの機械学習アプリケーションで、ますます人気が高まっている。
多くの学習システムは、(異なる)プライベートSGDでモデルをトレーニングすることで、差分プライバシーを取り入れている。
各プライベートSGDアップデートにおける重要なステップは勾配クリッピングであり、L2ノルムがしきい値を超えると、個々の例の勾配を小さくする。
論文 参考訳(メタデータ) (2020-06-27T19:08:12Z) - A block coordinate descent optimizer for classification problems
exploiting convexity [0.0]
隠れ層の重み付けにおけるクロスエントロピー損失の凸性を利用した分類タスクのためのディープ線形ネットワークに座標降下法を導入する。
線形層に対する大域的最適パラメータと隠蔽層への勾配勾配を求める2次法とを交互に組み合わせることで、トレーニング全体を通してデータに対する適応基底の最適適合性を確保する。
論文 参考訳(メタデータ) (2020-06-17T19:49:06Z) - Dynamical mean-field theory for stochastic gradient descent in Gaussian
mixture classification [25.898873960635534]
高次元景観を分類する単一層ニューラルネットワークにおける勾配降下(SGD)の閉学習ダイナミクスを解析する。
連続次元勾配流に拡張可能なプロトタイププロセスを定義する。
フルバッチ限界では、標準勾配流を回復する。
論文 参考訳(メタデータ) (2020-06-10T22:49:41Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z) - On the Convex Behavior of Deep Neural Networks in Relation to the
Layers' Width [99.24399270311069]
より広いネットワークにおいて、降下最適化による損失を最小限に抑え、トレーニングの開始時と終了時に正の曲率の表面を貫き、その間の曲率をほぼゼロにすることを観察する。
言い換えれば、トレーニングプロセスの重要な部分において、広いネットワークにおけるヘッセンはG成分によって支配されているようである。
論文 参考訳(メタデータ) (2020-01-14T16:30:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。