Fugu-MT 論文翻訳(概要): High-dimensional SGD aligns with emerging outlier eigenspaces

論文の概要: High-dimensional SGD aligns with emerging outlier eigenspaces

arxiv url: http://arxiv.org/abs/2310.03010v1
Date: Wed, 4 Oct 2023 17:53:53 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-05 13:29:30.497502
Title: High-dimensional SGD aligns with emerging outlier eigenspaces
Title（参考訳）: 出現する外れ値固有空間と高次元SGD整列
Authors: Gerard Ben Arous, Reza Gheissari, Jiaoyang Huang, Aukosh Jagannath
Abstract要約: 本研究では、勾配降下(SGD)と経験的ヘッセン行列および勾配行列のスペクトルを用いたトレーニングダイナミクスの合同進化について検討する。我々は,SGD軌道がヘッセン行列と勾配行列の出現する低ランクアウトリー固有空間と急速に一致することを証明した。
参考スコア（独自算出の注目度）: 12.17329551421778
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We rigorously study the joint evolution of training dynamics via stochastic gradient descent (SGD) and the spectra of empirical Hessian and gradient matrices. We prove that in two canonical classification tasks for multi-class high-dimensional mixtures and either 1 or 2-layer neural networks, the SGD trajectory rapidly aligns with emerging low-rank outlier eigenspaces of the Hessian and gradient matrices. Moreover, in multi-layer settings this alignment occurs per layer, with the final layer's outlier eigenspace evolving over the course of training, and exhibiting rank deficiency when the SGD converges to sub-optimal classifiers. This establishes some of the rich predictions that have arisen from extensive numerical studies in the last decade about the spectra of Hessian and information matrices over the course of training in overparametrized networks.
Abstract（参考訳）: 我々は,確率勾配降下(SGD)と経験的ヘッセン行列および勾配行列のスペクトルを用いて,トレーニングダイナミクスの連成進化を厳密に研究した。多クラス高次元混合および1層または2層ニューラルネットワークの2つの標準的分類タスクにおいて、sgd軌道はヘッセン行列および勾配行列の出現する低ランク外接固有空間と高速に一致することが証明される。さらに、多層設定では、このアライメントは層ごとに発生し、最終層の外れた固有空間はトレーニングの過程で進化し、sgdがサブ最適分類器に収束するとランクが低下する。これは、過パラメータネットワークでのトレーニングの過程で、ヘッセン行列と情報行列のスペクトルに関する過去10年間の広範な数値研究から生じたリッチな予測のいくつかを確立している。

関連論文リスト

Layer-wise Quantization for Quantized Optimistic Dual Averaging [75.4148236967503]
我々は、訓練の過程で不均一性に適応し、厳密な分散とコード長境界を持つ一般的な層ワイド量子化フレームワークを開発する。本稿では,適応学習率を持つ量子最適化双対平均化(QODA)アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-05-20T13:53:58Z)
An Analytical Characterization of Sloppiness in Neural Networks: Insights from Linear Models [18.99511760351873]
近年の研究では、複数の深層ニューラルネットワークのトレーニング軌道が、驚くほど低次元の「ハイパーリボン様」多様体上で進化することが示されている。深層ネットワークと線形ネットワークの訓練軌跡の類似性から着想を得て,この現象を後者に対して解析的に特徴付ける。この低次元多様体の幾何学は, (i) トレーニングデータの入力相関行列の固有値の減衰率, (ii) トレーニング開始時の接地トラスト出力の相対スケール, (iii) 勾配勾配のステップ数によって制御されることを示す。
論文参考訳（メタデータ） (2025-05-13T19:20:19Z)
On the Convergence of (Stochastic) Gradient Descent for Kolmogorov--Arnold Networks [56.78271181959529]
Kolmogorov--Arnold Networks (KAN) はディープラーニングコミュニティで注目されている。実験により、勾配降下(SGD)により最適化されたカンが、ほぼゼロに近い訓練損失を達成できることが示された。
論文参考訳（メタデータ） (2024-10-10T15:34:10Z)
Unifying Low Dimensional Observations in Deep Learning Through the Deep Linear Unconstrained Feature Model [0.0]
深部ニューラルネットワークの重み,ヘッセン,勾配,特徴ベクトルの低次元構造について検討した。一般化された制約のない特徴モデルでそれらを統一する方法を示す。
論文参考訳（メタデータ） (2024-04-09T08:17:32Z)
Understanding Incremental Learning of Gradient Descent: A Fine-grained Analysis of Matrix Sensing [74.2952487120137]
GD(Gradient Descent)は、機械学習モデルにおいて、良い一般化に対する暗黙のバイアスをもたらすと考えられている。本稿では,行列センシング問題に対するGDのダイナミクスを詳細に解析する。
論文参考訳（メタデータ） (2023-01-27T02:30:51Z)
WLD-Reg: A Data-dependent Within-layer Diversity Regularizer [98.78384185493624]
ニューラルネットワークは、勾配に基づく最適化と共同で訓練された階層構造に配置された複数の層で構成されている。我々は、この従来の「中間層」フィードバックを補うために、同じ層内での活性化の多様性を促進するために、追加の「中間層」フィードバックを補うことを提案する。本稿では,提案手法が複数のタスクにおける最先端ニューラルネットワークモデルの性能を向上させることを実証した広範な実証研究を提案する。
論文参考訳（メタデータ） (2023-01-03T20:57:22Z)
Linearization and Identification of Multiple-Attractors Dynamical System through Laplacian Eigenmaps [8.161497377142584]
速度拡張カーネルを利用したグラフベースのスペクトルクラスタリング手法を提案し,同じダイナミックスに属するデータポイントを接続する。部分力学が線型であり、n-次元埋め込みが準線型であるような2次元埋め込み空間が常に存在することを証明する。我々は、ラプラシアン埋め込み空間から元の空間への微分同相性を学び、ラプラシアン埋め込みが良好な再構成精度とより高速な訓練時間をもたらすことを示す。
論文参考訳（メタデータ） (2022-02-18T12:43:25Z)
Phase diagram of Stochastic Gradient Descent in high-dimensional two-layer neural networks [22.823904789355495]
本研究では, 平均流体力学系とサード・アンド・ソルラのセミナルアプローチの関連について検討する。我々の研究は、統計物理学から高次元の速度を決定論的に記述することに基づいている。
論文参考訳（メタデータ） (2022-02-01T09:45:07Z)
Recycling Model Updates in Federated Learning: Are Gradient Subspaces Low-Rank? [26.055358499719027]
本稿では,この低ランク性を利用して勾配リサイクルを実現する「Look-back Gradient Multiplier(LBGM)」アルゴリズムを提案する。我々は,LBGMの収束挙動を解析的に特徴付け,通信貯蓄とモデル性能のトレードオフの性質を明らかにする。 LBGMは,既存の分散モデルトレーニングのためのスペーシフィケーション技術の上に,スタンドアロンあるいは積み重ねて使用可能な汎用的なプラグアンドプレイアルゴリズムであることを示す。
論文参考訳（メタデータ） (2022-02-01T09:05:32Z)
Learning Gaussian Mixtures with Generalised Linear Models: Precise Asymptotics in High-dimensions [79.35722941720734]
多クラス分類問題に対する一般化線形モデルは、現代の機械学習タスクの基本的な構成要素の1つである。実験的リスク最小化による高次元推定器の精度を実証する。合成データの範囲を超えて我々の理論をどのように適用できるかを論じる。
論文参考訳（メタデータ） (2021-06-07T16:53:56Z)
Joint and Progressive Subspace Analysis (JPSA) with Spatial-Spectral Manifold Alignment for Semi-Supervised Hyperspectral Dimensionality Reduction [48.73525876467408]
本稿では,超スペクトル部分空間解析のための新しい手法を提案する。この手法はジョイント・アンド・プログレッシブ・サブスペース分析(JPSA)と呼ばれる。 2つの広帯域超スペクトルデータセットに対して提案したJPSAの優位性と有効性を示す実験を行った。
論文参考訳（メタデータ） (2020-09-21T16:29:59Z)
Dual-constrained Deep Semi-Supervised Coupled Factorization Network with Enriched Prior [80.5637175255349]
本稿では、DS2CF-Netと呼ばれる、拡張された事前制約付きDual-Constrained Deep Semi-Supervised Coupled Factorization Networkを提案する。隠れた深い特徴を抽出するために、DS2CF-Netは、深い構造と幾何学的な構造に制約のあるニューラルネットワークとしてモデル化される。我々のネットワークは、表現学習とクラスタリングのための最先端の性能を得ることができる。
論文参考訳（メタデータ） (2020-09-08T13:10:21Z)
Understanding Gradient Clipping in Private SGD: A Geometric Perspective [68.61254575987013]
ディープラーニングモデルは、トレーニングデータが機密情報を含む可能性がある多くの機械学習アプリケーションで、ますます人気が高まっている。多くの学習システムは、(異なる)プライベートSGDでモデルをトレーニングすることで、差分プライバシーを取り入れている。各プライベートSGDアップデートにおける重要なステップは勾配クリッピングであり、L2ノルムがしきい値を超えると、個々の例の勾配を小さくする。
論文参考訳（メタデータ） (2020-06-27T19:08:12Z)
A block coordinate descent optimizer for classification problems exploiting convexity [0.0]
隠れ層の重み付けにおけるクロスエントロピー損失の凸性を利用した分類タスクのためのディープ線形ネットワークに座標降下法を導入する。線形層に対する大域的最適パラメータと隠蔽層への勾配勾配を求める2次法とを交互に組み合わせることで、トレーニング全体を通してデータに対する適応基底の最適適合性を確保する。
論文参考訳（メタデータ） (2020-06-17T19:49:06Z)
Dynamical mean-field theory for stochastic gradient descent in Gaussian mixture classification [25.898873960635534]
高次元景観を分類する単一層ニューラルネットワークにおける勾配降下(SGD)の閉学習ダイナミクスを解析する。連続次元勾配流に拡張可能なプロトタイププロセスを定義する。フルバッチ限界では、標準勾配流を回復する。
論文参考訳（メタデータ） (2020-06-10T22:49:41Z)
Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文参考訳（メタデータ） (2020-02-20T15:43:02Z)
On the Convex Behavior of Deep Neural Networks in Relation to the Layers' Width [99.24399270311069]
より広いネットワークにおいて、降下最適化による損失を最小限に抑え、トレーニングの開始時と終了時に正の曲率の表面を貫き、その間の曲率をほぼゼロにすることを観察する。言い換えれば、トレーニングプロセスの重要な部分において、広いネットワークにおけるヘッセンはG成分によって支配されているようである。
論文参考訳（メタデータ） (2020-01-14T16:30:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。