論文の概要: Low Rank Gradients and Where to Find Them
- arxiv url: http://arxiv.org/abs/2510.01303v1
- Date: Wed, 01 Oct 2025 16:20:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.803624
- Title: Low Rank Gradients and Where to Find Them
- Title(参考訳): 低位階の勾配と場所
- Authors: Rishi Sonthalia, Michael Murray, Guido Montúfar,
- Abstract要約: バルクを異方性と不規則にすることができるスパイクされたデータモデルを考える。
入力重みに対する勾配は, ほぼ低ランクであることを示す。
また、重み劣化、入力雑音、ジャコビアン罰則などの標準正規化器もこれらの成分を選択的に変調することを示した。
- 参考スコア(独自算出の注目度): 25.107551106396958
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates low-rank structure in the gradients of the training loss for two-layer neural networks while relaxing the usual isotropy assumptions on the training data and parameters. We consider a spiked data model in which the bulk can be anisotropic and ill-conditioned, we do not require independent data and weight matrices and we also analyze both the mean-field and neural-tangent-kernel scalings. We show that the gradient with respect to the input weights is approximately low rank and is dominated by two rank-one terms: one aligned with the bulk data-residue , and another aligned with the rank one spike in the input data. We characterize how properties of the training data, the scaling regime and the activation function govern the balance between these two components. Additionally, we also demonstrate that standard regularizers, such as weight decay, input noise and Jacobian penalties, also selectively modulate these components. Experiments on synthetic and real data corroborate our theoretical predictions.
- Abstract(参考訳): 本稿では,2層ニューラルネットワークのトレーニング損失勾配における低ランク構造について検討し,トレーニングデータとパラメータの通常の等方性仮定を緩和する。
我々は、バルクが異方性と不調和であり、独立したデータと重み行列を必要としないスパイクされたデータモデルを考えるとともに、平均場とニューラルタングエントカーネルのスケーリングを解析する。
入力重みに対する勾配は, ほぼ低ランクであり, 2つのランク1項が支配的であり, 1つはバルクデータ残差に一致し, 1つは入力データのスパイクに一致していることを示す。
トレーニングデータの特性,スケーリング機構,アクティベーション関数が,これらの2つのコンポーネント間のバランスをどのように管理するかを特徴付ける。
さらに、重量減衰、入力雑音、ジャコビアン罰則などの標準正規化器もこれらの成分を選択的に変調することを示した。
合成および実データに関する実験は、我々の理論的予測を裏付ける。
関連論文リスト
- Localized Gaussians as Self-Attention Weights for Point Clouds Correspondence [92.07601770031236]
本稿では,エンコーダのみのトランスフォーマーアーキテクチャのアテンションヘッドにおける意味的意味パターンについて検討する。
注意重みの修正はトレーニングプロセスの促進だけでなく,最適化の安定性の向上にも寄与する。
論文 参考訳(メタデータ) (2024-09-20T07:41:47Z) - Assessing Neural Network Representations During Training Using
Noise-Resilient Diffusion Spectral Entropy [55.014926694758195]
ニューラルネットワークにおけるエントロピーと相互情報は、学習プロセスに関する豊富な情報を提供する。
データ幾何を利用して基礎となる多様体にアクセスし、これらの情報理論測度を確実に計算する。
本研究は,高次元シミュレーションデータにおける固有次元と関係強度の耐雑音性の測定結果である。
論文 参考訳(メタデータ) (2023-12-04T01:32:42Z) - Gradient-Based Feature Learning under Structured Data [57.76552698981579]
異方性設定では、一般的に使用される球面勾配力学は真の方向を回復できないことがある。
バッチ正規化を連想させる適切な重み正規化は、この問題を軽減することができることを示す。
特に、スパイクモデルの下では、勾配に基づくトレーニングのサンプルの複雑さは情報指数とは独立にできる。
論文 参考訳(メタデータ) (2023-09-07T16:55:50Z) - Capturing dynamical correlations using implicit neural representations [85.66456606776552]
実験データから未知のパラメータを復元するために、モデルハミルトンのシミュレーションデータを模倣するために訓練されたニューラルネットワークと自動微分を組み合わせた人工知能フレームワークを開発する。
そこで本研究では, 実時間から多次元散乱データに適用可能な微分可能なモデルを1回だけ構築し, 訓練する能力について述べる。
論文 参考訳(メタデータ) (2023-04-08T07:55:36Z) - Deep learning for full-field ultrasonic characterization [7.120879473925905]
本研究では、最近の機械学習の進歩を活用して、物理に基づくデータ分析プラットフォームを構築する。
直接反転と物理インフォームドニューラルネットワーク(PINN)の2つの論理について検討した。
論文 参考訳(メタデータ) (2023-01-06T05:01:05Z) - Physics-Informed Neural Networks for Material Model Calibration from
Full-Field Displacement Data [0.0]
本研究では,実環境下でのフルフィールド変位と大域力データからモデルのキャリブレーションを行うためのPINNを提案する。
拡張PINNは、実験的な1次元データと合成フルフィールド変位データの両方から材料パラメータを識別できることを実証した。
論文 参考訳(メタデータ) (2022-12-15T11:01:32Z) - Benign Overfitting without Linearity: Neural Network Classifiers Trained by Gradient Descent for Noisy Linear Data [39.53312099194621]
勾配降下による一般化を訓練した2層ニューラルネットワークの一般化誤差を考察する。
ニューラルネットワークはトレーニングエラーをゼロにし、ノイズの多いトレーニングラベルを完璧に適合させ、同時に最小限のテストエラーを達成できる。
線形あるいはカーネルベースの予測器を必要とする良性オーバーフィッティングに関するこれまでの研究とは対照的に、我々の分析はモデルと学習力学の両方が基本的に非線形であるような環境で成り立っている。
論文 参考訳(メタデータ) (2022-02-11T23:04:00Z) - Data Scaling Laws in NMT: The Effect of Noise and Architecture [59.767899982937756]
ニューラルネットワーク翻訳(NMT)のデータスケーリング特性に及ぼすアーキテクチャとトレーニングデータ品質の影響について検討する。
データスケーリング指数は最小限の影響を受けており、より多くのデータを追加することで、極端に悪いアーキテクチャやトレーニングデータの補償が可能になることを示唆しています。
論文 参考訳(メタデータ) (2022-02-04T06:53:49Z) - The Interplay Between Implicit Bias and Benign Overfitting in Two-Layer
Linear Networks [51.1848572349154]
ノイズの多いデータに完全に適合するニューラルネットワークモデルは、見当たらないテストデータにうまく一般化できる。
我々は,2層線形ニューラルネットワークを2乗損失の勾配流で補間し,余剰リスクを導出する。
論文 参考訳(メタデータ) (2021-08-25T22:01:01Z) - More data or more parameters? Investigating the effect of data structure
on generalization [17.249712222764085]
データの特性は、トレーニング例の数とトレーニングパラメータの数の関数としてテストエラーに影響を与えます。
ラベル内のノイズや入力データの強い異方性がテストエラーと同じような役割を担っていることを示す。
論文 参考訳(メタデータ) (2021-03-09T16:08:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。