論文の概要: Grokking in Linear Models for Logistic Regression
- arxiv url: http://arxiv.org/abs/2602.08302v1
- Date: Mon, 09 Feb 2026 06:16:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.084603
- Title: Grokking in Linear Models for Logistic Regression
- Title(参考訳): 論理的回帰のための線形モデルにおけるグロッキング
- Authors: Nataraj Das, Atreya Vedantam, Chandrashekar Lakshminarayanan,
- Abstract要約: 遅延一般化の現象であるグロキングは、ディープニューラルネットワークの深さと構成構造に起因することが多い。
本研究は,2値分類のためのロジスティックな損失を持つ線形モデルの学習を,原点について線形(および最大辺縁)に分離可能なデータに対して,最も単純な設定の1つで検討する。
- 参考スコア(独自算出の注目度): 0.9332987715848714
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Grokking, the phenomenon of delayed generalization, is often attributed to the depth and compositional structure of deep neural networks. We study grokking in one of the simplest possible settings: the learning of a linear model with logistic loss for binary classification on data that are linearly (and max margin) separable about the origin. We investigate three testing regimes: (1) test data drawn from the same distribution as the training data, in which case grokking is not observed; (2) test data concentrated around the margin, in which case grokking is observed; and (3) adversarial test data generated via projected gradient descent (PGD) attacks, in which case grokking is also observed. We theoretically show that the implicit bias of gradient descent induces a three-phase learning process-population-dominated, support-vector-dominated unlearning, and support-vector-dominated generalization-during which delayed generalization can arise. Our analysis further relates the emergence of grokking to asymmetries in the data, both in the number of examples per class and in the distribution of support vectors across classes, and yields a characterization of the grokking time. We experimentally validate our theory by planting different distributions of population points and support vectors, and by analyzing accuracy curves and hyperplane dynamics. Overall, our results demonstrate that grokking does not require depth or representation learning, and can emerge even in linear models through the dynamics of the bias term.
- Abstract(参考訳): 遅延一般化の現象であるグロキングは、ディープニューラルネットワークの深さと構成構造に起因することが多い。
本研究は,2値分類のためのロジスティックな損失を持つ線形モデルの学習を,原点について線形(および最大辺縁)に分離可能なデータに対して,最も単純な設定の1つで検討する。
本研究では,(1)グルーキングが観察されないトレーニングデータと同じ分布から抽出されたテストデータ,(2)グルーキングが観察されるマージンを中心に集中したテストデータ,(3)投射勾配降下(PGD)攻撃によって生成された逆テストデータ,(3)グルーキングが観察されるテストデータ,の3つについて検討する。
理論的には、勾配降下の暗黙バイアスは、3段階の学習プロセス支配、サポートベクター支配の未学習、サポートベクター支配の一般化の遅れを引き起こすことが示される。
我々の分析は、クラスごとのサンプル数とクラス間のサポートベクトルの分布の両方において、データ中のグルーキングの出現を非対称性に関連付け、グルーキング時間の特徴を与える。
我々は,集団点と支持ベクトルの異なる分布を植え付け,精度曲線と超平面力学を解析することによって,我々の理論を実験的に検証した。
全体として,グラクキングは深度学習や表現学習を必要とせず,偏り項の力学を通して線形モデルでも現れることを示した。
関連論文リスト
- Generalization Below the Edge of Stability: The Role of Data Geometry [60.147710896851045]
安定性の限界以下で訓練されたReLUネットワークにおいて,データ幾何が一般化を制御するかを示す。
低次元球の混合に支持されるデータ分布について、本質的な次元に確実に適応する一般化境界を導出する。
文献に現れる異種の経験的所見を総合的に検討した。
論文 参考訳(メタデータ) (2025-10-20T21:40:36Z) - In-Context Linear Regression Demystified: Training Dynamics and Mechanistic Interpretability of Multi-Head Softmax Attention [52.159541540613915]
本研究では,マルチヘッド型ソフトマックスアテンションモデルを用いて,線形データを用いたコンテキスト内学習を行う方法について検討する。
この結果から,学習内容の学習能力は,そのアーキテクチャと基礎となるデータ分布の集約的効果として,訓練されたトランスフォーマーから出現することが明らかとなった。
論文 参考訳(メタデータ) (2025-03-17T02:00:49Z) - Learning Linear Causal Representations from Interventions under General
Nonlinear Mixing [52.66151568785088]
介入対象にアクセスできることなく、未知の単一ノード介入を考慮し、強い識別可能性を示す。
これは、ディープニューラルネットワークの埋め込みに対する非ペアの介入による因果識別性の最初の例である。
論文 参考訳(メタデータ) (2023-06-04T02:32:12Z) - Gradient flow in the gaussian covariate model: exact solution of
learning curves and multiple descent structures [14.578025146641806]
一般化曲線の全時間進化を完全かつ統一的に解析する。
この理論予測は,現実的なデータセットよりも勾配降下によって得られる学習曲線と適切に一致していることを示す。
論文 参考訳(メタデータ) (2022-12-13T17:39:18Z) - Benign Overfitting without Linearity: Neural Network Classifiers Trained by Gradient Descent for Noisy Linear Data [39.53312099194621]
勾配降下による一般化を訓練した2層ニューラルネットワークの一般化誤差を考察する。
ニューラルネットワークはトレーニングエラーをゼロにし、ノイズの多いトレーニングラベルを完璧に適合させ、同時に最小限のテストエラーを達成できる。
線形あるいはカーネルベースの予測器を必要とする良性オーバーフィッティングに関するこれまでの研究とは対照的に、我々の分析はモデルと学習力学の両方が基本的に非線形であるような環境で成り立っている。
論文 参考訳(メタデータ) (2022-02-11T23:04:00Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - Model, sample, and epoch-wise descents: exact solution of gradient flow
in the random feature model [16.067228939231047]
勾配流下での一般化および訓練誤差の全時間的挙動を解析する。
システムサイズが大きければ、両方のエラーの完全な時間進化経路を解析的に計算できることが示される。
我々の手法は、線形鉛筆に基づく最近のランダム行列法とともに、誤差のコーシー複素積分表現に基づいている。
論文 参考訳(メタデータ) (2021-10-22T14:25:54Z) - The Interplay Between Implicit Bias and Benign Overfitting in Two-Layer
Linear Networks [51.1848572349154]
ノイズの多いデータに完全に適合するニューラルネットワークモデルは、見当たらないテストデータにうまく一般化できる。
我々は,2層線形ニューラルネットワークを2乗損失の勾配流で補間し,余剰リスクを導出する。
論文 参考訳(メタデータ) (2021-08-25T22:01:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。