論文の概要: Three Mechanisms of Feature Learning in a Linear Network
- arxiv url: http://arxiv.org/abs/2401.07085v3
- Date: Fri, 21 Feb 2025 11:50:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 17:07:46.342855
- Title: Three Mechanisms of Feature Learning in a Linear Network
- Title(参考訳): リニアネットワークにおける特徴学習の3つのメカニズム
- Authors: Yizhou Xu, Liu Ziyin,
- Abstract要約: 有限幅の1次元データを用いた一層線形ネットワークの学習力学の正確な解を提案する。
特徴学習システムに特有の3つの新しいプロトタイプメカニズムを同定する。
実世界のタスクを扱うディープ非線形ネットワークにおいても,これらのメカニズムが現れることを示す実証的な証拠が得られた。
- 参考スコア(独自算出の注目度): 0.34530027457862006
- License:
- Abstract: Understanding the dynamics of neural networks in different width regimes is crucial for improving their training and performance. We present an exact solution for the learning dynamics of a one-hidden-layer linear network, with one-dimensional data, across any finite width, uniquely exhibiting both kernel and feature learning phases. This study marks a technical advancement by enabling the analysis of the training trajectory from any initialization and a detailed phase diagram under varying common hyperparameters such as width, layer-wise learning rates, and scales of output and initialization. We identify three novel prototype mechanisms specific to the feature learning regime: (1) learning by alignment, (2) learning by disalignment, and (3) learning by rescaling, which contrast starkly with the dynamics observed in the kernel regime. Our theoretical findings are substantiated with empirical evidence showing that these mechanisms also manifest in deep nonlinear networks handling real-world tasks, enhancing our understanding of neural network training dynamics and guiding the design of more effective learning strategies.
- Abstract(参考訳): 異なる幅のレジームにおけるニューラルネットワークのダイナミクスを理解することは、トレーニングとパフォーマンスを改善する上で不可欠である。
我々は,カーネルと特徴学習の両フェーズを独自に表現した,任意の有限幅の1次元データを持つ一層線形ネットワークの学習力学の正確な解を提案する。
本研究は,任意の初期化から学習軌跡を解析し,幅,層単位の学習速度,出力と初期化のスケールなど,共通パラメータの異なる詳細な位相図を作成できる技術進歩を示す。
本研究では,(1)アライメントによる学習,(2)アライメントによる学習,(3)再スケーリングによる学習という,機能学習体制に特有の3つの新しいプロトタイプメカニズムを同定する。
これらのメカニズムが実世界のタスクを扱うディープ非線形ネットワークにも現れ、ニューラルネットワークのトレーニング力学の理解を深め、より効果的な学習戦略の設計を導くという実証的な証拠が得られた。
関連論文リスト
- A Lesson in Splats: Teacher-Guided Diffusion for 3D Gaussian Splats Generation with 2D Supervision [65.33043028101471]
本研究では,ガウスプレートの拡散モデルであるSplatDiffusionを導入し,単一画像から3次元構造を生成する。
既存の方法は決定論的フィードフォワード予測に依存しており、2Dデータからの3D推論の本質的な曖昧さを扱う能力を制限する。
論文 参考訳(メタデータ) (2024-12-01T00:29:57Z) - Deep Learning Through A Telescoping Lens: A Simple Model Provides Empirical Insights On Grokking, Gradient Boosting & Beyond [61.18736646013446]
その驚くべき振る舞いをより深く理解するために、トレーニングされたニューラルネットワークの単純かつ正確なモデルの有用性について検討する。
3つのケーススタディで、様々な顕著な現象に関する新しい経験的洞察を導き出すためにどのように適用できるかを説明します。
論文 参考訳(メタデータ) (2024-10-31T22:54:34Z) - Unlocking the Secrets of Linear Complexity Sequence Model from A Unified Perspective [26.479602180023125]
LCSM(Linear Complexity Sequence Model)は、線形複雑性を伴う様々なシーケンスモデリング手法を単位とする。
これらのモデルのモデリングプロセスは、拡張、Oscillation、Shrinkの3つの異なるステージに区分する。
異なるステージ設定が言語モデリングおよび検索タスクに与える影響を分析する実験を行う。
論文 参考訳(メタデータ) (2024-05-27T17:38:55Z) - Understanding the Double Descent Phenomenon in Deep Learning [49.1574468325115]
このチュートリアルは、古典的な統計学習の枠組みを設定し、二重降下現象を導入する。
いくつかの例を見て、セクション2では、二重降下において重要な役割を果たすと思われる帰納的バイアスを導入している。
第3節は2つの線形モデルで二重降下を探索し、最近の関連する研究から他の視点を提供する。
論文 参考訳(メタデータ) (2024-03-15T16:51:24Z) - Exploiting the capacity of deep networks only at training stage for
nonlinear black-box system identification [0.0]
本研究では,深層モデルを用いた新たなトレーニング戦略を提案する。
提案する目的関数は,学習した潜伏表現間の距離ペナルティを加算した各生徒と教師モデルの目的から構成される。
論文 参考訳(メタデータ) (2023-12-26T09:32:42Z) - On the Stepwise Nature of Self-Supervised Learning [0.0]
本稿では, 自己教師あり学習法を組み込んだ共同学習の学習過程について, 簡単な図面を提示する。
これらの手法は, 離散的, 分離されたステップの列において, 1次元の高次元埋め込みを同時に学習する。
我々の理論は、カーネル回帰を教師付き学習のモデルと考えることができるように、カーネルPCAは自己教師付き学習の有用なモデルとして機能する可能性があることを示唆している。
論文 参考訳(メタデータ) (2023-03-27T17:59:20Z) - A Functional-Space Mean-Field Theory of Partially-Trained Three-Layer
Neural Networks [49.870593940818715]
本稿では,第1層がランダムで固定された3層NNモデルの無限幅限界について検討する。
我々の理論はモデルの異なるスケーリング選択に対応しており、結果としてMF制限の2つの条件が顕著な振舞いを示す。
論文 参考訳(メタデータ) (2022-10-28T17:26:27Z) - Dynamic Latent Separation for Deep Learning [67.62190501599176]
機械学習の中核的な問題は、複雑なデータに対するモデル予測のための表現力のある潜在変数を学習することである。
本稿では,表現性を向上し,部分的解釈を提供し,特定のアプリケーションに限定されないアプローチを開発する。
論文 参考訳(メタデータ) (2022-10-07T17:56:53Z) - Understanding the Role of Nonlinearity in Training Dynamics of
Contrastive Learning [37.27098255569438]
本研究では,1層および2層非線形ネットワーク上でのコントラスト学習(CL)の学習力学における非線形性の役割について検討する。
非線形性の存在は1層設定においても多くの局所最適性をもたらすことを示す。
グローバルレベルパターンの観点から識別可能な局所パターンを優先的に学習する。
論文 参考訳(メタデータ) (2022-06-02T23:52:35Z) - Phase diagram for two-layer ReLU neural networks at infinite-width limit [6.380166265263755]
我々は、2層ReLUニューラルネットワークの位相図を無限幅極限で描画する。
位相図の3つのレギュレーション、すなわち線形レギュレーション、臨界レギュレーション、凝縮レギュレーションを同定する。
線形状態においては、NNトレーニングダイナミクスは指数的損失減衰を持つランダム特徴モデルとほぼ同様の線形である。
凝縮状態において、能動ニューロンがいくつかの異なる向きで凝縮されていることを示す実験を通して、我々は実験を行う。
論文 参考訳(メタデータ) (2020-07-15T06:04:35Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。