論文の概要: When Does Feature Learning Happen? Perspective from an Analytically
Solvable Model
- arxiv url: http://arxiv.org/abs/2401.07085v1
- Date: Sat, 13 Jan 2024 14:21:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 19:41:26.109196
- Title: When Does Feature Learning Happen? Perspective from an Analytically
Solvable Model
- Title(参考訳): 機能学習はいつ起こるのか?
解析可解モデルからの展望
- Authors: Yizhou Xu and Liu Ziyin
- Abstract要約: 有限幅で解析的に抽出可能な隠れ層モデルの同定と解法を行う。
無限幅モデルと有限幅モデルの両方で特徴学習がいつ起こるかを分析する。
- 参考スコア(独自算出の注目度): 0.40792653193642503
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We identify and solve a hidden-layer model that is analytically tractable at
any finite width and whose limits exhibit both the kernel phase and the feature
learning phase. We analyze the phase diagram of this model in all possible
limits of common hyperparameters including width, layer-wise learning rates,
scale of output, and scale of initialization. We apply our result to analyze
how and when feature learning happens in both infinite and finite-width models.
Three prototype mechanisms of feature learning are identified: (1) learning by
alignment, (2) learning by disalignment, and (3) learning by rescaling. In
sharp contrast, neither of these mechanisms is present when the model is in the
kernel regime. This discovery explains why large initialization often leads to
worse performance. Lastly, we empirically demonstrate that discoveries we made
for this analytical model also appear in nonlinear networks in real tasks.
- Abstract(参考訳): 我々は,任意の有限幅で解析可能で,カーネル位相と特徴学習位相の両方を示す隠れ層モデルを特定し,解く。
我々は、このモデルの位相図を、幅、層毎学習率、出力スケール、初期化のスケールなど、一般的なハイパーパラメータのあらゆる限界で解析する。
本研究では,無限幅モデルと有限幅モデルの両方で特徴学習がいつ起こるかを分析する。
1)アライメントによる学習,(2)不一致による学習,(3)再スケーリングによる学習の3つの試作メカニズムが同定された。
対照的に、モデルがカーネルレジーム内にある場合、これらのメカニズムは存在しません。
この発見は、大規模な初期化がパフォーマンスを悪化させる理由を説明する。
最後に、この解析モデルで行った発見が実際のタスクで非線形ネットワークにも現れることを実証的に示す。
関連論文リスト
- Deep Learning Through A Telescoping Lens: A Simple Model Provides Empirical Insights On Grokking, Gradient Boosting & Beyond [61.18736646013446]
その驚くべき振る舞いをより深く理解するために、トレーニングされたニューラルネットワークの単純かつ正確なモデルの有用性について検討する。
3つのケーススタディで、様々な顕著な現象に関する新しい経験的洞察を導き出すためにどのように適用できるかを説明します。
論文 参考訳(メタデータ) (2024-10-31T22:54:34Z) - Unlocking the Secrets of Linear Complexity Sequence Model from A Unified Perspective [26.479602180023125]
LCSM(Linear Complexity Sequence Model)は、線形複雑性を伴う様々なシーケンスモデリング手法を単位とする。
これらのモデルのモデリングプロセスは、拡張、Oscillation、Shrinkの3つの異なるステージに区分する。
異なるステージ設定が言語モデリングおよび検索タスクに与える影響を分析する実験を行う。
論文 参考訳(メタデータ) (2024-05-27T17:38:55Z) - Understanding the Double Descent Phenomenon in Deep Learning [49.1574468325115]
このチュートリアルは、古典的な統計学習の枠組みを設定し、二重降下現象を導入する。
いくつかの例を見て、セクション2では、二重降下において重要な役割を果たすと思われる帰納的バイアスを導入している。
第3節は2つの線形モデルで二重降下を探索し、最近の関連する研究から他の視点を提供する。
論文 参考訳(メタデータ) (2024-03-15T16:51:24Z) - Exploiting the capacity of deep networks only at training stage for
nonlinear black-box system identification [0.0]
本研究では,深層モデルを用いた新たなトレーニング戦略を提案する。
提案する目的関数は,学習した潜伏表現間の距離ペナルティを加算した各生徒と教師モデルの目的から構成される。
論文 参考訳(メタデータ) (2023-12-26T09:32:42Z) - On the Stepwise Nature of Self-Supervised Learning [0.0]
本稿では, 自己教師あり学習法を組み込んだ共同学習の学習過程について, 簡単な図面を提示する。
これらの手法は, 離散的, 分離されたステップの列において, 1次元の高次元埋め込みを同時に学習する。
我々の理論は、カーネル回帰を教師付き学習のモデルと考えることができるように、カーネルPCAは自己教師付き学習の有用なモデルとして機能する可能性があることを示唆している。
論文 参考訳(メタデータ) (2023-03-27T17:59:20Z) - A Functional-Space Mean-Field Theory of Partially-Trained Three-Layer
Neural Networks [49.870593940818715]
本稿では,第1層がランダムで固定された3層NNモデルの無限幅限界について検討する。
我々の理論はモデルの異なるスケーリング選択に対応しており、結果としてMF制限の2つの条件が顕著な振舞いを示す。
論文 参考訳(メタデータ) (2022-10-28T17:26:27Z) - Dynamic Latent Separation for Deep Learning [67.62190501599176]
機械学習の中核的な問題は、複雑なデータに対するモデル予測のための表現力のある潜在変数を学習することである。
本稿では,表現性を向上し,部分的解釈を提供し,特定のアプリケーションに限定されないアプローチを開発する。
論文 参考訳(メタデータ) (2022-10-07T17:56:53Z) - Understanding the Role of Nonlinearity in Training Dynamics of
Contrastive Learning [37.27098255569438]
本研究では,1層および2層非線形ネットワーク上でのコントラスト学習(CL)の学習力学における非線形性の役割について検討する。
非線形性の存在は1層設定においても多くの局所最適性をもたらすことを示す。
グローバルレベルパターンの観点から識別可能な局所パターンを優先的に学習する。
論文 参考訳(メタデータ) (2022-06-02T23:52:35Z) - Learning Multi-Granular Spatio-Temporal Graph Network for Skeleton-based
Action Recognition [49.163326827954656]
骨格に基づく行動分類のための新しい多言語時空間グラフネットワークを提案する。
2つの枝の枝からなるデュアルヘッドグラフネットワークを開発し、少なくとも2つの時間分解能を抽出する。
3つの大規模データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-08-10T09:25:07Z) - Phase diagram for two-layer ReLU neural networks at infinite-width limit [6.380166265263755]
我々は、2層ReLUニューラルネットワークの位相図を無限幅極限で描画する。
位相図の3つのレギュレーション、すなわち線形レギュレーション、臨界レギュレーション、凝縮レギュレーションを同定する。
線形状態においては、NNトレーニングダイナミクスは指数的損失減衰を持つランダム特徴モデルとほぼ同様の線形である。
凝縮状態において、能動ニューロンがいくつかの異なる向きで凝縮されていることを示す実験を通して、我々は実験を行う。
論文 参考訳(メタデータ) (2020-07-15T06:04:35Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。