論文の概要: A Spectral Condition for Feature Learning
- arxiv url: http://arxiv.org/abs/2310.17813v1
- Date: Thu, 26 Oct 2023 23:17:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 15:25:14.365007
- Title: A Spectral Condition for Feature Learning
- Title(参考訳): 特徴学習のためのスペクトル条件
- Authors: Greg Yang, James B. Simon, Jeremy Bernstein
- Abstract要約: 主な課題は、ネットワークの内部表現があらゆる幅で非自明に進化するようにトレーニングをスケールすることである。
特徴学習は、重みのスペクトルノルムとそれらの更新をスケーリングすることで達成されることを示す。
- 参考スコア(独自算出の注目度): 22.973133895598608
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The push to train ever larger neural networks has motivated the study of
initialization and training at large network width. A key challenge is to scale
training so that a network's internal representations evolve nontrivially at
all widths, a process known as feature learning. Here, we show that feature
learning is achieved by scaling the spectral norm of weight matrices and their
updates like $\sqrt{\texttt{fan-out}/\texttt{fan-in}}$, in contrast to widely
used but heuristic scalings based on Frobenius norm and entry size. Our
spectral scaling analysis also leads to an elementary derivation of
\emph{maximal update parametrization}. All in all, we aim to provide the reader
with a solid conceptual understanding of feature learning in neural networks.
- Abstract(参考訳): より大きなニューラルネットワークをトレーニングする動きは、ネットワーク幅の広い初期化とトレーニングの研究の動機となっている。
重要な課題は、ネットワークの内部表現があらゆる幅で非自明に進化するように、トレーニングをスケールさせることである。
ここでは,重み行列のスペクトルノルムと,それに対する$\sqrt{\textt{fan-out}/\texttt{fan-in}}$のような更新を,Frobeniusノルムとエントリサイズに基づいて,広く使用されているがヒューリスティックなスケーリングと対照的に,特徴学習が達成されることを示す。
また,スペクトルスケーリング解析により,emph{maximal update parametrization} の初等微分が導かれる。
全体として、ニューラルネットワークにおける特徴学習について、読者にしっかりとした概念的理解を提供することを目指している。
関連論文リスト
- Towards Scalable and Versatile Weight Space Learning [51.78426981947659]
本稿では,重み空間学習におけるSANEアプローチを紹介する。
ニューラルネットワーク重みのサブセットの逐次処理に向けて,超表現の概念を拡張した。
論文 参考訳(メタデータ) (2024-06-14T13:12:07Z) - LNPT: Label-free Network Pruning and Training [18.535687216213624]
トレーニング前のプルーニングは、ニューラルネットワークをスマートデバイスにデプロイすることを可能にする。
我々は,クラウド上の成熟したネットワークが,ラベルのないデータを持つスマートデバイス上でのネットワークプルーニングと学習のオンラインガイダンスを提供するための,新しい学習フレームワーク LNPT を提案する。
論文 参考訳(メタデータ) (2024-03-19T12:49:09Z) - Feature-Learning Networks Are Consistent Across Widths At Realistic
Scales [72.27228085606147]
様々なアーキテクチャやデータセットにわたる特徴学習ニューラルネットワークのダイナミクスに対する幅の影響について検討する。
トレーニングの初期、オンラインデータでトレーニングされた広範なニューラルネットワークは、損失曲線が同じであるだけでなく、トレーニング全体を通じてポイントワイドなテスト予測に一致している。
しかし、より狭いネットワークのアンサンブルは、単一のワイドネットワークよりも性能が劣っている。
論文 参考訳(メタデータ) (2023-05-28T17:09:32Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Neural networks trained with SGD learn distributions of increasing
complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。
その後、トレーニング中にのみ高次の統計を利用する。
本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文 参考訳(メタデータ) (2022-11-21T15:27:22Z) - How and what to learn:The modes of machine learning [7.085027463060304]
本稿では, 重み経路解析(WPA)と呼ばれる新しい手法を提案し, 多層ニューラルネットワークのメカニズムについて検討する。
WPAは、ニューラルネットワークが情報を「ホログラフィック」な方法で保存し、活用していることを示し、ネットワークはすべてのトレーニングサンプルをコヒーレントな構造にエンコードする。
隠れた層状ニューロンは学習過程の後半で異なるクラスに自己組織化することが判明した。
論文 参考訳(メタデータ) (2022-02-28T14:39:06Z) - Dynamic Inference with Neural Interpreters [72.90231306252007]
本稿では,モジュールシステムとしての自己アテンションネットワークにおける推論を分解するアーキテクチャであるNeural Interpretersを提案する。
モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。
ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
論文 参考訳(メタデータ) (2021-10-12T23:22:45Z) - Reasoning-Modulated Representations [85.08205744191078]
タスクが純粋に不透明でないような共通的な環境について研究する。
我々のアプローチは、新しいデータ効率表現学習の道を開く。
論文 参考訳(メタデータ) (2021-07-19T13:57:13Z) - Fast Adaptation with Linearized Neural Networks [35.43406281230279]
ニューラルネットワークの線形化の帰納的バイアスについて検討し,全ネットワーク関数の驚くほどよい要約であることを示した。
この発見に触発されて,これらの帰納的バイアスをネットワークのヤコビアンから設計されたカーネルを通してガウス過程に埋め込む手法を提案する。
この設定では、領域適応は不確実性推定を伴う解釈可能な後方推論の形式を取る。
論文 参考訳(メタデータ) (2021-03-02T03:23:03Z) - The Surprising Simplicity of the Early-Time Learning Dynamics of Neural
Networks [43.860358308049044]
研究において、これらの共通認識は、学習の初期段階において完全に誤りであることを示す。
この驚くべき単純さは、畳み込みアーキテクチャを持つより多くのレイヤを持つネットワークで持続することができる、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T17:42:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。