論文の概要: Position: Solve Layerwise Linear Models First to Understand Neural Dynamical Phenomena (Neural Collapse, Emergence, Lazy/Rich Regime, and Grokking)
- arxiv url: http://arxiv.org/abs/2502.21009v1
- Date: Fri, 28 Feb 2025 12:52:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:43:08.888069
- Title: Position: Solve Layerwise Linear Models First to Understand Neural Dynamical Phenomena (Neural Collapse, Emergence, Lazy/Rich Regime, and Grokking)
- Title(参考訳): 位置: まずニューラルネットワークの動的現象を理解するために階層的線形モデルを解く(ニューラル崩壊、創発、遅延/リッチレジーム、グロッキング)
- Authors: Yoonsoo Nam, Seok Hyeong Lee, Clementine Domine, Yea Chan Park, Charles London, Wonyl Choi, Niclas Goring, Seungjai Lee,
- Abstract要約: 機械学習では、階層的な線形モデルはニューラルネットワークのダイナミクスを単純化した表現として機能する。
これらのモデルは動的フィードバックの原則に従い、レイヤが相互に統治し、互いの進化を増幅する方法を記述する。
- 参考スコア(独自算出の注目度): 0.8130739369606821
- License:
- Abstract: In physics, complex systems are often simplified into minimal, solvable models that retain only the core principles. In machine learning, layerwise linear models (e.g., linear neural networks) act as simplified representations of neural network dynamics. These models follow the dynamical feedback principle, which describes how layers mutually govern and amplify each other's evolution. This principle extends beyond the simplified models, successfully explaining a wide range of dynamical phenomena in deep neural networks, including neural collapse, emergence, lazy and rich regimes, and grokking. In this position paper, we call for the use of layerwise linear models retaining the core principles of neural dynamical phenomena to accelerate the science of deep learning.
- Abstract(参考訳): 物理学において、複雑なシステムは、しばしば基本原理のみを保持する最小限の可解なモデルに単純化される。
機械学習では、階層的線形モデル(例えば線形ニューラルネットワーク)がニューラルネットワークのダイナミクスを単純化した表現として機能する。
これらのモデルは動的フィードバックの原則に従い、レイヤが相互に統治し、互いの進化を増幅する方法を記述する。
この原理は、単純化されたモデルを超えて、神経崩壊、出現、遅延とリッチなレシエーション、グラッキングなど、ディープニューラルネットワークの幅広い力学現象を説明することに成功している。
本稿では、ディープラーニングの科学を加速するために、神経力学現象の核となる原理を保った階層的線形モデルを使用することを提唱する。
関連論文リスト
- Transformer Dynamics: A neuroscientific approach to interpretability of large language models [0.0]
我々はトランスモデルにおける残留ストリーム(RS)に注目し、層をまたいで進化する動的システムとして概念化する。
個々のRSユニットの活性化は、RSが非特権ベースであるにもかかわらず、層間において強い連続性を示す。
縮小次元空間において、RS は下層に誘引子のようなダイナミクスを持つ曲線軌道に従う。
論文 参考訳(メタデータ) (2025-02-17T18:49:40Z) - From Lazy to Rich: Exact Learning Dynamics in Deep Linear Networks [47.13391046553908]
人工ネットワークでは、これらのモデルの有効性はタスク固有の表現を構築する能力に依存している。
以前の研究では、異なる初期化によって、表現が静的な遅延状態にあるネットワークや、表現が動的に進化するリッチ/フィーチャーな学習体制のいずれかにネットワークを配置できることが強調されていた。
これらの解は、豊かな状態から遅延状態までのスペクトルにわたる表現とニューラルカーネルの進化を捉えている。
論文 参考訳(メタデータ) (2024-09-22T23:19:04Z) - A spring-block theory of feature learning in deep neural networks [11.396919965037636]
特徴学習深層ネットは、定期的に低次元の幾何学にデータを徐々に崩壊させる。
この現象は, 非線形性, ノイズ, 学習率, および力学を形作る他の選択の集合的作用から生じることを示す。
ダイアグラムを再現するマクロメカニカル理論を提案し、DNNのいくつかが遅延でアクティブな理由を説明し、層をまたいだ特徴学習と一般化をリンクする。
論文 参考訳(メタデータ) (2024-07-28T00:07:20Z) - Mechanistic Neural Networks for Scientific Machine Learning [58.99592521721158]
我々は、科学における機械学習応用のためのニューラルネットワーク設計であるメカニスティックニューラルネットワークを提案する。
新しいメカニスティックブロックを標準アーキテクチャに組み込んで、微分方程式を表現として明示的に学習する。
我々のアプローチの中心は、線形プログラムを解くために線形ODEを解く技術に着想を得た、新しい線形計画解法(NeuRLP)である。
論文 参考訳(メタデータ) (2024-02-20T15:23:24Z) - The least-control principle for learning at equilibrium [65.2998274413952]
我々は、平衡反復ニューラルネットワーク、深層平衡モデル、メタラーニングを学ぶための新しい原理を提案する。
私たちの結果は、脳がどのように学習するかを明らかにし、幅広い機械学習問題にアプローチする新しい方法を提供します。
論文 参考訳(メタデータ) (2022-07-04T11:27:08Z) - Decomposed Linear Dynamical Systems (dLDS) for learning the latent
components of neural dynamics [6.829711787905569]
本稿では,時系列データの非定常および非線形の複雑なダイナミクスを表現した新しい分解力学系モデルを提案する。
我々のモデルは辞書学習によって訓練され、最近の結果を利用してスパースベクトルを時間とともに追跡する。
連続時間と離散時間の両方の指導例において、我々のモデルは元のシステムによく近似できることを示した。
論文 参考訳(メタデータ) (2022-06-07T02:25:38Z) - Constructing Neural Network-Based Models for Simulating Dynamical
Systems [59.0861954179401]
データ駆動モデリングは、真のシステムの観測からシステムの力学の近似を学ぼうとする代替パラダイムである。
本稿では,ニューラルネットワークを用いた動的システムのモデル構築方法について検討する。
基礎的な概要に加えて、関連する文献を概説し、このモデリングパラダイムが克服すべき数値シミュレーションから最も重要な課題を概説する。
論文 参考訳(メタデータ) (2021-11-02T10:51:42Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z) - Learning Stable Deep Dynamics Models [91.90131512825504]
状態空間全体にわたって安定することが保証される力学系を学習するためのアプローチを提案する。
このような学習システムは、単純な力学系をモデル化することができ、複雑な力学を学習するために追加の深層生成モデルと組み合わせることができることを示す。
論文 参考訳(メタデータ) (2020-01-17T00:04:45Z) - Controlling Recurrent Neural Networks by Conceptors [0.5439020425818999]
本稿では, 非線形力学と概念抽象と論理の基本原理を結合した, 概念論という, 神経力学の機構を提案する。
単一のニューラルネットワーク内の多数の動的パターンを学習、保存、抽象化、フォーカス、モーフィック、一般化、デノイズ化、認識することが可能になります。
論文 参考訳(メタデータ) (2014-03-13T18:58:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。