論文の概要: The Weight Gram Matrix Captures Sequential Feature Linearization in Deep Networks
- arxiv url: http://arxiv.org/abs/2605.06258v1
- Date: Thu, 07 May 2026 13:35:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.849615
- Title: The Weight Gram Matrix Captures Sequential Feature Linearization in Deep Networks
- Title(参考訳): 重み付きグラム行列による深部ネットワークの逐次特徴線形化
- Authors: Taehun Cha, Daniel Beaglehole, Adityanarayanan Radhakrishnan, Donghun Lee,
- Abstract要約: ディープニューラルネットワークがどのように学習するかを理解することは、マシンラーニング理論における中心的な課題である。
本稿では,重み更新と特徴進化を関連づけたニューラルネットワーク学習のための特徴中心フレームワークを提案する。
トレーニングとレイヤーワイドのダイナミクスを解析することにより、ディープネットワークは、ターゲット-線形構造への表現の逐次変換を学習することを示す。
- 参考スコア(独自算出の注目度): 10.475180266869081
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Understanding how deep neural networks learn representations remains a central challenge in machine learning theory. In this work, we propose a feature-centric framework for analyzing neural network training by relating weight updates to feature evolution. We introduce a simple identity, the Feature Learning Equation, which identifies the weight Gram matrix as the key object capturing feature dynamics. This enables us to interpret gradient descent as implicitly inducing a hypothetical evolution of features, whose covariance structure - termed the Virtual Covariance - characterizes how representations evolve during training. Building on this perspective, we introduce Target Linearity, a measure quantifying the linear alignment between features and targets. By analyzing the training and layer-wise dynamics, we show that deep networks learn to sequentially transform representations toward target-linear structure. This linearization perspective provides a unified interpretation of several empirical phenomena, including Neural Collapse and linear interpolation in generative models.
- Abstract(参考訳): ディープニューラルネットワークが表現をどのように学習するかを理解することは、マシンラーニング理論における中心的な課題である。
本研究では,重み更新と特徴進化を関連付けることにより,ニューラルネットワークのトレーニングを分析する機能中心フレームワークを提案する。
本稿では,重み付きグラム行列を特徴ダイナミクスのキーオブジェクトとして識別する特徴学習方程式を提案する。
これにより、勾配降下を、仮想共分散構造と呼ばれる特徴の仮説的進化を暗黙的に引き起こすものとして解釈することができ、トレーニング中に表現がどのように進化するかを特徴付けることができる。
この観点から、特徴と目標の間の線形アライメントを定量化する尺度であるTarget Linearityを導入する。
トレーニングとレイヤーワイドのダイナミクスを解析することにより、ディープネットワークは、ターゲット-線形構造への表現の逐次変換を学習することを示す。
この線形化の観点は、生成モデルにおけるニューラル崩壊や線形補間を含むいくつかの経験的現象を統一的に解釈する。
関連論文リスト
- Concept-Guided Interpretability via Neural Chunking [64.6429903327095]
ニューラルネットワークは、トレーニングデータの規則性を反映した生の集団活動のパターンを示す。
神経集団レベルで繰り返しチャンクを抽出する3つの方法を提案する。
私たちの研究は、認知原則と自然主義的データの構造の両方を活用する、解釈可能性の新しい方向性を指し示しています。
論文 参考訳(メタデータ) (2025-05-16T13:49:43Z) - An Analytical Characterization of Sloppiness in Neural Networks: Insights from Linear Models [18.99511760351873]
近年の研究では、複数の深層ニューラルネットワークのトレーニング軌道が、驚くほど低次元の「ハイパーリボン様」多様体上で進化することが示されている。
深層ネットワークと線形ネットワークの訓練軌跡の類似性から着想を得て,この現象を後者に対して解析的に特徴付ける。
この低次元多様体の幾何学は, (i) トレーニングデータの入力相関行列の固有値の減衰率, (ii) トレーニング開始時の接地トラスト出力の相対スケール, (iii) 勾配勾配のステップ数によって制御されることを示す。
論文 参考訳(メタデータ) (2025-05-13T19:20:19Z) - Predicting Steady-State Behavior in Complex Networks with Graph Neural Networks [0.0]
複雑なシステムでは、情報伝達は拡散または非局在化、弱局所化、強局所化と定義できる。
本研究では,線形力学系のネットワーク上での挙動を学習するために,グラフニューラルネットワークモデルの適用について検討する。
論文 参考訳(メタデータ) (2025-02-02T17:29:10Z) - Network Dynamics-Based Framework for Understanding Deep Neural Networks [8.376259475051974]
本稿では,動的システム理論のレンズを通して学習力学を解析するための理論的枠組みを提案する。
ニューラルネットワークの線形性と非線形性の概念をニューロンレベルで2つの基本変換単位を導入することにより再定義する。
異なる変換モードは、重みベクトルの組織、異なる情報抽出のモード、質的に異なる学習フェーズの出現において、異なる集団的挙動をもたらす。
論文 参考訳(メタデータ) (2025-01-05T04:23:21Z) - Deep Learning Through A Telescoping Lens: A Simple Model Provides Empirical Insights On Grokking, Gradient Boosting & Beyond [61.18736646013446]
その驚くべき振る舞いをより深く理解するために、トレーニングされたニューラルネットワークの単純かつ正確なモデルの有用性について検討する。
3つのケーススタディで、様々な顕著な現象に関する新しい経験的洞察を導き出すためにどのように適用できるかを説明します。
論文 参考訳(メタデータ) (2024-10-31T22:54:34Z) - Coding schemes in neural networks learning classification tasks [52.22978725954347]
完全接続型広義ニューラルネットワーク学習タスクについて検討する。
ネットワークが強力なデータ依存機能を取得することを示す。
驚くべきことに、内部表現の性質は神経の非線形性に大きく依存する。
論文 参考訳(メタデータ) (2024-06-24T14:50:05Z) - Dynamical stability and chaos in artificial neural network trajectories along training [3.379574469735166]
浅いニューラルネットワークのネットワーク軌跡をこのレンズを通して解析することにより,このプロセスの動的特性について検討する。
我々は,学習率の仕組みによって,規則的かつカオス的な行動のヒントを見いだす。
この研究は、力学系理論、ネットワーク理論、機械学習のアイデアの交叉受精にも貢献している。
論文 参考訳(メタデータ) (2024-04-08T17:33:11Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。