論文の概要: Unveiling the Training Dynamics of ReLU Networks through a Linear Lens
- arxiv url: http://arxiv.org/abs/2511.05628v1
- Date: Fri, 07 Nov 2025 02:59:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.511319
- Title: Unveiling the Training Dynamics of ReLU Networks through a Linear Lens
- Title(参考訳): リニアレンズによるReLUネットワークのトレーニングダイナミクスの展開
- Authors: Longqing Ye,
- Abstract要約: 我々は多層ReLUネットワークを入力依存の「有効重み」を持つ単層線形モデルに再キャストする。
任意の入力サンプルに対して、ReLUユニットの活性化パターンはユニークな計算経路を生成する。
トレーニングが進むにつれて、同じクラスのサンプルに対応する効果的な重みが収束し、異なるクラスのものが分岐する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks, particularly those employing Rectified Linear Units (ReLU), are often perceived as complex, high-dimensional, non-linear systems. This complexity poses a significant challenge to understanding their internal learning mechanisms. In this work, we propose a novel analytical framework that recasts a multi-layer ReLU network into an equivalent single-layer linear model with input-dependent "effective weights". For any given input sample, the activation pattern of ReLU units creates a unique computational path, effectively zeroing out a subset of weights in the network. By composing the active weights across all layers, we can derive an effective weight matrix, $W_{\text{eff}}(x)$, that maps the input directly to the output for that specific sample. We posit that the evolution of these effective weights reveals fundamental principles of representation learning. Our work demonstrates that as training progresses, the effective weights corresponding to samples from the same class converge, while those from different classes diverge. By tracking the trajectories of these sample-wise effective weights, we provide a new lens through which to interpret the formation of class-specific decision boundaries and the emergence of semantic representations within the network.
- Abstract(参考訳): ディープニューラルネットワーク、特にRectified Linear Units (ReLU) を使用しているものは、複雑で高次元の非線形システムとして認識されることが多い。
この複雑さは、内部学習メカニズムを理解する上で大きな課題となる。
本研究では,多層ReLUネットワークを入力依存の「有効重み」を持つ等価単層線形モデルに再キャストする新しい解析フレームワークを提案する。
任意の入力サンプルに対して、ReLUユニットの活性化パターンはユニークな計算経路を生成し、ネットワーク内の重みのサブセットを事実上ゼロにする。
すべての層にわたるアクティブウェイトを構成することで、有効なウェイト行列、$W_{\text{eff}}(x)$を導出できる。
これらの効果的な重みの進化は、表現学習の基本的な原則を明らかにしていると仮定する。
我々の研究は、トレーニングが進むにつれて、同じクラスのサンプルに対応する効果的な重みが収束し、異なるクラスの重みが分散することを示した。
サンプルワイドな重みの軌跡を追跡することで、クラス固有の決定境界の形成とネットワーク内の意味表現の出現を解釈する新しいレンズを提供する。
関連論文リスト
- IF2Net: Innately Forgetting-Free Networks for Continual Learning [49.57495829364827]
継続的な学習は、以前に学んだ知識に干渉することなく、新しい概念を漸進的に吸収することができる。
ニューラルネットワークの特性に触発され,本研究は,IF2Net(Innately Forgetting-free Network)の設計方法について検討した。
IF2Netは、1つのネットワークがテスト時にタスクのIDを告げることなく、本質的に無制限のマッピングルールを学習することを可能にする。
論文 参考訳(メタデータ) (2023-06-18T05:26:49Z) - ReLU Neural Networks with Linear Layers are Biased Towards Single- and Multi-Index Models [9.96121040675476]
この原稿は、2層以上の深さのニューラルネットワークによって学習された関数の性質が予測にどのように影響するかを考察している。
我々のフレームワークは、すべて同じキャパシティを持つが表現コストが異なる、様々な深さのネットワーク群を考慮に入れている。
論文 参考訳(メタデータ) (2023-05-24T22:10:12Z) - Equivariant Architectures for Learning in Deep Weight Spaces [54.61765488960555]
重み空間の学習のための新しいネットワークアーキテクチャを提案する。
入力として、事前訓練された不変量の重みとバイアスの連結をとる。
これらのレイヤを3つの基本的な操作で実装する方法を示す。
論文 参考訳(メタデータ) (2023-01-30T10:50:33Z) - Slimmable Networks for Contrastive Self-supervised Learning [69.9454691873866]
自己教師付き学習は、大規模なモデルを事前訓練する上で大きな進歩を遂げるが、小さなモデルでは苦労する。
追加の教師を必要とせず、訓練済みの小型モデルを得るための1段階のソリューションも導入する。
スリム化可能なネットワークは、完全なネットワークと、様々なネットワークを得るために一度にトレーニングできるいくつかの重み共有サブネットワークから構成される。
論文 参考訳(メタデータ) (2022-09-30T15:15:05Z) - BiTAT: Neural Network Binarization with Task-dependent Aggregated
Transformation [116.26521375592759]
量子化は、与えられたニューラルネットワークの高精度ウェイトとアクティベーションを、メモリ使用量と計算量を減らすために、低精度ウェイト/アクティベーションに変換することを目的としている。
コンパクトに設計されたバックボーンアーキテクチャの極端量子化(1ビットの重み/1ビットのアクティベーション)は、深刻な性能劣化をもたらす。
本稿では,性能劣化を効果的に緩和する新しいQAT法を提案する。
論文 参考訳(メタデータ) (2022-07-04T13:25:49Z) - Training invariances and the low-rank phenomenon: beyond linear networks [44.02161831977037]
線形分離可能なデータに対して、ロジスティックあるいは指数損失の深い線形ネットワークを訓練すると、重みは1$の行列に収束する。
非線形ReLU活性化フィードフォワードネットワークに対して、低ランク現象が厳格に証明されたのはこれが初めてである。
我々の証明は、あるパラメータの方向収束の下で重みが一定である多重線型関数と別のReLUネットワークへのネットワークの特定の分解に依存している。
論文 参考訳(メタデータ) (2022-01-28T07:31:19Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - Stable Recovery of Entangled Weights: Towards Robust Identification of
Deep Neural Networks from Minimal Samples [0.0]
連続した層の重みを、活性化関数とそのシフトに応じて適切な対角行列と反転行列と絡み合ういわゆる絡み合い重みを紹介します。
エンタングル重みは効率的でロバストなアルゴリズムによって完全かつ安定に近似することが証明される。
本研究は,入力出力情報をネットワークパラメータに一意かつ安定的に関連付けることができ,説明可能性の一形態を提供する。
論文 参考訳(メタデータ) (2021-01-18T16:31:19Z) - Statistical Mechanics of Deep Linear Neural Networks: The
Back-Propagating Renormalization Group [4.56877715768796]
個々の単位の入力出力関数が線形である深線型ニューラルネットワーク(DLNN)における学習の統計力学について検討する。
重み空間における平衡ギブス分布を用いて教師あり学習後のネットワーク特性を正確に解く。
数値シミュレーションにより, 非線形性にもかかわらず, 理論の予測は大部分, 深さの小さいreluネットワークによって共有されていることが明らかとなった。
論文 参考訳(メタデータ) (2020-12-07T20:08:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。