論文の概要: Generalization Bounds for Rank-sparse Neural Networks
- arxiv url: http://arxiv.org/abs/2510.21945v1
- Date: Fri, 24 Oct 2025 18:19:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 19:54:32.477001
- Title: Generalization Bounds for Rank-sparse Neural Networks
- Title(参考訳): ランクスパースニューラルネットワークの一般化境界
- Authors: Antoine Ledent, Rodrigo Alves, Yunwen Lei,
- Abstract要約: 重み行列の近似的低階構造を利用したニューラルネットワークの一般化境界を証明した。
p$が増加すると、その境界は代わりにノルムベースの境界のように振る舞う。
- 参考スコア(独自算出の注目度): 40.956710248523294
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It has been recently observed in much of the literature that neural networks exhibit a bottleneck rank property: for larger depths, the activation and weights of neural networks trained with gradient-based methods tend to be of approximately low rank. In fact, the rank of the activations of each layer converges to a fixed value referred to as the ``bottleneck rank'', which is the minimum rank required to represent the training data. This perspective is in line with the observation that regularizing linear networks (without activations) with weight decay is equivalent to minimizing the Schatten $p$ quasi norm of the neural network. In this paper we investigate the implications of this phenomenon for generalization. More specifically, we prove generalization bounds for neural networks which exploit the approximate low rank structure of the weight matrices if present. The final results rely on the Schatten $p$ quasi norms of the weight matrices: for small $p$, the bounds exhibit a sample complexity $ \widetilde{O}(WrL^2)$ where $W$ and $L$ are the width and depth of the neural network respectively and where $r$ is the rank of the weight matrices. As $p$ increases, the bound behaves more like a norm-based bound instead.
- Abstract(参考訳): より広い深さでは、勾配に基づく手法で訓練されたニューラルネットワークの活性化と重みは、およそ低いランクである傾向にある。
実際、各層のアクティベーションのランクは、トレーニングデータを表すのに必要な最小ランクである ``bottleneck rank'' と呼ばれる固定値に収束する。
この観点は、線形ネットワークを(活性化なしで)重み付きで正則化することは、ニューラルネットワークのシャッテン$p$準ノルムを最小化することと同値である。
本稿では,この現象が一般化にもたらす意味について考察する。
より具体的には、重み行列の近似的な低階構造を利用するニューラルネットワークの一般化境界を証明している。
最終的な結果は、ウェイト行列のSchatten $p$準ノルムに依存している: 小さい$p$の場合、境界はサンプル複雑性を持つ: $ \widetilde{O}(WrL^2)$ ここで、$W$と$L$はそれぞれニューラルネットワークの幅と深さであり、$r$はウェイト行列のランクである。
p$が増加すると、その境界は代わりにノルムベースの境界のように振る舞う。
関連論文リスト
- Weight decay induces low-rank attention layers [8.746774382296008]
ニューラルネットワークモデルのトレーニングにおいて,重量減衰の影響だけでなく,$L2$-regularizationも検討した。
重み劣化に最適化した場合, キークエリおよび値投影行列製品$W_KTW_Q, PW_V$が注目層内にあることが確認できた。
論文 参考訳(メタデータ) (2024-10-31T11:04:07Z) - Implicit Bias of Gradient Descent for Two-layer ReLU and Leaky ReLU
Networks on Nearly-orthogonal Data [66.1211659120882]
好ましい性質を持つ解に対する暗黙の偏見は、勾配に基づく最適化によって訓練されたニューラルネットワークがうまく一般化できる重要な理由であると考えられている。
勾配流の暗黙バイアスは、均質ニューラルネットワーク(ReLUやリークReLUネットワークを含む)に対して広く研究されているが、勾配降下の暗黙バイアスは現在、滑らかなニューラルネットワークに対してのみ理解されている。
論文 参考訳(メタデータ) (2023-10-29T08:47:48Z) - Koopman-based generalization bound: New aspect for full-rank weights [45.64416573341108]
クープマン演算子を用いたニューラルネットワークの一般化のための新しいバウンダリを提案する。
我々の結果は、フルランクの重み行列を持つニューラルネットワークの一般化の理解に新たな光を当てている。
論文 参考訳(メタデータ) (2023-02-12T00:39:25Z) - SGD and Weight Decay Secretly Minimize the Rank of Your Neural Network [8.79431718760617]
ミニバッチSGDとウェイト崩壊によるトレーニングは、ウェイト行列のランク最小化へのバイアスを引き起こす。
このバイアスは、より小さなバッチサイズ、より高い学習率、より強いウェイト崩壊によってより顕著になる。
このバイアスと一般化の関係を実証的に検討し、テスト性能に限界効果があることを見出した。
論文 参考訳(メタデータ) (2022-06-12T17:06:35Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Towards Understanding Hierarchical Learning: Benefits of Neural
Representations [160.33479656108926]
この研究で、中間的神経表現がニューラルネットワークにさらなる柔軟性をもたらすことを実証する。
提案手法は, 生の入力と比較して, サンプルの複雑度を向上できることを示す。
この結果から, 深度が深層学習においてなぜ重要かという新たな視点が得られた。
論文 参考訳(メタデータ) (2020-06-24T02:44:54Z) - Revealing the Structure of Deep Neural Networks via Convex Duality [70.15611146583068]
我々は,正規化深層ニューラルネットワーク(DNN)について検討し,隠蔽層の構造を特徴付ける凸解析フレームワークを導入する。
正規正規化学習問題に対する最適隠蔽層重みの集合が凸集合の極点として明確に見出されることを示す。
ホワイトデータを持つ深部ReLUネットワークに同じ特徴を応用し、同じ重み付けが成り立つことを示す。
論文 参考訳(メタデータ) (2020-02-22T21:13:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。