論文の概要: Global Minimizers of $\ell^p$-Regularized Objectives Yield the Sparsest ReLU Neural Networks
- arxiv url: http://arxiv.org/abs/2505.21791v1
- Date: Tue, 27 May 2025 21:46:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.309587
- Title: Global Minimizers of $\ell^p$-Regularized Objectives Yield the Sparsest ReLU Neural Networks
- Title(参考訳): 最短ReLUニューラルネットワークを生み出す$\ell^p$-regularized Objectiveのグローバル最小化器
- Authors: Julia Nakhleh, Robert D. Nowak,
- Abstract要約: 我々は,世界規模のミニマがネットワークに対応することが保証される,連続的かつほぼすべての異なる訓練目標を提案する。
我々は、我々の定式化の下で、大域最小化器は、まさに最も広い解に対応することを証明した。
- 参考スコア(独自算出の注目度): 15.385743143648574
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Overparameterized neural networks can interpolate a given dataset in many different ways, prompting the fundamental question: which among these solutions should we prefer, and what explicit regularization strategies will provably yield these solutions? This paper addresses the challenge of finding the sparsest interpolating ReLU network -- i.e., the network with the fewest nonzero parameters or neurons -- a goal with wide-ranging implications for efficiency, generalization, interpretability, theory, and model compression. Unlike post hoc pruning approaches, we propose a continuous, almost-everywhere differentiable training objective whose global minima are guaranteed to correspond to the sparsest single-hidden-layer ReLU networks that fit the data. This result marks a conceptual advance: it recasts the combinatorial problem of sparse interpolation as a smooth optimization task, potentially enabling the use of gradient-based training methods. Our objective is based on minimizing $\ell^p$ quasinorms of the weights for $0 < p < 1$, a classical sparsity-promoting strategy in finite-dimensional settings. However, applying these ideas to neural networks presents new challenges: the function class is infinite-dimensional, and the weights are learned using a highly nonconvex objective. We prove that, under our formulation, global minimizers correspond exactly to sparsest solutions. Our work lays a foundation for understanding when and how continuous sparsity-inducing objectives can be leveraged to recover sparse networks through training.
- Abstract(参考訳): 過度にパラメータ化されたニューラルネットワークは、与えられたデータセットをさまざまな方法で解釈し、基本的な疑問を提起する。
本稿は、ReLUネットワークを最小の非ゼロパラメータやニューロンで補間するネットワーク、すなわち効率性、一般化、解釈可能性、理論、モデル圧縮など、幅広い意味を持つネットワークを見つけるという課題に対処する。
ポストホックプルーニングのアプローチとは違って,グローバルなミニマがデータに適合する最も広い単一隠れ層ReLUネットワークに対応することが保証される,連続的かつほぼすべての微分可能なトレーニング目標を提案する。
スパース補間(sparse interpolation)の組合せ問題をスムーズな最適化タスクとして再キャストし、勾配に基づくトレーニング手法の使用を可能にする。
本研究の目的は,0 < p < 1$ の重みの $\ell^p$ quasinorms を最小化することである。
しかし、これらのアイデアをニューラルネットワークに適用すると、関数クラスは無限次元であり、重みは極めて非凸な目的によって学習される。
我々は、我々の定式化の下で、大域最小化器は、まさに最も広い解に対応することを証明した。
私たちの研究は、トレーニングを通じてスパースネットワークを回復するために、いつ、どのように、連続的な疎結合を誘発する目的を活用できるかを理解するための基盤を築いています。
関連論文リスト
- Universal Consistency of Wide and Deep ReLU Neural Networks and Minimax
Optimal Convergence Rates for Kolmogorov-Donoho Optimal Function Classes [7.433327915285969]
我々は,ロジスティック損失に基づいて学習した広帯域および深部ReLUニューラルネットワーク分類器の普遍的整合性を証明する。
また、ニューラルネットワークに基づく分類器が最小収束率を達成できる確率尺度のクラスに対して十分な条件を与える。
論文 参考訳(メタデータ) (2024-01-08T23:54:46Z) - Fixing the NTK: From Neural Network Linearizations to Exact Convex
Programs [63.768739279562105]
学習目標に依存しない特定のマスクウェイトを選択する場合、このカーネルはトレーニングデータ上のゲートReLUネットワークのNTKと等価であることを示す。
この目標への依存の欠如の結果として、NTKはトレーニングセット上の最適MKLカーネルよりもパフォーマンスが良くない。
論文 参考訳(メタデータ) (2023-09-26T17:42:52Z) - Does a sparse ReLU network training problem always admit an optimum? [0.0]
最適解の存在は、特にスパースReLUニューラルネットワークの文脈において、必ずしも保証されないことを示す。
特に,特定の疎度パターンを持つディープネットワークにおける最適化問題は,必ずしも最適パラメータを持つとは限らないことを示す。
論文 参考訳(メタデータ) (2023-06-05T08:01:50Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - On the Effective Number of Linear Regions in Shallow Univariate ReLU
Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。
我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文 参考訳(メタデータ) (2022-05-18T16:57:10Z) - Subquadratic Overparameterization for Shallow Neural Networks [60.721751363271146]
私たちは、標準的なニューラルトレーニング戦略を採用することができる分析フレームワークを提供しています。
我々は、Desiderata viaak-Lojasiewicz, smoothness, and standard assumptionsを達成する。
論文 参考訳(メタデータ) (2021-11-02T20:24:01Z) - Edge Rewiring Goes Neural: Boosting Network Resilience via Policy
Gradient [62.660451283548724]
ResiNetは、さまざまな災害や攻撃に対する回復力のあるネットワークトポロジを発見するための強化学習フレームワークである。
ResiNetは複数のグラフに対してほぼ最適のレジリエンス向上を実現し,ユーティリティのバランスを保ちながら,既存のアプローチに比べて大きなマージンを持つことを示す。
論文 参考訳(メタデータ) (2021-10-18T06:14:28Z) - A Geometric Analysis of Neural Collapse with Unconstrained Features [40.66585948844492]
Neural;Collapse$の最初のグローバル最適化ランドスケープ分析を提供します。
この現象は、トレーニングの終末期におけるニューラルネットワークのラスト層分類器と特徴に現れる。
論文 参考訳(メタデータ) (2021-05-06T00:00:50Z) - Modeling from Features: a Mean-field Framework for Over-parameterized
Deep Neural Networks [54.27962244835622]
本稿では、オーバーパラメータ化ディープニューラルネットワーク(DNN)のための新しい平均場フレームワークを提案する。
このフレームワークでは、DNNは連続的な極限におけるその特徴に対する確率測度と関数によって表現される。
本稿では、標準DNNとResidual Network(Res-Net)アーキテクチャを通してフレームワークを説明する。
論文 参考訳(メタデータ) (2020-07-03T01:37:16Z) - Projection Neural Network for a Class of Sparse Regression Problems with
Cardinality Penalty [9.698438188398434]
対象関数は凸損失関数の和と基数ペナルティの和である。
濃度関数の平滑化関数を構築することにより、予測されたニューラルネットワークを提案し、この問題を解決するための補正法を設計する。
提案したニューラルネットワークの解は、ユニークな、グローバルな存在、有界な、そしてグローバルなリプシッツ連続である。
論文 参考訳(メタデータ) (2020-04-02T08:05:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。