論文の概要: A Dual Certificate Approach to Sparsity in Infinite-Width Shallow Neural Networks
- arxiv url: http://arxiv.org/abs/2603.17785v1
- Date: Wed, 18 Mar 2026 14:46:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.763292
- Title: A Dual Certificate Approach to Sparsity in Infinite-Width Shallow Neural Networks
- Title(参考訳): Infinite-Width Shallow Neural Networkにおけるスパシティの二重認証手法
- Authors: Leonardo Del Grande, Christoph Brune, Marcello Carioni,
- Abstract要約: 単位球の測度に対する凸最適化問題として定式化された無限幅浅部ReLUニューラルネットワークの総変動(TV)正規化トレーニングについて検討した。
本手法は,テレビ規則化最適化問題の双対性理論を利用して,トレーニング問題に対する解の空間性に関する厳密な保証を確立する。
- 参考スコア(独自算出の注目度): 1.516610503825416
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we study total variation (TV)-regularized training of infinite-width shallow ReLU neural networks, formulated as a convex optimization problem over measures on the unit sphere. Our approach leverages the duality theory of TV-regularized optimization problems to establish rigorous guarantees on the sparsity of the solutions to the training problem. Our analysis further characterizes how and when this sparsity persists in a low noise regime and for small regularization parameter. The key observation that motivates our analysis is that, for ReLU activations, the associated dual certificate is piecewise linear in the weight space. Its linearity regions, which we name dual regions, are determined by the activation patterns of the data via the induced hyperplane arrangement. Taking advantage of this structure, we prove that, on each dual region, the dual certificate admits at most one extreme value. As a consequence, the support of any minimizer is finite, and its cardinality can be bounded from above by a constant depending only on the geometry of the data-induced hyperplane arrangement. Then, we further investigate sufficient conditions ensuring uniqueness of such sparse solution. Finally, under a suitable non-degeneracy condition on the dual certificate along the boundaries of the dual regions, we prove that in the presence of low label noise and for small regularization parameter, solutions to the training problem remain sparse with the same number of Dirac deltas. Additionally, their location and the amplitudes converge, and, in case the locations lie in the interior of a dual region, the convergence happens with a rate that depends linearly on the noise and the regularization parameter.
- Abstract(参考訳): 本稿では,単位球上の測度に対する凸最適化問題として定式化された無限幅浅部ReLUニューラルネットワークの総変動(TV)正規化トレーニングについて検討する。
本手法は,テレビ規則化最適化問題の双対性理論を利用して,トレーニング問題に対する解の空間性に関する厳密な保証を確立する。
本分析では,低雑音状態と小さな正規化パラメータに対して,この空間がいつ持続するかを特徴付ける。
我々の分析を動機づける重要な観察は、ReLUのアクティベーションに対して、関連する二重証明は重み空間において断片的に線形であるということである。
双対領域と呼ばれるその線形性領域は、誘導された超平面配置を介してデータの活性化パターンによって決定される。
この構造を利用して、各二重領域において、2つの証明が少なくとも1つの極端な値を認めていることを証明する。
その結果、任意の最小化器の支持は有限であり、その濃度はデータ誘起超平面配置の幾何学にのみ依存する定数で上から有界にすることができる。
さらに,そのようなスパース解の特異性を保証する十分な条件について検討する。
最後に、二重領域の境界に沿った二重証明に対する適切な非退化条件の下で、低ラベルノイズと小さな正規化パラメータの存在下では、トレーニング問題の解が同じ数のディラックデルタと疎結合であることを証明する。
さらに、それらの位置と振幅は収束し、もしその位置が二重領域の内部にある場合、収束はノイズと正規化パラメータに線形に依存する速度で起こる。
関連論文リスト
- On the Rate of Convergence of GD in Non-linear Neural Networks: An Adversarial Robustness Perspective [2.268525139011456]
グラディエント・Descent (GD) の収束ダイナミクスを最小二項分類設定で検討する。
我々は、GDが最適ロバスト性マージンにうまく収束する一方で、この収束は禁断的に遅い速度で起こることを証明した。
我々の理論的保証は、モデルの異なるアクティベーションパターン間でのGD軌道の厳密な解析を通じて導出される。
論文 参考訳(メタデータ) (2026-03-02T17:13:33Z) - Optimal Boundary Control of Diffusion on Graphs via Linear Programming [2.064612766965483]
幾何ネットワーク上での定常拡散とフラックス最適化のためのフレームワークを提案する。
境界ポテンシャルは、線形ネットワークラプラシアンに従って内部フラックスを駆動する制御として機能する。
この解析はミンコフスキー-ワイル分解、ホフマン境界、および現代的なネットワークベースの拡散モデリングによる線形プログラミングの基本定理などの古典的な結果と結合する。
論文 参考訳(メタデータ) (2025-11-05T02:41:07Z) - A Local Polyak-Lojasiewicz and Descent Lemma of Gradient Descent For Overparametrized Linear Models [6.734175048463699]
正方形損失を学習した2層線形ニューラルネットワークの勾配降下に対する線形収束率を導出した。
我々の収束分析は、事前の結果を改善するだけでなく、ステップサイズに対するより良い選択を示唆している。
論文 参考訳(メタデータ) (2025-05-16T19:57:22Z) - A Lipschitz spaces view of infinitely wide shallow neural networks [3.0017241250121387]
我々は、パラメータ空間と双対対対の符号付き測度を用いて、浅いニューラルネットワークの平均場パラメトリゼーションを再考する。
コンパクト性は強いカントロビッチ=ルビンシュタインノルムで証明され、そうでない場合には好ましくない振る舞いを示すいくつかの例を示す。
論文 参考訳(メタデータ) (2024-10-18T16:41:37Z) - Double Duality: Variational Primal-Dual Policy Optimization for
Constrained Reinforcement Learning [132.7040981721302]
本研究では,訪問尺度の凸関数を最小化することを目的として,制約付き凸決定プロセス(MDP)について検討する。
制約付き凸MDPの設計アルゴリズムは、大きな状態空間を扱うなど、いくつかの課題に直面している。
論文 参考訳(メタデータ) (2024-02-16T16:35:18Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Beyond the Edge of Stability via Two-step Gradient Updates [49.03389279816152]
Gradient Descent(GD)は、現代の機械学習の強力な仕事場である。
GDが局所最小値を見つける能力は、リプシッツ勾配の損失に対してのみ保証される。
この研究は、2段階の勾配更新の分析を通じて、単純だが代表的でありながら、学習上の問題に焦点をあてる。
論文 参考訳(メタデータ) (2022-06-08T21:32:50Z) - Lifting the Convex Conjugate in Lagrangian Relaxations: A Tractable
Approach for Continuous Markov Random Fields [53.31927549039624]
断片的な離散化は既存の離散化問題と矛盾しないことを示す。
この理論を2つの画像のマッチング問題に適用する。
論文 参考訳(メタデータ) (2021-07-13T12:31:06Z) - Convex Geometry and Duality of Over-parameterized Neural Networks [70.15611146583068]
有限幅2層ReLUネットワークの解析のための凸解析手法を開発した。
正規化学習問題に対する最適解が凸集合の極点として特徴づけられることを示す。
高次元では、トレーニング問題は無限に多くの制約を持つ有限次元凸問題としてキャストできることが示される。
論文 参考訳(メタデータ) (2020-02-25T23:05:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。