論文の概要: The Convex Landscape of Neural Networks: Characterizing Global Optima
and Stationary Points via Lasso Models
- arxiv url: http://arxiv.org/abs/2312.12657v1
- Date: Tue, 19 Dec 2023 23:04:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 17:25:20.980584
- Title: The Convex Landscape of Neural Networks: Characterizing Global Optima
and Stationary Points via Lasso Models
- Title(参考訳): ニューラルネットワークの凸景観:ラッソモデルによるグローバル最適点と静止点の特徴付け
- Authors: Tolga Ergen, Mert Pilanci
- Abstract要約: ディープニューラルネットワーク(DNN)モデルは、プログラミング目的に使用される。
本稿では,凸型神経回復モデルについて検討する。
定常的非次元目的物はすべて,グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。
また, 静止非次元目的物はすべて, グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。
- 参考スコア(独自算出の注目度): 75.33431791218302
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the non-convex nature of training Deep Neural Network (DNN) models,
their effectiveness relies on the use of non-convex optimization heuristics.
Traditional methods for training DNNs often require costly empirical methods to
produce successful models and do not have a clear theoretical foundation. In
this study, we examine the use of convex optimization theory and sparse
recovery models to refine the training process of neural networks and provide a
better interpretation of their optimal weights. We focus on training two-layer
neural networks with piecewise linear activations and demonstrate that they can
be formulated as a finite-dimensional convex program. These programs include a
regularization term that promotes sparsity, which constitutes a variant of
group Lasso. We first utilize semi-infinite programming theory to prove strong
duality for finite width neural networks and then we express these
architectures equivalently as high dimensional convex sparse recovery models.
Remarkably, the worst-case complexity to solve the convex program is polynomial
in the number of samples and number of neurons when the rank of the data matrix
is bounded, which is the case in convolutional networks. To extend our method
to training data of arbitrary rank, we develop a novel polynomial-time
approximation scheme based on zonotope subsampling that comes with a guaranteed
approximation ratio. We also show that all the stationary of the nonconvex
training objective can be characterized as the global optimum of a subsampled
convex program. Our convex models can be trained using standard convex solvers
without resorting to heuristics or extensive hyper-parameter tuning unlike
non-convex methods. Through extensive numerical experiments, we show that
convex models can outperform traditional non-convex methods and are not
sensitive to optimizer hyperparameters.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)モデルの非凸性のため、その有効性は非凸最適化ヒューリスティックの使用に依存する。
従来のDNNの訓練方法は、成功したモデルを作るのに費用がかかる経験的な方法を必要とすることが多く、明確な理論的基盤を持っていない。
本研究では,畳み込み最適化理論とスパースリカバリモデルを用いてニューラルネットワークのトレーニングプロセスを洗練し,それらの最適重量のより良い解釈を行う。
分割線形活性化を用いた2層ニューラルネットワークの訓練に焦点をあて,有限次元凸プログラムとして定式化できることを実証する。
これらのプログラムには、sparsityを促進する正規化用語が含まれており、これはグループlassoの変種である。
まず,有限幅ニューラルネットワークの強双対性を証明するために半無限計画理論を用い,これらのアーキテクチャを高次元凸スパース回復モデルとして表現する。
注目すべきことに、凸プログラムを解くための最悪の複雑さは、データ行列のランクが境界付けられたときのサンプル数とニューロン数の多項式であり、畳み込みネットワークではそうである。
本手法を任意のランクのデータトレーニングに拡張するために,zonotope部分サンプリングに基づく新しい多項式時間近似スキームを開発し,近似比を保証した。
また,非凸学習目標の定常性はすべて,サブサンプリング凸プログラムの大域的最適性として特徴付けられることを示す。
我々の凸モデルは、非凸法とは異なり、ヒューリスティックスや広範なハイパーパラメータチューニングに頼ることなく、標準凸解法を用いて訓練することができる。
大規模な数値実験により、凸モデルは従来の非凸法よりも優れ、最適パラメータに敏感でないことを示す。
関連論文リスト
- A Library of Mirrors: Deep Neural Nets in Low Dimensions are Convex Lasso Models with Reflection Features [54.83898311047626]
2層から有限層まで線形に活性化するニューラルネットワークについて検討する。
まず, 分岐深さの離散辞書を用いたLassoモデルについて検討した。
論文 参考訳(メタデータ) (2024-03-02T00:33:45Z) - GloptiNets: Scalable Non-Convex Optimization with Certificates [61.50835040805378]
本稿では,ハイパーキューブやトーラス上のスムーズな関数を扱う証明書を用いた非キューブ最適化手法を提案する。
スペクトルの減衰に固有の対象関数の正則性を活用することにより、正確な証明を取得し、高度で強力なニューラルネットワークを活用することができる。
論文 参考訳(メタデータ) (2023-06-26T09:42:59Z) - An alternative approach to train neural networks using monotone
variational inequality [22.320632565424745]
本稿では,モノトーンベクトル場を用いたニューラルネットワークトレーニングの代替手法を提案する。
我々のアプローチは、事前訓練されたニューラルネットワークのより効率的な微調整に利用できる。
論文 参考訳(メタデータ) (2022-02-17T19:24:20Z) - Fast Convex Optimization for Two-Layer ReLU Networks: Equivalent Model
Classes and Cone Decompositions [41.337814204665364]
ReLUアクティベーション機能を持つ2層ニューラルネットワークの凸最適化アルゴリズムを開発した。
凸ゲート型ReLUモデルでは,ReLUトレーニング問題に対するデータ依存の近似バウンダリが得られることを示す。
論文 参考訳(メタデータ) (2022-02-02T23:50:53Z) - Global Optimality Beyond Two Layers: Training Deep ReLU Networks via
Convex Programs [39.799125462526234]
我々は凸最適化のレンズを通して隠れ正規化機構を明らかにするための新しい統一フレームワークを開発した。
我々は、合成データセットと実データセットの両方を含む実験を通して、理論的結果を数値的に検証する。
論文 参考訳(メタデータ) (2021-10-11T18:00:30Z) - Provable Model-based Nonlinear Bandit and Reinforcement Learning: Shelve
Optimism, Embrace Virtual Curvature [61.22680308681648]
決定論的報酬を有する1層ニューラルネットバンディットにおいても,グローバル収束は統計的に難解であることを示す。
非線形バンディットとRLの両方に対して,オンラインモデル学習者による仮想アセンジ(Virtual Ascent with Online Model Learner)というモデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-08T12:41:56Z) - Neural Spectrahedra and Semidefinite Lifts: Global Convex Optimization
of Polynomial Activation Neural Networks in Fully Polynomial-Time [31.94590517036704]
2次活性化を持つ2層数値ネットワークの完全凸最適化定式化を考案する。
本研究では,全入力データの複雑度とサンプルサイズが半定常的なニューラル・グローバル最適化であることを示した。
提案手法は, 標準バックプロパゲーション法に比べ, テスト精度が大幅に向上した。
論文 参考訳(メタデータ) (2021-01-07T08:43:01Z) - The Hidden Convex Optimization Landscape of Two-Layer ReLU Neural
Networks: an Exact Characterization of the Optimal Solutions [51.60996023961886]
コーン制約のある凸最適化プログラムを解くことにより,グローバルな2層ReLUニューラルネットワークの探索が可能であることを示す。
我々の分析は新しく、全ての最適解を特徴づけ、最近、ニューラルネットワークのトレーニングを凸空間に持ち上げるために使われた双対性に基づく分析を活用できない。
論文 参考訳(メタデータ) (2020-06-10T15:38:30Z) - Convex Geometry and Duality of Over-parameterized Neural Networks [70.15611146583068]
有限幅2層ReLUネットワークの解析のための凸解析手法を開発した。
正規化学習問題に対する最適解が凸集合の極点として特徴づけられることを示す。
高次元では、トレーニング問題は無限に多くの制約を持つ有限次元凸問題としてキャストできることが示される。
論文 参考訳(メタデータ) (2020-02-25T23:05:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。