Fugu-MT 論文翻訳(概要): Greedy Pruning with Group Lasso Provably Generalizes for Matrix Sensing and Neural Networks with Quadratic Activations

論文の概要: Greedy Pruning with Group Lasso Provably Generalizes for Matrix Sensing and Neural Networks with Quadratic Activations

arxiv url: http://arxiv.org/abs/2303.11453v1
Date: Mon, 20 Mar 2023 21:05:44 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-22 17:14:35.126255
Title: Greedy Pruning with Group Lasso Provably Generalizes for Matrix Sensing and Neural Networks with Quadratic Activations
Title（参考訳）: グループラッソによるグリーディープルーニングによるマトリックスセンシングと二次活性化ニューラルネットワークの一般化
Authors: Nived Rajaraman, Devvrit, Aryan Mokhtari, Kannan Ramchandran
Abstract要約: プルーニングスキームは、大量のパラメータを持つ訓練されたモデルの複雑さを減らすために、実際に広く用いられている。ラッソ正則化器のスムーズなバージョンで拡張した経験的平均二乗誤差の近似局所最小値について検討した。二次活性化関数を持つ2層ニューラルネットワークのトレーニングおよびプルーニングの結果を拡張した。
参考スコア（独自算出の注目度）: 30.508036898655114
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Pruning schemes have been widely used in practice to reduce the complexity of trained models with a massive number of parameters. Several practical studies have shown that pruning an overparameterized model and fine-tuning generalizes well to new samples. Although the above pipeline, which we refer to as pruning + fine-tuning, has been extremely successful in lowering the complexity of trained models, there is very little known about the theory behind this success. In this paper we address this issue by investigating the pruning + fine-tuning framework on the overparameterized matrix sensing problem, with the ground truth denoted $U_\star \in \mathbb{R}^{d \times r}$ and the overparameterized model $U \in \mathbb{R}^{d \times k}$ with $k \gg r$. We study the approximate local minima of the empirical mean square error, augmented with a smooth version of a group Lasso regularizer, $\sum_{i=1}^k \| U e_i \|_2$ and show that pruning the low $\ell_2$-norm columns results in a solution $U_{\text{prune}}$ which has the minimum number of columns $r$, yet is close to the ground truth in training loss. Initializing the subsequent fine-tuning phase from $U_{\text{prune}}$, the resulting solution converges linearly to a generalization error of $O(\sqrt{rd/n})$ ignoring lower order terms, which is statistically optimal. While our analysis provides insights into the role of regularization in pruning, we also show that running gradient descent in the absence of regularization results in models which {are not suitable for greedy pruning}, i.e., many columns could have their $\ell_2$ norm comparable to that of the maximum. Lastly, we extend our results for the training and pruning of two-layer neural networks with quadratic activation functions. Our results provide the first rigorous insights on why greedy pruning + fine-tuning leads to smaller models which also generalize well.
Abstract（参考訳）: プルーニングスキームは、大量のパラメータを持つ訓練されたモデルの複雑さを減らすために、実際に広く用いられている。いくつかの実用的な研究により、過剰パラメータモデルと微調整が新しいサンプルにうまく一般化できることが示されている。上記のパイプラインはプルーニングとファインチューニングと呼ばれ、訓練されたモデルの複雑さを下げることに成功したが、この成功の背後にある理論についてはほとんど分かっていない。本稿では, オーバーパラメータ化行列センシング問題に対するプルーニングと微調整の枠組みを, 基底真理を$U_\star \in \mathbb{R}^{d \times r}$, and the overparameterized model $U \in \mathbb{R}^{d \times k}$ with $k \gg r$とする。経験的平均二乗誤差の近似局所極小を,群ラッソ正則化器の滑らかなバージョンである$\sum_{i=1}^k \| u e_i \|_2$ で拡張し,低値の$\ell_2$-norm列をプルーニングした結果,最小列数である$r$の解である$u_{\text{prune}}$ が得られたが、トレーニング損失の根拠に近いことを証明した。その後の微調整フェーズを$u_{\text{prune}}$ から初期化すると、結果の解は線形に収束し、低次項を無視して$o(\sqrt{rd/n})$ の一般化誤差となる。我々の分析では, 刈り取りにおける正規化の役割について考察する一方で, 正規化の欠如による勾配降下の結果, グリーディ・プルーニングに適さないモデル, すなわち, 多くの列は最大値に匹敵する$\ell_2$ のノルムを持つことができることを示した。最後に、二次活性化機能を持つ2層ニューラルネットワークのトレーニングおよびプルーニングの結果を拡張した。私たちの結果は、なぜグルーディな刈り取り+微調整がより小さなモデルに繋がるかについて、初めて厳密な洞察を与えます。

関連論文リスト

Linear regression with overparameterized linear neural networks: Tight upper and lower bounds for implicit $\ell^1$-regularization [3.902441198412341]
過パラメータ線形回帰問題に対する深度Dge 2$の対角線形ニューラルネットワークの暗黙正則化について検討した。 D ge 3$ の場合、誤差は$alpha$ で線形的に減少するが、$D=2$ の場合、$alpha1-varrho$ で減少する。数値実験は、我々の理論的な発見を裏付け、より深いネットワーク、すなわち$D ge 3$がより良い一般化をもたらすことを示唆している。
論文参考訳（メタデータ） (2025-06-01T19:55:31Z)
Convergence Rate Analysis of LION [54.28350823319057]
LION は、勾配カルシュ=クーン=T (sqrtdK-)$で測定された $cal(sqrtdK-)$ の反復を収束する。従来のSGDと比較して,LIONは損失が小さく,性能も高いことを示す。
論文参考訳（メタデータ） (2024-11-12T11:30:53Z)
Theoretical limits of descending $\ell_0$ sparse-regression ML algorithms [0.0]
本研究では,emphmaximum-likelihood (ML)デコーディングの性能解析プログラムを開発した。 ML性能パラメータの鍵となるのは、残留エンフェロ平均二乗誤差(textbfRMSE$)を発見し、いわゆるエンフェロ遷移(PT)現象を示す。 Fl RDTの具体的実装と実用的妥当性は、典型的には、基礎となる数値評価のサイズのセットを実行する能力に依存している。
論文参考訳（メタデータ） (2024-10-10T06:33:41Z)
Pruning is Optimal for Learning Sparse Features in High-Dimensions [15.967123173054535]
本研究では,勾配勾配勾配で学習したプルーンドニューラルネットワークを用いて,統計モデルのクラスを最適に学習可能であることを示す。ニューラルネットワークのプルーニングが$boldsymbolV$のスパーシリティレベルに比例すると、未切断ネットワークと比較してサンプルの複雑さが向上することを示す。
論文参考訳（メタデータ） (2024-06-12T21:43:12Z)
Stable Minima Cannot Overfit in Univariate ReLU Networks: Generalization by Large Step Sizes [29.466981306355066]
固定学習率$eta$の勾配降下はスムーズな関数を表す局所最小値しか見つからないことを示す。また、$n$のデータポイントのサポートの厳密な内部で、$widetildeO(n-4/5)$のほぼ最適MSE境界を証明します。
論文参考訳（メタデータ） (2024-06-10T22:57:27Z)
Efficient Frameworks for Generalized Low-Rank Matrix Bandit Problems [61.85150061213987]
一般化線形モデル (GLM) フレームワークを用いて, citelu2021low で提案した一般化低ランク行列帯域問題について検討する。既存のアルゴリズムの計算不可能性と理論的制約を克服するため,まずG-ESTTフレームワークを提案する。 G-ESTT は $tildeO(sqrt(d_1+d_2)3/2Mr3/2T)$ bound of regret を達成でき、G-ESTS は $tildeO を達成できることを示す。
論文参考訳（メタデータ） (2024-01-14T14:14:19Z)
A Unified Framework for Uniform Signal Recovery in Nonlinear Generative Compressed Sensing [68.80803866919123]
非線形測定では、ほとんどの先行結果は一様ではない、すなわち、すべての$mathbfx*$に対してではなく、固定された$mathbfx*$に対して高い確率で保持される。本フレームワークはGCSに1ビット/一様量子化観測と単一インデックスモデルを標準例として適用する。また、指標集合が計量エントロピーが低い製品プロセスに対して、より厳密な境界を生み出す濃度不等式も開発する。
論文参考訳（メタデータ） (2023-09-25T17:54:19Z)
Settling the Sample Complexity of Online Reinforcement Learning [92.02082223856479]
バーンインコストを発生させることなく、最小限の最適後悔を実現する方法を示す。最適値/コストや一定の分散といった問題依存量の影響を明らかにするために、我々の理論を拡張します。
論文参考訳（メタデータ） (2023-07-25T15:42:11Z)
Implicit Regularization Leads to Benign Overfitting for Sparse Linear Regression [16.551664358490658]
ディープラーニングでは、しばしばトレーニングプロセスは補間子(トレーニング損失0のソリューション)を見つけるが、テスト損失は依然として低い。良性オーバーフィッティングの一般的なメカニズムは暗黙の正則化であり、そこでは、トレーニングプロセスが補間子にさらなる特性をもたらす。勾配勾配勾配による新モデルの訓練は, ほぼ最適試験損失を伴う補間器に導かれることを示す。
論文参考訳（メタデータ） (2023-02-01T05:41:41Z)
Best Policy Identification in Linear MDPs [70.57916977441262]
縮退した線形マルコフ+デルタ決定における最適同定問題について, 生成モデルに基づく固定信頼度設定における検討を行った。複雑な非最適化プログラムの解としての下位境界は、そのようなアルゴリズムを考案する出発点として用いられる。
論文参考訳（メタデータ） (2022-08-11T04:12:50Z)
KL-Entropy-Regularized RL with a Generative Model is Minimax Optimal [70.15267479220691]
モデル強化学習のサンプル複雑性を,生成的分散自由モデルを用いて検討・解析する。我々の分析は、$varepsilon$が十分小さい場合、$varepsilon$-optimal Policyを見つけるのが、ほぼ最小の最適化であることを示している。
論文参考訳（メタデータ） (2022-05-27T19:39:24Z)
Minimax Optimal Quantization of Linear Models: Information-Theoretic Limits and Efficient Algorithms [59.724977092582535]
測定から学習した線形モデルの定量化の問題を考える。この設定の下では、ミニマックスリスクに対する情報理論の下限を導出する。本稿では,2層ReLUニューラルネットワークに対して,提案手法と上界を拡張可能であることを示す。
論文参考訳（メタデータ） (2022-02-23T02:39:04Z)
Estimating Stochastic Linear Combination of Non-linear Regressions Efficiently and Scalably [23.372021234032363]
サブサンプルサイズが大きくなると、推定誤差が過度に犠牲になることを示す。私たちの知る限りでは、線形テキスト+確率モデルが保証される最初の研究です。
論文参考訳（メタデータ） (2020-10-19T07:15:38Z)
Does the $\ell_1$-norm Learn a Sparse Graph under Laplacian Constrained Graphical Models? [13.572602792770288]
ラプラシアン制約ガウス図形モデルの下でグラフを学習する問題を考察する。我々は、大きな正規化パラメータが驚くほど完全なグラフ、すなわちエッジで接続されたすべてのエッジにつながることを示した。
論文参考訳（メタデータ） (2020-06-26T12:06:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。