Fugu-MT 論文翻訳(概要): Convergence beyond the over-parameterized regime using Rayleigh quotients

論文の概要: Convergence beyond the over-parameterized regime using Rayleigh quotients

arxiv url: http://arxiv.org/abs/2301.08117v1
Date: Thu, 19 Jan 2023 15:18:23 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-20 14:49:28.692170
Title: Convergence beyond the over-parameterized regime using Rayleigh quotients
Title（参考訳）: Rayleigh quotients を用いた過パラメータ化体制を超えた収束
Authors: David A. R. Robin, Kevin Scaman, Marc Lelarge
Abstract要約: 我々は、レイリー商が、文献におけるいくつかの収束解析技術に対して統一的な視点を提供することを示す。我々の戦略はパラメトリック学習の様々な例に対する収束の証明を生み出している。
参考スコア（独自算出の注目度）: 18.728779959566946
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: In this paper, we present a new strategy to prove the convergence of deep learning architectures to a zero training (or even testing) loss by gradient flow. Our analysis is centered on the notion of Rayleigh quotients in order to prove Kurdyka-{\L}ojasiewicz inequalities for a broader set of neural network architectures and loss functions. We show that Rayleigh quotients provide a unified view for several convergence analysis techniques in the literature. Our strategy produces a proof of convergence for various examples of parametric learning. In particular, our analysis does not require the number of parameters to tend to infinity, nor the number of samples to be finite, thus extending to test loss minimization and beyond the over-parameterized regime.
Abstract（参考訳）: 本稿では、勾配流によるゼロトレーニング(あるいはテスト)損失に対するディープラーニングアーキテクチャの収束性を証明するための新しい戦略を提案する。我々の分析は、より広範なニューラルネットワークアーキテクチャと損失関数の集合に対するKurtyka-{\L}ojasiewiczの不等式を証明するために、レイリー商の概念に重点を置いている。レイリー商は文献におけるいくつかの収束解析手法の統一的視点を提供する。我々の戦略はパラメトリック学習の様々な例に収束の証明を与える。特に、我々の分析では無限大のパラメータの数や有限のサンプルの数を必要とせず、テスト損失最小化と過度なパラメータ化体制を超越している。

関連論文リスト

Random Sparse Lifts: Construction, Analysis and Convergence of finite sparse networks [17.487761710665968]
本稿では,パラメータの数が増えると,勾配流による学習が任意に低損失に達するような,ニューラルネットワークの大規模クラスを定義する枠組みを提案する。
論文参考訳（メタデータ） (2025-01-10T12:52:00Z)
A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。 i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文参考訳（メタデータ） (2024-04-18T16:46:08Z)
On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文参考訳（メタデータ） (2023-12-13T02:11:07Z)
Curvature-Independent Last-Iterate Convergence for Games on Riemannian Manifolds [77.4346324549323]
本研究では, 多様体の曲率に依存しないステップサイズが, 曲率非依存かつ直線的最終点収束率を達成することを示す。我々の知る限りでは、曲率非依存率や/または最終点収束の可能性はこれまでに検討されていない。
論文参考訳（メタデータ） (2023-06-29T01:20:44Z)
Critical Points and Convergence Analysis of Generative Deep Linear Networks Trained with Bures-Wasserstein Loss [2.294014185517203]
本稿では,バーレス=ヴァッサーシュタイン距離で学習した共分散行列の行列分解モデルについて考察する。階数有界行列の空間上のバーレス=ヴァッサーシュタイン距離の臨界点と最小化器を特徴づける。有限段勾配勾配のスムーズな摂動バージョンを用いて勾配流の収束結果を確立する。
論文参考訳（メタデータ） (2023-03-06T10:56:14Z)
Implicit Regularization for Group Sparsity [33.487964460794764]
正方形回帰損失に対する勾配勾配は, 明示的な正則化を伴わずに, 群間隔構造を持つ解に偏りを示す。一般雑音設定における回帰問題の勾配ダイナミクスを解析し,最小最適誤差率を求める。サイズ 1 群の退化の場合、我々の手法は疎線形回帰の新しいアルゴリズムを生み出す。
論文参考訳（メタデータ） (2023-01-29T20:54:03Z)
Convergence analysis of unsupervised Legendre-Galerkin neural networks for linear second-order elliptic PDEs [0.8594140167290099]
教師なしレジェンダ-ガレルキンニューラルネットワーク(ULGNet)の収束解析を行う。 ULGNetは偏微分方程式(PDE)を解くためのディープラーニングに基づく数値法である
論文参考訳（メタデータ） (2022-11-16T13:31:03Z)
Annihilation of Spurious Minima in Two-Layer ReLU Networks [9.695960412426672]
正方形損失に対する2層ReLUニューラルネットワークの適合に関する最適化問題について検討する。ニューロンを追加することで、対称的な刺激性のミニマをサドルに変えることができる。また、損失関数の対称性構造から生じるある種の部分空間における降下方向の存在を証明した。
論文参考訳（メタデータ） (2022-10-12T11:04:21Z)
On Convergence of Training Loss Without Reaching Stationary Points [62.41370821014218]
ニューラルネットワークの重み変数は、損失関数の勾配が消える定常点に収束しないことを示す。エルゴード理論の力学系に基づく新しい視点を提案する。
論文参考訳（メタデータ） (2021-10-12T18:12:23Z)
Probabilistic methods for approximate archetypal analysis [8.829245587252435]
Archetypal analysisは、探索データ分析のための教師なし学習手法である。データの次元と表現の基数を低減するために,2つの前処理手法を導入する。提案手法を応用して, 適度に大規模なデータセットを要約することで, 結果の有用性を実証する。
論文参考訳（メタデータ） (2021-08-12T14:27:11Z)
Stochastic Approximation for Online Tensorial Independent Component Analysis [98.34292831923335]
独立成分分析(ICA)は統計機械学習や信号処理において一般的な次元削減ツールである。本稿では,各独立成分を推定する副産物オンライン時系列アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-12-28T18:52:37Z)
Learning Fast Approximations of Sparse Nonlinear Regression [50.00693981886832]
本研究では,Threshold Learned Iterative Shrinkage Algorithming (NLISTA)を導入することでギャップを埋める。合成データを用いた実験は理論結果と相関し,その手法が最先端の手法より優れていることを示す。
論文参考訳（メタデータ） (2020-10-26T11:31:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。