論文の概要: MLPGradientFlow: going with the flow of multilayer perceptrons (and
finding minima fast and accurately)
- arxiv url: http://arxiv.org/abs/2301.10638v1
- Date: Wed, 25 Jan 2023 15:21:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-26 15:02:34.735644
- Title: MLPGradientFlow: going with the flow of multilayer perceptrons (and
finding minima fast and accurately)
- Title(参考訳): MLPGradientFlow:多層パーセプトロンの流れを伴って(そしてミニマを素早く正確に見つける)
- Authors: Johanni Brea, Flavio Martinelli, Berfin \c{S}im\c{s}ek, Wulfram
Gerstner
- Abstract要約: GradientFlowは数値勾配流微分方程式を解くソフトウェアパッケージである。
小さなネットワークやデータセットでは、勾配はpytorchよりも高速に計算され、Hessianは少なくとも5倍速で計算される。
- 参考スコア(独自算出の注目度): 6.4560113506698436
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: MLPGradientFlow is a software package to solve numerically the gradient flow
differential equation $\dot \theta = -\nabla \mathcal L(\theta; \mathcal D)$,
where $\theta$ are the parameters of a multi-layer perceptron, $\mathcal D$ is
some data set, and $\nabla \mathcal L$ is the gradient of a loss function. We
show numerically that adaptive first- or higher-order integration methods based
on Runge-Kutta schemes have better accuracy and convergence speed than gradient
descent with the Adam optimizer. However, we find Newton's method and
approximations like BFGS preferable to find fixed points (local and global
minima of $\mathcal L$) efficiently and accurately. For small networks and data
sets, gradients are usually computed faster than in pytorch and Hessian are
computed at least $5\times$ faster. Additionally, the package features an
integrator for a teacher-student setup with bias-free, two-layer networks
trained with standard Gaussian input in the limit of infinite data. The code is
accessible at https://github.com/jbrea/MLPGradientFlow.jl.
- Abstract(参考訳): mlpgradientflow は勾配流微分方程式 $\dot \theta = -\nabla \mathcal l(\theta; \mathcal d)$ を数値的に解くソフトウェアパッケージであり、$\theta$ は多層パーセプトロンのパラメータ、$\mathcal d$ はデータセット、$\nabla \mathcal l$ は損失関数の勾配である。
ランゲ・クッタスキームに基づく適応的な一階あるいは高階積分法は、アダム最適化器による勾配降下よりも精度と収束速度が良いことを示す。
しかし、BFGSのようなニュートンの手法や近似は、固定点(局所および大域最小値$\mathcal L$)を効率よく正確に見つけるのが好ましい。
小さなネットワークやデータセットの場合、勾配は通常ピトルチよりも速く計算され、ヘッセンは少なくとも5\times$速く計算される。
さらに、このパッケージは、標準ガウス入力で訓練されたバイアスのない2層ネットワークを無限のデータに制限した教師学生向けインテグレータを備えている。
コードはhttps://github.com/jbrea/MLPGradientFlow.jlでアクセスできる。
関連論文リスト
- Neural network learns low-dimensional polynomials with SGD near the information-theoretic limit [75.4661041626338]
単一インデックス対象関数 $f_*(boldsymbolx) = textstylesigma_*left(langleboldsymbolx,boldsymbolthetarangleright)$ の等方的ガウスデータの下で勾配降下学習の問題を考察する。
SGDアルゴリズムで最適化された2層ニューラルネットワークは、サンプル付き任意のリンク関数の$f_*$を学習し、実行時の複雑さは$n asymp T asymp C(q) cdot dであることを示す。
論文 参考訳(メタデータ) (2024-06-03T17:56:58Z) - ReSQueing Parallel and Private Stochastic Convex Optimization [59.53297063174519]
本稿では,BFG凸最適化(SCO: Reweighted Query (ReSQue) 推定ツールを提案する。
我々はSCOの並列およびプライベート設定における最先端の複雑さを実現するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-01-01T18:51:29Z) - Sharper Convergence Guarantees for Asynchronous SGD for Distributed and
Federated Learning [77.22019100456595]
通信周波数の異なる分散計算作業者のトレーニングアルゴリズムを示す。
本研究では,より厳密な収束率を$mathcalO!!(sigma2-2_avg!)とする。
また,不均一性の項は,作業者の平均遅延によっても影響されることを示した。
論文 参考訳(メタデータ) (2022-06-16T17:10:57Z) - Optimal Gradient Sliding and its Application to Distributed Optimization
Under Similarity [121.83085611327654]
積 $r:=p + q$, ここで$r$は$mu$-strong convex類似性である。
エージェントの通信やローカルコールにマスターされた問題を解決する方法を提案する。
提案手法は$mathcalO(sqrtL_q/mu)$法よりもはるかにシャープである。
論文 参考訳(メタデータ) (2022-05-30T14:28:02Z) - Generalization Bounds for Gradient Methods via Discrete and Continuous
Prior [8.76346911214414]
次数$O(frac1n + fracL2nsum_t=1T(gamma_t/varepsilon_t)2)$の新たな高確率一般化境界を示す。
また、あるSGDの変種に対する新しい境界を得ることもできる。
論文 参考訳(メタデータ) (2022-05-27T07:23:01Z) - Fast Graph Sampling for Short Video Summarization using Gershgorin Disc
Alignment [52.577757919003844]
高速グラフサンプリングの最近の進歩を利用して,短い動画を複数の段落に効率よく要約する問題について検討する。
実験結果から,本アルゴリズムは最先端の手法と同等の映像要約を実現し,複雑さを大幅に低減した。
論文 参考訳(メタデータ) (2021-10-21T18:43:00Z) - Minimax Optimal Regression over Sobolev Spaces via Laplacian
Regularization on Neighborhood Graphs [25.597646488273558]
非パラメトリック回帰に対するグラフに基づくアプローチであるラプラシア平滑化の統計的性質について検討する。
ラプラシアン滑らか化が多様体適応であることを証明する。
論文 参考訳(メタデータ) (2021-06-03T01:20:41Z) - Beyond Lazy Training for Over-parameterized Tensor Decomposition [69.4699995828506]
過度なパラメータ化対象の勾配勾配は遅延学習体制を超え、データ中の特定の低ランク構造を利用する可能性があることを示す。
以上の結果から,過パラメータ化対象の勾配勾配は遅延学習体制を超え,データ中の特定の低ランク構造を利用する可能性が示唆された。
論文 参考訳(メタデータ) (2020-10-22T00:32:12Z) - Training (Overparametrized) Neural Networks in Near-Linear Time [21.616949485102342]
本稿では,ReparamLUネットワークをトレーニングするための[CGH+1]アルゴリズムの高速化について述べる。
我々のアルゴリズムの中心はガウスニュートンを$ell$-reconditionとして再構成することである。
論文 参考訳(メタデータ) (2020-06-20T20:26:14Z) - Stochastic Recursive Gradient Descent Ascent for Stochastic
Nonconvex-Strongly-Concave Minimax Problems [36.645753881826955]
本稿では,分散を利用してより効率的に推定できるRecurEnti Ascent(SREDA)という新しい手法を提案する。
この方法はこの問題でよく知られている。
論文 参考訳(メタデータ) (2020-01-11T09:05:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。