Fugu-MT 論文翻訳(概要): MLPGradientFlow: going with the flow of multilayer perceptrons (and finding minima fast and accurately)

論文の概要: MLPGradientFlow: going with the flow of multilayer perceptrons (and finding minima fast and accurately)

arxiv url: http://arxiv.org/abs/2301.10638v1
Date: Wed, 25 Jan 2023 15:21:44 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-26 15:02:34.735644
Title: MLPGradientFlow: going with the flow of multilayer perceptrons (and finding minima fast and accurately)
Title（参考訳）: MLPGradientFlow:多層パーセプトロンの流れを伴って(そしてミニマを素早く正確に見つける)
Authors: Johanni Brea, Flavio Martinelli, Berfin \c{S}im\c{s}ek, Wulfram Gerstner
Abstract要約: GradientFlowは数値勾配流微分方程式を解くソフトウェアパッケージである。小さなネットワークやデータセットでは、勾配はpytorchよりも高速に計算され、Hessianは少なくとも5倍速で計算される。
参考スコア（独自算出の注目度）: 6.4560113506698436
License: http://creativecommons.org/licenses/by/4.0/
Abstract: MLPGradientFlow is a software package to solve numerically the gradient flow differential equation $\dot \theta = -\nabla \mathcal L(\theta; \mathcal D)$, where $\theta$ are the parameters of a multi-layer perceptron, $\mathcal D$ is some data set, and $\nabla \mathcal L$ is the gradient of a loss function. We show numerically that adaptive first- or higher-order integration methods based on Runge-Kutta schemes have better accuracy and convergence speed than gradient descent with the Adam optimizer. However, we find Newton's method and approximations like BFGS preferable to find fixed points (local and global minima of $\mathcal L$) efficiently and accurately. For small networks and data sets, gradients are usually computed faster than in pytorch and Hessian are computed at least $5\times$ faster. Additionally, the package features an integrator for a teacher-student setup with bias-free, two-layer networks trained with standard Gaussian input in the limit of infinite data. The code is accessible at https://github.com/jbrea/MLPGradientFlow.jl.
Abstract（参考訳）: mlpgradientflow は勾配流微分方程式 $\dot \theta = -\nabla \mathcal l(\theta; \mathcal d)$ を数値的に解くソフトウェアパッケージであり、$\theta$ は多層パーセプトロンのパラメータ、$\mathcal d$ はデータセット、$\nabla \mathcal l$ は損失関数の勾配である。ランゲ・クッタスキームに基づく適応的な一階あるいは高階積分法は、アダム最適化器による勾配降下よりも精度と収束速度が良いことを示す。しかし、BFGSのようなニュートンの手法や近似は、固定点(局所および大域最小値$\mathcal L$)を効率よく正確に見つけるのが好ましい。小さなネットワークやデータセットの場合、勾配は通常ピトルチよりも速く計算され、ヘッセンは少なくとも5\times$速く計算される。さらに、このパッケージは、標準ガウス入力で訓練されたバイアスのない2層ネットワークを無限のデータに制限した教師学生向けインテグレータを備えている。コードはhttps://github.com/jbrea/MLPGradientFlow.jlでアクセスできる。

関連論文リスト

Neural network learns low-dimensional polynomials with SGD near the information-theoretic limit [75.4661041626338]
単一インデックス対象関数 $f_*(boldsymbolx) = textstylesigma_*left(langleboldsymbolx,boldsymbolthetarangleright)$ の等方的ガウスデータの下で勾配降下学習の問題を考察する。 SGDアルゴリズムで最適化された2層ニューラルネットワークは、サンプル付き任意のリンク関数の$f_*$を学習し、実行時の複雑さは$n asymp T asymp C(q) cdot dであることを示す。
論文参考訳（メタデータ） (2024-06-03T17:56:58Z)
Algorithms for mean-field variational inference via polyhedral optimization in the Wasserstein space [10.292118864147097]
ワッサーシュタイン空間上の有限次元多面体部分集合の理論を開発し、一階法による函数の最適化を行う。我々の主な応用は平均場変動推論の問題であり、これは分布の$pi$ over $mathbbRd$を製品測度$pistar$で近似しようとするものである。解析の副産物として,MFVIのための勾配に基づくアルゴリズムの最初のエンドツーエンド解析を求める。
論文参考訳（メタデータ） (2023-12-05T16:02:04Z)
Efficiently Learning One-Hidden-Layer ReLU Networks via Schur Polynomials [50.90125395570797]
正方形損失に関して、標準的なガウス分布の下での$k$ReLU活性化の線形結合をPAC学習する問題をmathbbRd$で検討する。本研究の主な成果は,この学習課題に対して,サンプルおよび計算複雑性が$(dk/epsilon)O(k)$で,epsilon>0$が目標精度である。
論文参考訳（メタデータ） (2023-07-24T14:37:22Z)
ReSQueing Parallel and Private Stochastic Convex Optimization [59.53297063174519]
本稿では,BFG凸最適化(SCO: Reweighted Query (ReSQue) 推定ツールを提案する。我々はSCOの並列およびプライベート設定における最先端の複雑さを実現するアルゴリズムを開発した。
論文参考訳（メタデータ） (2023-01-01T18:51:29Z)
Sharper Convergence Guarantees for Asynchronous SGD for Distributed and Federated Learning [77.22019100456595]
通信周波数の異なる分散計算作業者のトレーニングアルゴリズムを示す。本研究では,より厳密な収束率を$mathcalO!!(sigma2-2_avg!)とする。また,不均一性の項は,作業者の平均遅延によっても影響されることを示した。
論文参考訳（メタデータ） (2022-06-16T17:10:57Z)
Optimal Gradient Sliding and its Application to Distributed Optimization Under Similarity [121.83085611327654]
積 $r:=p + q$, ここで$r$は$mu$-strong convex類似性である。エージェントの通信やローカルコールにマスターされた問題を解決する方法を提案する。提案手法は$mathcalO(sqrtL_q/mu)$法よりもはるかにシャープである。
論文参考訳（メタデータ） (2022-05-30T14:28:02Z)
Generalization Bounds for Gradient Methods via Discrete and Continuous Prior [8.76346911214414]
次数$O(frac1n + fracL2nsum_t=1T(gamma_t/varepsilon_t)2)$の新たな高確率一般化境界を示す。また、あるSGDの変種に対する新しい境界を得ることもできる。
論文参考訳（メタデータ） (2022-05-27T07:23:01Z)
Fast Graph Sampling for Short Video Summarization using Gershgorin Disc Alignment [52.577757919003844]
高速グラフサンプリングの最近の進歩を利用して,短い動画を複数の段落に効率よく要約する問題について検討する。実験結果から,本アルゴリズムは最先端の手法と同等の映像要約を実現し,複雑さを大幅に低減した。
論文参考訳（メタデータ） (2021-10-21T18:43:00Z)
Minimax Optimal Regression over Sobolev Spaces via Laplacian Regularization on Neighborhood Graphs [25.597646488273558]
非パラメトリック回帰に対するグラフに基づくアプローチであるラプラシア平滑化の統計的性質について検討する。ラプラシアン滑らか化が多様体適応であることを証明する。
論文参考訳（メタデータ） (2021-06-03T01:20:41Z)
Beyond Lazy Training for Over-parameterized Tensor Decomposition [69.4699995828506]
過度なパラメータ化対象の勾配勾配は遅延学習体制を超え、データ中の特定の低ランク構造を利用する可能性があることを示す。以上の結果から,過パラメータ化対象の勾配勾配は遅延学習体制を超え,データ中の特定の低ランク構造を利用する可能性が示唆された。
論文参考訳（メタデータ） (2020-10-22T00:32:12Z)
Training (Overparametrized) Neural Networks in Near-Linear Time [21.616949485102342]
本稿では,ReparamLUネットワークをトレーニングするための[CGH+1]アルゴリズムの高速化について述べる。我々のアルゴリズムの中心はガウスニュートンを$ell$-reconditionとして再構成することである。
論文参考訳（メタデータ） (2020-06-20T20:26:14Z)
Stochastic Recursive Gradient Descent Ascent for Stochastic Nonconvex-Strongly-Concave Minimax Problems [36.645753881826955]
本稿では,分散を利用してより効率的に推定できるRecurEnti Ascent(SREDA)という新しい手法を提案する。この方法はこの問題でよく知られている。
論文参考訳（メタデータ） (2020-01-11T09:05:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。