Fugu-MT 論文翻訳(概要): Non-asymptotic estimates for TUSLA algorithm for non-convex learning with applications to neural networks with ReLU activation function

論文の概要: Non-asymptotic estimates for TUSLA algorithm for non-convex learning with applications to neural networks with ReLU activation function

arxiv url: http://arxiv.org/abs/2107.08649v2
Date: Tue, 2 May 2023 15:45:00 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-03 18:32:23.128514
Title: Non-asymptotic estimates for TUSLA algorithm for non-convex learning with applications to neural networks with ReLU activation function
Title（参考訳）: 非凸学習のためのTUSLAアルゴリズムの非漸近推定とReLUアクティベーション機能を持つニューラルネットワークへの応用
Authors: Dong-Young Lim, Ariel Neufeld, Sotirios Sabanis, Ying Zhang
Abstract要約: Lovas et alで導入された未調整Langevinアルゴリズム(TUSLA)の非漸近解析を行う。特に、Wassersteinstein-1-2におけるTUSLAアルゴリズムの非漸近誤差境界を確立する。 TUSLAアルゴリズムは最適解に急速に収束することを示す。
参考スコア（独自算出の注目度）: 3.5044892799305956
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We consider non-convex stochastic optimization problems where the objective functions have super-linearly growing and discontinuous stochastic gradients. In such a setting, we provide a non-asymptotic analysis for the tamed unadjusted stochastic Langevin algorithm (TUSLA) introduced in Lovas et al. (2020). In particular, we establish non-asymptotic error bounds for the TUSLA algorithm in Wasserstein-1 and Wasserstein-2 distances. The latter result enables us to further derive non-asymptotic estimates for the expected excess risk. To illustrate the applicability of the main results, we consider an example from transfer learning with ReLU neural networks, which represents a key paradigm in machine learning. Numerical experiments are presented for the aforementioned example which support our theoretical findings. Hence, in this setting, we demonstrate both theoretically and numerically that the TUSLA algorithm can solve the optimization problem involving neural networks with ReLU activation function. Besides, we provide simulation results for synthetic examples where popular algorithms, e.g. ADAM, AMSGrad, RMSProp, and (vanilla) stochastic gradient descent (SGD) algorithm, may fail to find the minimizer of the objective functions due to the super-linear growth and the discontinuity of the corresponding stochastic gradient, while the TUSLA algorithm converges rapidly to the optimal solution. Moreover, we provide an empirical comparison of the performance of TUSLA with popular stochastic optimizers on real-world datasets, as well as investigate the effect of the key hyperparameters of TUSLA on its performance.
Abstract（参考訳）: 対象関数が超線形に成長し不連続な確率勾配を持つ非凸確率最適化問題を考える。このような状況下では,lovas et al. (2020) で導入されたtamed unadjusted stochastic langevin algorithm (tusla) の非漸近解析を行う。特に,wasserstein-1とwasserstein-2距離におけるtuslaアルゴリズムの非漸近誤差境界を定式化する。後者の結果は、予想される過剰リスクの非漸近推定をさらに導出することを可能にする。主な結果の適用性を説明するために,機械学習の重要なパラダイムであるreluニューラルネットワークを用いたトランスファー学習の例を考察する。理論的な知見を裏付ける例として数値実験を行った。そこで本研究では,tuslaアルゴリズムがreluアクティベーション関数を持つニューラルネットワークを含む最適化問題を解くことができることを理論的および数値的に証明する。さらに,ADAM,AMSGrad,RMSProp,(Vanilla)確率勾配勾配(SGD)アルゴリズムなどの一般的なアルゴリズムが,超線形成長と対応する確率勾配の不連続性に起因する目的関数の最小化に失敗し,TUSLAアルゴリズムは最適解に急速に収束する。さらに,TUSLA と一般的な確率最適化器の性能を実世界のデータセット上で比較し,TUSLA の重要なハイパーパラメータが性能に与える影響について検討する。

関連論文リスト

Non-asymptotic convergence analysis of the stochastic gradient Hamiltonian Monte Carlo algorithm with discontinuous stochastic gradient with applications to training of ReLU neural networks [8.058385158111207]
我々は、勾配ハミルトニアンモンテカルロのWasserstein-1 と Wasserstein-2 距離の目標測度への収束の非漸近解析を提供する。本研究の主な成果を説明するために、定量推定に関する数値実験と、金融と人工知能に関連するReLUニューラルネットワークに関わるいくつかの問題について考察する。
論文参考訳（メタデータ） (2024-09-25T17:21:09Z)
Convergence of Implicit Gradient Descent for Training Two-Layer Physics-Informed Neural Networks [3.680127959836384]
暗黙の勾配降下(IGD)は、ある種のマルチスケール問題を扱う場合、共通勾配降下(GD)よりも優れる。 IGDは線形収束速度で大域的に最適解を収束することを示す。
論文参考訳（メタデータ） (2024-07-03T06:10:41Z)
A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。 i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文参考訳（メタデータ） (2024-04-18T16:46:08Z)
Promises and Pitfalls of the Linearized Laplace in Bayesian Optimization [73.80101701431103]
線形化ラプラス近似(LLA)はベイズニューラルネットワークの構築に有効で効率的であることが示されている。ベイズ最適化におけるLLAの有用性について検討し,その性能と柔軟性を強調した。
論文参考訳（メタデータ） (2023-04-17T14:23:43Z)
Implicit Stochastic Gradient Descent for Training Physics-informed Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。 PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文参考訳（メタデータ） (2023-03-03T08:17:47Z)
Langevin dynamics based algorithm e-TH$\varepsilon$O POULA for stochastic optimization problems with discontinuous stochastic gradient [6.563379950720334]
我々は,不連続勾配による最適化問題を解くために,e-TH$varepsilon$O POULAと呼ばれる新しいランゲヴィン力学に基づくアルゴリズムを導入する。金融と保険の3つの重要な応用として、多周期ポートフォリオ最適化、多周期ポートフォリオ最適化におけるトランスファーラーニング、保険請求予測がある。
論文参考訳（メタデータ） (2022-10-24T13:10:06Z)
Fractal Structure and Generalization Properties of Stochastic Optimization Algorithms [71.62575565990502]
最適化アルゴリズムの一般化誤差は、その一般化尺度の根底にあるフラクタル構造の複雑性'にバウンドできることを示す。さらに、特定の問題(リニア/ロジスティックレグレッション、隠れ/層ニューラルネットワークなど)とアルゴリズムに対して、結果をさらに専門化します。
論文参考訳（メタデータ） (2021-06-09T08:05:36Z)
Practical Precoding via Asynchronous Stochastic Successive Convex Approximation [8.808993671472349]
凸非平滑正規化器を用いた滑らかな非研究損失関数の最適化について検討する。本研究では、SCAアルゴリズムを詳しく検討し、無線ネットワークにおけるリソース割り当てのための非同期版を開発する。
論文参考訳（メタデータ） (2020-10-03T13:53:30Z)
ROOT-SGD: Sharp Nonasymptotics and Near-Optimal Asymptotics in a Single Algorithm [71.13558000599839]
第一次アルゴリズムを用いて,厳密な凸と滑らかな非制約最適化問題の解法について検討する。我々は,過去の勾配を平均化し,実装が容易な小説「Recursive One-Over-T SGD」を考案した。有限サンプル, 漸近感覚, 感覚の両面において, 最先端の性能を同時に達成できることを実証する。
論文参考訳（メタデータ） (2020-08-28T14:46:56Z)
Taming neural networks with TUSLA: Non-convex learning via adaptive stochastic gradient Langevin algorithms [0.0]
我々は問題ランゲダイナミクス(SGLD)に基づく適切に構築された勾配アルゴリズムを提案する。また、新しいアルゴリズムの収束特性の利用に関する漸近解析も提供する。 TUSLAアルゴリズムのルーツは、カプタメド・エウラーの発達係数を持つテーミングプロセスに基づいている。
論文参考訳（メタデータ） (2020-06-25T16:06:22Z)
Towards Better Understanding of Adaptive Gradient Algorithms in Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文参考訳（メタデータ） (2019-12-26T22:10:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。