論文の概要: Non-asymptotic estimates for TUSLA algorithm for non-convex learning
with applications to neural networks with ReLU activation function
- arxiv url: http://arxiv.org/abs/2107.08649v2
- Date: Tue, 2 May 2023 15:45:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-03 18:32:23.128514
- Title: Non-asymptotic estimates for TUSLA algorithm for non-convex learning
with applications to neural networks with ReLU activation function
- Title(参考訳): 非凸学習のためのTUSLAアルゴリズムの非漸近推定とReLUアクティベーション機能を持つニューラルネットワークへの応用
- Authors: Dong-Young Lim, Ariel Neufeld, Sotirios Sabanis, Ying Zhang
- Abstract要約: Lovas et alで導入された未調整Langevinアルゴリズム(TUSLA)の非漸近解析を行う。
特に、Wassersteinstein-1-2におけるTUSLAアルゴリズムの非漸近誤差境界を確立する。
TUSLAアルゴリズムは最適解に急速に収束することを示す。
- 参考スコア(独自算出の注目度): 3.5044892799305956
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider non-convex stochastic optimization problems where the objective
functions have super-linearly growing and discontinuous stochastic gradients.
In such a setting, we provide a non-asymptotic analysis for the tamed
unadjusted stochastic Langevin algorithm (TUSLA) introduced in Lovas et al.
(2020). In particular, we establish non-asymptotic error bounds for the TUSLA
algorithm in Wasserstein-1 and Wasserstein-2 distances. The latter result
enables us to further derive non-asymptotic estimates for the expected excess
risk. To illustrate the applicability of the main results, we consider an
example from transfer learning with ReLU neural networks, which represents a
key paradigm in machine learning. Numerical experiments are presented for the
aforementioned example which support our theoretical findings. Hence, in this
setting, we demonstrate both theoretically and numerically that the TUSLA
algorithm can solve the optimization problem involving neural networks with
ReLU activation function. Besides, we provide simulation results for synthetic
examples where popular algorithms, e.g. ADAM, AMSGrad, RMSProp, and (vanilla)
stochastic gradient descent (SGD) algorithm, may fail to find the minimizer of
the objective functions due to the super-linear growth and the discontinuity of
the corresponding stochastic gradient, while the TUSLA algorithm converges
rapidly to the optimal solution. Moreover, we provide an empirical comparison
of the performance of TUSLA with popular stochastic optimizers on real-world
datasets, as well as investigate the effect of the key hyperparameters of TUSLA
on its performance.
- Abstract(参考訳): 対象関数が超線形に成長し不連続な確率勾配を持つ非凸確率最適化問題を考える。
このような状況下では,lovas et al. (2020) で導入されたtamed unadjusted stochastic langevin algorithm (tusla) の非漸近解析を行う。
特に,wasserstein-1とwasserstein-2距離におけるtuslaアルゴリズムの非漸近誤差境界を定式化する。
後者の結果は、予想される過剰リスクの非漸近推定をさらに導出することを可能にする。
主な結果の適用性を説明するために,機械学習の重要なパラダイムであるreluニューラルネットワークを用いたトランスファー学習の例を考察する。
理論的な知見を裏付ける例として数値実験を行った。
そこで本研究では,tuslaアルゴリズムがreluアクティベーション関数を持つニューラルネットワークを含む最適化問題を解くことができることを理論的および数値的に証明する。
さらに,ADAM,AMSGrad,RMSProp,(Vanilla)確率勾配勾配(SGD)アルゴリズムなどの一般的なアルゴリズムが,超線形成長と対応する確率勾配の不連続性に起因する目的関数の最小化に失敗し,TUSLAアルゴリズムは最適解に急速に収束する。
さらに,TUSLA と一般的な確率最適化器の性能を実世界のデータセット上で比較し,TUSLA の重要なハイパーパラメータが性能に与える影響について検討する。
関連論文リスト
- A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimiax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - Promises and Pitfalls of the Linearized Laplace in Bayesian Optimization [73.80101701431103]
線形化ラプラス近似(LLA)はベイズニューラルネットワークの構築に有効で効率的であることが示されている。
ベイズ最適化におけるLLAの有用性について検討し,その性能と柔軟性を強調した。
論文 参考訳(メタデータ) (2023-04-17T14:23:43Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Langevin dynamics based algorithm e-TH$\varepsilon$O POULA for stochastic optimization problems with discontinuous stochastic gradient [6.563379950720334]
我々は,不連続勾配による最適化問題を解くために,e-TH$varepsilon$O POULAと呼ばれる新しいランゲヴィン力学に基づくアルゴリズムを導入する。
金融と保険の3つの重要な応用として、多周期ポートフォリオ最適化、多周期ポートフォリオ最適化におけるトランスファーラーニング、保険請求予測がある。
論文 参考訳(メタデータ) (2022-10-24T13:10:06Z) - A Gradient Smoothed Functional Algorithm with Truncated Cauchy Random
Perturbations for Stochastic Optimization [10.820943271350442]
本稿では,雑音の多いコストサンプルに対する期待値であるスムーズな目的関数を最小化するための凸勾配アルゴリズムを提案する。
また,本アルゴリズムは局所最小値への収束を示唆し,レートリリアを回避できることも示している。
論文 参考訳(メタデータ) (2022-07-30T18:50:36Z) - Fractal Structure and Generalization Properties of Stochastic
Optimization Algorithms [71.62575565990502]
最適化アルゴリズムの一般化誤差は、その一般化尺度の根底にあるフラクタル構造の複雑性'にバウンドできることを示す。
さらに、特定の問題(リニア/ロジスティックレグレッション、隠れ/層ニューラルネットワークなど)とアルゴリズムに対して、結果をさらに専門化します。
論文 参考訳(メタデータ) (2021-06-09T08:05:36Z) - Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box
Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。
座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-21T17:29:58Z) - Practical Precoding via Asynchronous Stochastic Successive Convex
Approximation [8.808993671472349]
凸非平滑正規化器を用いた滑らかな非研究損失関数の最適化について検討する。
本研究では、SCAアルゴリズムを詳しく検討し、無線ネットワークにおけるリソース割り当てのための非同期版を開発する。
論文 参考訳(メタデータ) (2020-10-03T13:53:30Z) - Taming neural networks with TUSLA: Non-convex learning via adaptive
stochastic gradient Langevin algorithms [0.0]
我々は問題ランゲダイナミクス(SGLD)に基づく適切に構築された勾配アルゴリズムを提案する。
また、新しいアルゴリズムの収束特性の利用に関する漸近解析も提供する。
TUSLAアルゴリズムのルーツは、カプタメド・エウラーの発達係数を持つテーミングプロセスに基づいている。
論文 参考訳(メタデータ) (2020-06-25T16:06:22Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。