Fugu-MT 論文翻訳(概要): Convergence of SGD for Training Neural Networks with Sliced Wasserstein Losses

論文の概要: Convergence of SGD for Training Neural Networks with Sliced Wasserstein Losses

arxiv url: http://arxiv.org/abs/2307.11714v3
Date: Mon, 18 Mar 2024 09:55:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-20 04:12:33.450589
Title: Convergence of SGD for Training Neural Networks with Sliced Wasserstein Losses
Title（参考訳）: スライスワッサースタイン損失を用いたニューラルネットワーク学習におけるSGDの収束性
Authors: Eloi Tanguy,
Abstract要約: 我々は,SGDの直感的収束に関する知識ギャップを非滑らか関数と非生成関数に橋渡しする。すなわち、長い軌道は損失関数の一般化された臨界点の集合に近づく。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Optimal Transport has sparked vivid interest in recent years, in particular thanks to the Wasserstein distance, which provides a geometrically sensible and intuitive way of comparing probability measures. For computational reasons, the Sliced Wasserstein (SW) distance was introduced as an alternative to the Wasserstein distance, and has seen uses for training generative Neural Networks (NNs). While convergence of Stochastic Gradient Descent (SGD) has been observed practically in such a setting, there is to our knowledge no theoretical guarantee for this observation. Leveraging recent works on convergence of SGD on non-smooth and non-convex functions by Bianchi et al. (2022), we aim to bridge that knowledge gap, and provide a realistic context under which fixed-step SGD trajectories for the SW loss on NN parameters converge. More precisely, we show that the trajectories approach the set of (sub)-gradient flow equations as the step decreases. Under stricter assumptions, we show a much stronger convergence result for noised and projected SGD schemes, namely that the long-run limits of the trajectories approach a set of generalised critical points of the loss function.
Abstract（参考訳）: 最適輸送は近年、特にワッサーシュタイン距離(英語版)のおかげで、幾何的に合理的で直感的に確率測度を比較する方法によって、鮮明な関心を呼び起こしている。計算上の理由から、スライデッド・ワッサースタイン距離(SW)はワッサースタイン距離の代替として導入され、生成ニューラルネットワーク(NN)のトレーニングに利用されてきた。確率勾配Descent (SGD) の収束は, 実際にこのような状況下で観測されているが, この観測に対する理論的保証はない。 Bianchi et al (2022) による非滑らかおよび非凸関数に対するSGDの収束に関する最近の研究を活用し、我々はその知識ギャップを埋めることを目的としており、NNパラメータ上のSW損失に対する固定ステップSGD軌道が収束する現実的な文脈を提供する。より正確には、ステップが減少するにつれて、軌道が(部分)勾配方程式の集合に近づくことを示す。より厳密な仮定の下では、雑音および射影されたSGDスキームに対してより強い収束結果を示す。

関連論文リスト

Gradient-Based Non-Linear Inverse Learning [2.6149030745627644]
ランダム設計下での非線形逆問題の文脈における統計的逆学習について検討する。勾配勾配勾配 (GD) と降下勾配 (SGD) を, それぞれ一定のステップサイズを用いて小バッチで適用した。我々の分析は、対象関数の滑らかさに関する古典的な前提条件の下で、両方のアルゴリズムの収束率を導出する。
論文参考訳（メタデータ） (2024-12-21T22:38:17Z)
A Precise Characterization of SGD Stability Using Loss Surface Geometry [8.942671556572073]
Descent Gradient (SGD) は実世界の実証的な成功を証明しているが、理論的な理解は比較的限られている。最近の研究は、その実用性に寄与する重要な要因である暗黙の正規化を照らしている。
論文参考訳（メタデータ） (2024-01-22T19:46:30Z)
Implicit Bias of Gradient Descent for Logistic Regression at the Edge of Stability [69.01076284478151]
機械学習の最適化において、勾配降下(GD)はしばしば安定性の端(EoS)で動く本稿では,EoS系における線形分離可能なデータに対するロジスティック回帰のための定数段差GDの収束と暗黙バイアスについて検討する。
論文参考訳（メタデータ） (2023-05-19T16:24:47Z)
From Gradient Flow on Population Loss to Learning with Stochastic Gradient Descent [50.4531316289086]
SGD(Gradient Descent)は、大規模非ルートモデルの学習方法である。集団損失のGFが収束すると仮定して、総合的な条件 SGD が収束する。我々は、凸損失のような古典的な設定だけでなく、Retrieval Matrix sq-rootのようなより複雑な問題に対してもGD/SGDを統一的に解析する。
論文参考訳（メタデータ） (2022-10-13T03:55:04Z)
Stability and Generalization Analysis of Gradient Methods for Shallow Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文参考訳（メタデータ） (2022-09-19T18:48:00Z)
A PDE-based Explanation of Extreme Numerical Sensitivities and Edge of Stability in Training Neural Networks [12.355137704908042]
勾配降下型深層ネットワーク(SGD)の現在の訓練実践における抑制的数値不安定性を示す。我々は、偏微分方程式(PDE)の数値解析を用いて理論的枠組みを提示し、畳み込みニューラルネットワーク(CNN)の勾配降下PDEを分析する。これはCNNの降下に伴う非線形PDEの結果であり、離散化のステップサイズを過度に運転すると局所線形化が変化し、安定化効果がもたらされることを示す。
論文参考訳（メタデータ） (2022-06-04T14:54:05Z)
On the Convergence of mSGD and AdaGrad for Stochastic Optimization [0.696125353550498]
凸降下(SGD)は、過去10年間に機械学習に大きく開発され、広く応用されてきた。モーメントベースのSGD(mSGD)や適応的勾配最適化(AdaGrad)など、多くの競合や応用においてSGDよりも優れている修正SGD型アルゴリズムもある。我々は,機械学習における任意の滑らかな(不可能かもしれない)損失関数に対するmSGDとAdaGradの収束解析に着目する。
論文参考訳（メタデータ） (2022-01-26T22:02:21Z)
On Convergence of Training Loss Without Reaching Stationary Points [62.41370821014218]
ニューラルネットワークの重み変数は、損失関数の勾配が消える定常点に収束しないことを示す。エルゴード理論の力学系に基づく新しい視点を提案する。
論文参考訳（メタデータ） (2021-10-12T18:12:23Z)
Differentiable Annealed Importance Sampling and the Perils of Gradient Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文参考訳（メタデータ） (2021-07-21T17:10:14Z)
Stochastic Gradient Descent-Ascent and Consensus Optimization for Smooth Games: Convergence Analysis under Expected Co-coercivity [49.66890309455787]
本稿では,SGDA と SCO の最終的な収束保証として,期待されるコヒーレンシティ条件を導入し,その利点を説明する。定常的なステップサイズを用いた場合、両手法の線形収束性を解の近傍に証明する。我々の収束保証は任意のサンプリングパラダイムの下で保たれ、ミニバッチの複雑さに関する洞察を与える。
論文参考訳（メタデータ） (2021-06-30T18:32:46Z)
Convergence rates and approximation results for SGD and its continuous-time counterpart [16.70533901524849]
本稿では,非増加ステップサイズを有する凸勾配Descent (SGD) の完全理論的解析を提案する。まず、結合を用いた不均一微分方程式(SDE)の解により、SGDを確実に近似できることを示す。連続的手法による決定論的および最適化手法の最近の分析において, 連続過程の長期的挙動と非漸近的境界について検討する。
論文参考訳（メタデータ） (2020-04-08T18:31:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。