論文の概要: Gradient is All You Need?
- arxiv url: http://arxiv.org/abs/2306.09778v1
- Date: Fri, 16 Jun 2023 11:30:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-19 14:11:00.203371
- Title: Gradient is All You Need?
- Title(参考訳): グラデーションは必要か?
- Authors: Konstantin Riedl, Timo Klock, Carina Geldhauser, Massimo Fornasier
- Abstract要約: 本稿では、コンセンサスに基づく勾配最適化(CBO)の解釈による学習アルゴリズムの理論的理解に関する新しい分析的視点を提供する。
本研究は,非局所景観関数の複雑さを軽減するため,CBOの本質的な能力を証明するものである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we provide a novel analytical perspective on the theoretical
understanding of gradient-based learning algorithms by interpreting
consensus-based optimization (CBO), a recently proposed multi-particle
derivative-free optimization method, as a stochastic relaxation of gradient
descent. Remarkably, we observe that through communication of the particles,
CBO exhibits a stochastic gradient descent (SGD)-like behavior despite solely
relying on evaluations of the objective function. The fundamental value of such
link between CBO and SGD lies in the fact that CBO is provably globally
convergent to global minimizers for ample classes of nonsmooth and nonconvex
objective functions, hence, on the one side, offering a novel explanation for
the success of stochastic relaxations of gradient descent. On the other side,
contrary to the conventional wisdom for which zero-order methods ought to be
inefficient or not to possess generalization abilities, our results unveil an
intrinsic gradient descent nature of such heuristics. This viewpoint
furthermore complements previous insights into the working principles of CBO,
which describe the dynamics in the mean-field limit through a nonlinear
nonlocal partial differential equation that allows to alleviate complexities of
the nonconvex function landscape. Our proofs leverage a completely nonsmooth
analysis, which combines a novel quantitative version of the Laplace principle
(log-sum-exp trick) and the minimizing movement scheme (proximal iteration). In
doing so, we furnish useful and precise insights that explain how stochastic
perturbations of gradient descent overcome energy barriers and reach deep
levels of nonconvex functions. Instructive numerical illustrations support the
provided theoretical insights.
- Abstract(参考訳): 本稿では,最近提案された多粒子微分自由最適化法であるコンセンサスベース最適化(cbo)を,勾配降下の確率的緩和として解釈することにより,勾配ベース学習アルゴリズムの理論的理解に関する新たな分析的視点を提案する。
驚くべきことに, cboは粒子間のコミュニケーションを通じて, 目的関数の評価のみに依存するにもかかわらず, 確率勾配降下 (sgd) のような挙動を示す。
このような cbo と sgd のリンクの基本的な価値は、cbo が非スムースおよび非凸対象関数の豊富なクラスに対する大域的最小値に対して大域的に収束するという事実であり、従って一方では、勾配降下の確率的緩和の成功の新たな説明を提供する。
一方,ゼロ次法が非効率であるべきか,一般化能力を持つべきでないという従来の知識とは対照的に,このようなヒューリスティックスの固有勾配降下特性を明らかにした。
この視点はさらに、非凸函数の風景の複雑さを緩和する非線形非局所偏微分方程式を通じて平均場極限の力学を記述するcboの作業原理に対する以前の知見を補う。
我々の証明は、ラプラス原理(log-sum-exp trick)と最小化運動スキーム(proximal iteration)を組み合わせた、完全に非滑らかな解析を利用する。
そこで我々は,勾配降下の確率的摂動がエネルギー障壁を克服し,非凸関数の深いレベルに達する方法について,有用かつ正確な知見を得る。
指導的な数値挿絵は、理論的な洞察を提供する。
関連論文リスト
- Generalizing Stochastic Smoothing for Differentiation and Gradient Estimation [59.86921150579892]
アルゴリズム,演算子,シミュレータ,その他の微分不可能関数の微分可能緩和に対する勾配推定の問題に対処する。
我々は、微分可能なソートとランキングのための分散化戦略、グラフ上の微分可能なショートパス、ポーズ推定のための微分可能なレンダリング、および微分可能なCryo-ETシミュレーションを開発する。
論文 参考訳(メタデータ) (2024-10-10T17:10:00Z) - Extended convexity and smoothness and their applications in deep learning [0.0]
本稿では,非完全に理解された勾配と強い凸性に対する$mathcal$H$smoothnessアルゴリズムを提案する。
提案手法の有効性を実験により検証した。
論文 参考訳(メタデータ) (2024-10-08T08:40:07Z) - BrowNNe: Brownian Nonlocal Neurons & Activation Functions [0.0]
低トレーニングデータにおけるブラウンニューラルアクティベーション関数がReLUに勝っていることを示す。
本実験は,低トレーニングデータにおけるブラウン神経活性化機能の優れた機能を示す。
論文 参考訳(メタデータ) (2024-06-21T19:40:30Z) - Convex and Non-convex Optimization Under Generalized Smoothness [69.69521650503431]
凸法と非最適化法の分析は、しばしばリプシッツ勾配を必要とし、この軌道による解析を制限する。
最近の研究は、非一様滑らか性条件を通した勾配設定を一般化している。
論文 参考訳(メタデータ) (2023-06-02T04:21:59Z) - On Convergence of Training Loss Without Reaching Stationary Points [62.41370821014218]
ニューラルネットワークの重み変数は、損失関数の勾配が消える定常点に収束しないことを示す。
エルゴード理論の力学系に基づく新しい視点を提案する。
論文 参考訳(メタデータ) (2021-10-12T18:12:23Z) - Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box
Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。
座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-21T17:29:58Z) - Learning Quantized Neural Nets by Coarse Gradient Method for Non-linear
Classification [3.158346511479111]
特定の単調性を持つSTEのクラスを提案し、量子化されたアクティベーション関数を持つ2層ネットワークのトレーニングへの応用について検討する。
提案したSTEに対して,対応する粗度勾配法が大域最小値に収束することを示し,性能保証を確立する。
論文 参考訳(メタデータ) (2020-11-23T07:50:09Z) - Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。
一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。
本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文 参考訳(メタデータ) (2020-06-16T13:41:54Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。