論文の概要: The Geometry of Sign Gradient Descent
- arxiv url: http://arxiv.org/abs/2002.08056v1
- Date: Wed, 19 Feb 2020 08:45:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 13:10:10.277876
- Title: The Geometry of Sign Gradient Descent
- Title(参考訳): 記号勾配降下の幾何学
- Authors: Lukas Balles and Fabian Pedregosa and Nicolas Le Roux
- Abstract要約: 分離可能滑らか性と $ell_infty$-smoothness との密接な関係を示し、後者はより弱でより自然な仮定であると主張する。
次に、 $ell_infty$-norm に関する滑らか性定数の研究を進め、目的関数の幾何学的性質を分離する。
つまり、(i)Hessianがその対角線に集中していること、(ii)その最大固有値が平均固有値よりもはるかに大きいこと。
- 参考スコア(独自算出の注目度): 29.8753797565422
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sign-based optimization methods have become popular in machine learning due
to their favorable communication cost in distributed optimization and their
surprisingly good performance in neural network training. Furthermore, they are
closely connected to so-called adaptive gradient methods like Adam. Recent
works on signSGD have used a non-standard "separable smoothness" assumption,
whereas some older works study sign gradient descent as steepest descent with
respect to the $\ell_\infty$-norm. In this work, we unify these existing
results by showing a close connection between separable smoothness and
$\ell_\infty$-smoothness and argue that the latter is the weaker and more
natural assumption. We then proceed to study the smoothness constant with
respect to the $\ell_\infty$-norm and thereby isolate geometric properties of
the objective function which affect the performance of sign-based methods. In
short, we find sign-based methods to be preferable over gradient descent if (i)
the Hessian is to some degree concentrated on its diagonal, and (ii) its
maximal eigenvalue is much larger than the average eigenvalue. Both properties
are common in deep networks.
- Abstract(参考訳): 信号ベースの最適化手法は、分散最適化における通信コストと、ニューラルネットワークトレーニングにおける驚くほど優れたパフォーマンスのために、機械学習で人気を博している。
さらに、それらはアダムのようないわゆる適応勾配法と密接に関連している。
記号SGDに関する最近の研究は、非標準の「分離滑らか性」仮定を用いているのに対し、古い研究では、$\ell_\infty$-norm に関して勾配降下を最も急降下として示している。
本研究では,分離可能な滑らかさと$\ell_\infty$-smoothnessの密接な関係を示し,後者がより弱く自然な仮定であると主張する。
次に、$\ell_\infty$-norm に関して滑らか性定数を研究し、符号に基づく手法の性能に影響を与える目的関数の幾何学的性質を分離する。
要するに、勾配降下よりも符号に基づく方法の方が好ましい。
(i)ヘッセン語はある程度対角線に集中しており、
(ii)その最大固有値は平均固有値よりもはるかに大きい。
どちらの特性もディープネットワークでは一般的である。
関連論文リスト
- Methods for Convex $(L_0,L_1)$-Smooth Optimization: Clipping, Acceleration, and Adaptivity [50.25258834153574]
我々は、(強に)凸 $(L0)$-smooth 関数のクラスに焦点を当て、いくつかの既存のメソッドに対する新しい収束保証を導出する。
特に,スムーズなグラディエント・クリッピングを有するグラディエント・ディフレッシュと,ポリアク・ステップサイズを有するグラディエント・ディフレッシュのコンバージェンス・レートの改善を導出した。
論文 参考訳(メタデータ) (2024-09-23T13:11:37Z) - Neural Gradient Learning and Optimization for Oriented Point Normal
Estimation [53.611206368815125]
本研究では,3次元点雲から勾配ベクトルを一貫した向きで学習し,正規推定を行うためのディープラーニング手法を提案する。
局所平面幾何に基づいて角距離場を学習し、粗勾配ベクトルを洗練する。
本手法は,局所特徴記述の精度と能力の一般化を図りながら,グローバル勾配近似を効率的に行う。
論文 参考訳(メタデータ) (2023-09-17T08:35:11Z) - Convergence of Adam Under Relaxed Assumptions [72.24779199744954]
我々は、アダムがより現実的な条件下で、$O(epsilon-4)$勾配複雑性で$epsilon$-定常点に収束することを示している。
また、Adamの分散還元版を$O(epsilon-3)$の加速勾配複雑性で提案する。
論文 参考訳(メタデータ) (2023-04-27T06:27:37Z) - Variance-reduced Clipping for Non-convex Optimization [24.765794811146144]
グラディエント・クリッピング(Gradient clipping)は、大規模言語モデリングのようなディープラーニングアプリケーションで用いられる技法である。
最近の実験的な訓練は、秩序の複雑さを緩和する、非常に特別な振る舞いを持っている。
論文 参考訳(メタデータ) (2023-03-02T00:57:38Z) - Towards More Robust Interpretation via Local Gradient Alignment [37.464250451280336]
任意の非負の同質ニューラルネットワークに対して、勾配に対する単純な$ell$-robust criterionは、テクスティノ正規化不変量であることを示す。
我々は,局所勾配の整合性を両立させるために,$ell$とcosine distance-based criteriaを正則化項として組み合わせることを提案する。
我々は,CIFAR-10 と ImageNet-100 でトレーニングしたモデルにより,より堅牢な解釈が得られたことを実験的に示す。
論文 参考訳(メタデータ) (2022-11-29T03:38:28Z) - How Does Adaptive Optimization Impact Local Neural Network Geometry? [32.32593743852949]
ニューラルネットワーク最適化の文脈では、この伝統的な視点は不十分である、と我々は主張する。
我々は、アダムのような適応的な手法が、より高速な収束を期待できる領域への軌道に偏っていることを示す。
論文 参考訳(メタデータ) (2022-11-04T04:05:57Z) - Fast Gradient Non-sign Methods [67.56549792690706]
Fast Gradient Non-sign Method (FGNM) は一般的なルーチンであり、グラデーションベースの攻撃において従来の$sign$操作をシームレスに置き換えることができる。
我々の手法は、textbf27.5% と textbf9.5% でそれらを上回ります。
論文 参考訳(メタデータ) (2021-10-25T08:46:00Z) - Leveraging Non-uniformity in First-order Non-convex Optimization [93.6817946818977]
目的関数の非一様洗練は、emphNon-uniform Smoothness(NS)とemphNon-uniform Lojasiewicz inequality(NL)につながる
新しい定義は、古典的な$Omega (1/t2)$下界よりも早く大域的最適性に収束する新しい幾何学的一階法を刺激する。
論文 参考訳(メタデータ) (2021-05-13T04:23:07Z) - Training Two-Layer ReLU Networks with Gradient Descent is Inconsistent [2.7793394375935088]
We proof that two-layer (Leaky)ReLU network by e., from the widely use method proposed by He et al. is not consistent。
論文 参考訳(メタデータ) (2020-02-12T09:22:45Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。