論文の概要: Nonsmooth automatic differentiation: a cheap gradient principle and
other complexity results
- arxiv url: http://arxiv.org/abs/2206.01730v1
- Date: Wed, 1 Jun 2022 08:43:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-12 09:40:01.321157
- Title: Nonsmooth automatic differentiation: a cheap gradient principle and
other complexity results
- Title(参考訳): 非滑らかな自動微分 : 安価な勾配原理とその他の複雑性結果
- Authors: J\'er\^ome Bolte (TSE), Ryan Boustany (TSE), Edouard Pauwels (IRIT),
B\'eatrice Pesquet-Popescu
- Abstract要約: 我々は,多種多様な非滑らかなプログラムに対して,アルゴリズム微分の後方モードと前方モードの計算コストを推定するモデルを提供する。
有名な例として、有名なreluと畳み込みニューラルネットワークとその標準損失関数がある。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We provide a simple model to estimate the computational costs of the backward
and forward modes of algorithmic differentiation for a wide class of nonsmooth
programs. Prominent examples are the famous relu and convolutional neural
networks together with their standard loss functions. Using the recent notion
of conservative gradients, we then establish a "nonsmooth cheap gradient
principle" for backpropagation encompassing most concrete applications.
Nonsmooth backpropagation's cheapness contrasts with concurrent forward
approaches which have, at this day, dimensional-dependent worst case estimates.
In order to understand this class of methods, we relate the complexity of
computing a large number of directional derivatives to that of matrix
multiplication. This shows a fundamental limitation for improving forward AD
for that task. Finally, while the fastest algorithms for computing a Clarke
subgradient are linear in the dimension, it appears that computing two distinct
Clarke (resp. lexicographic) subgradients for simple neural networks is
NP-Hard.
- Abstract(参考訳): 我々は,多種多様な非滑らかなプログラムに対して,アルゴリズム微分の後方モードと前方モードの計算コストを推定する簡単なモデルを提供する。
有名な例として、有名なreluと畳み込みニューラルネットワークとその標準損失関数がある。
近年の保守的勾配の概念を用いて、多くの具体的応用を包含するバックプロパゲーションのための「非滑らかな安価勾配原理」を確立した。
非滑らかなバックプロパゲーションの安価さは、今日では次元に依存しない最悪のケースの見積もりを持つ同時進行アプローチとは対照的である。
この手法を理解するために,多数の方向微分の計算の複雑さを行列の乗算の複雑性に関連付ける。
これは、そのタスクのADを改善するための根本的な制限を示しています。
最後に、クラーク級数を計算するための最速のアルゴリズムは次元において線形であるが、単純なニューラルネットワークに対して2つの異なるクラーク級数を計算するのはNP-Hardである。
関連論文リスト
- Limited Memory Online Gradient Descent for Kernelized Pairwise Learning
with Dynamic Averaging [18.843097436906618]
実例の独立性を必要としない軽量なOGDアルゴリズムを導入し、カーネル対学習に一般化する。
提案アルゴリズムは,ランダムな例と過去のデータを表す移動平均に基づいて勾配を構築し,その結果,O(T)$の複雑さに縛られたサブ線形後悔が生じる。
実世界のデータセットによるいくつかの実験では、複雑性技術がオフラインおよびオンラインシナリオでカーネルと線形勾配を上回ることが示されている。
論文 参考訳(メタデータ) (2024-02-02T05:21:50Z) - Stochastic Gradient Descent for Gaussian Processes Done Right [86.83678041846971]
emphdone right -- 最適化とカーネルコミュニティからの具体的な洞察を使用するという意味で -- が、勾配降下は非常に効果的であることを示している。
本稿では,直感的に設計を記述し,設計選択について説明する。
本手法は,分子結合親和性予測のための最先端グラフニューラルネットワークと同程度にガウス過程の回帰を配置する。
論文 参考訳(メタデータ) (2023-10-31T16:15:13Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Simple Stochastic and Online Gradient DescentAlgorithms for Pairwise
Learning [65.54757265434465]
ペアワイズ学習(Pairwise learning)とは、損失関数がペアインスタンスに依存するタスクをいう。
オンライン降下(OGD)は、ペアワイズ学習でストリーミングデータを処理する一般的なアプローチである。
本稿では,ペアワイズ学習のための手法について,シンプルでオンラインな下降を提案する。
論文 参考訳(メタデータ) (2021-11-23T18:10:48Z) - Improving quantum linear system solvers via a gradient descent
perspective [3.0969191504482247]
我々は凸最適化の観点から量子線形系解法を再考する。
これにより、実行時にかなりの定数のイテレーションが発生します。
本研究では,子・子・子・ソマの最適量子線形系解法が勾配降下アルゴリズムとどのように関係しているかを示す。
論文 参考訳(メタデータ) (2021-09-09T13:16:28Z) - SHINE: SHaring the INverse Estimate from the forward pass for bi-level
optimization and implicit models [15.541264326378366]
近年,深層ニューラルネットワークの深度を高める手法として暗黙の深度学習が登場している。
トレーニングは双レベル問題として実行され、その計算複雑性は巨大なヤコビ行列の反復反転によって部分的に駆動される。
本稿では,この計算ボトルネックに対処する新たな手法を提案する。
論文 参考訳(メタデータ) (2021-06-01T15:07:34Z) - Convergence rates for gradient descent in the training of
overparameterized artificial neural networks with biases [3.198144010381572]
近年、人工ニューラルネットワークは、古典的なソリューションが近づいている多数の問題に対処するための強力なツールに発展しています。
ランダムな勾配降下アルゴリズムが限界に達する理由はまだ不明である。
論文 参考訳(メタデータ) (2021-02-23T18:17:47Z) - Activation Relaxation: A Local Dynamical Approximation to
Backpropagation in the Brain [62.997667081978825]
活性化緩和(AR)は、バックプロパゲーション勾配を力学系の平衡点として構成することで動機付けられる。
我々のアルゴリズムは、正しいバックプロパゲーション勾配に迅速かつ堅牢に収束し、単一のタイプの計算単位しか必要とせず、任意の計算グラフで操作できる。
論文 参考訳(メタデータ) (2020-09-11T11:56:34Z) - Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。
一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。
本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文 参考訳(メタデータ) (2020-06-16T13:41:54Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。