Fugu-MT 論文翻訳(概要): Regularized Gradient Clipping Provably Trains Wide and Deep Neural Networks

論文の概要: Regularized Gradient Clipping Provably Trains Wide and Deep Neural Networks

arxiv url: http://arxiv.org/abs/2404.08624v2
Date: Tue, 08 Apr 2025 12:19:22 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-18 02:34:08.40316
Title: Regularized Gradient Clipping Provably Trains Wide and Deep Neural Networks
Title（参考訳）: ニューラルネットを訓練する正規化グラディエント・クリッピング
Authors: Matteo Tucat, Anirbit Mukherjee, Procheta Sen, Mingfei Sun, Omar Rivasplata,
Abstract要約: 本稿では,2乗損失下での深部ニューラルネットワークの損失面の大域的最小値に収束することが証明された,勾配クリッピングアルゴリズムの新たな正規化形式を提案する。また、理論的に確立した$delta-$GClipアルゴリズムが最先端のディープラーニングと競合するという実証的な証拠も提示する。
参考スコア（独自算出の注目度）: 9.323581269218504
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present and analyze a novel regularized form of the gradient clipping algorithm, proving that it converges to global minima of the loss surface of deep neural networks under the squared loss, provided that the layers are of sufficient width. The algorithm presented here, dubbed $\delta-$GClip, introduces a modification to gradient clipping that leads to a first-of-its-kind example of a step size scheduling for gradient descent that provably minimizes training losses of deep neural nets. We also present empirical evidence that our theoretically founded $\delta-$GClip algorithm is competitive with the state-of-the-art deep learning heuristics on various neural architectures including modern transformer based architectures. The modification we do to standard gradient clipping is designed to leverage the PL* condition, a variant of the Polyak-Lojasiewicz inequality which was recently proven to be true for sufficiently wide neural networks at any depth within a neighbourhood of the initialization.
Abstract（参考訳）: 本稿では,2乗損失下でのディープニューラルネットワークの損失面の大域最小値に収束することが証明された勾配クリッピングアルゴリズムの新たな正規化形式を提示し,解析し,その層幅が十分であることを示す。ここで提示されたアルゴリズムは、$\delta-$GClipと呼ばれ、勾配クリッピングの修正を導入し、深いニューラルネットワークのトレーニング損失を確実に最小化する勾配降下のためのステップサイズのスケジューリングの最初の例をもたらす。また、理論的に作られた$\delta-$GClipアルゴリズムは、現代のトランスフォーマーベースアーキテクチャを含む、様々なニューラルネットワークアーキテクチャに関する最先端のディープラーニングヒューリスティックと競合する、という実証的な証拠も提示する。標準勾配クリッピングへの修正はPL*条件を利用するように設計されており、これはPolyak-Lojasiewicz不等式の変種であり、最近、初期化の任意の深さで十分に広いニューラルネットワークに当てはまることが証明された。

関連論文リスト

Convergence of gradient flow for learning convolutional neural networks [3.2960978424288463]
円錐神経ネットワークは画像認識や画像認識に広く利用されている。勾配流は勾配降下の抽象化として解釈されることを示す。
論文参考訳（メタデータ） (2026-01-13T13:33:48Z)
Non-Singularity of the Gradient Descent map for Neural Networks with Piecewise Analytic Activations [53.348574336527854]
重みとバイアスの空間上の関数としてのニューラルネットワークマップについて検討する。我々は、現実的なニューラルネットワークアーキテクチャの損失ランドスケープにおける勾配降下(GD)マップの非特異性を初めて証明した。
論文参考訳（メタデータ） (2025-10-28T14:34:33Z)
A Numerical Gradient Inversion Attack in Variational Quantum Neural-Networks [4.086403209504347]
変分量子ニューラルネットワーク(VQNN)のロスランドスケープは、量子ビットの増加とともに指数関数的に増大する局所的ミニマによって特徴づけられる。本稿では,学習可能なVQNNの勾配から入力学習,実世界,実践的データを再構築する数値計算手法を提案する。
論文参考訳（メタデータ） (2025-04-17T10:12:38Z)
Understanding the training of infinitely deep and wide ResNets with Conditional Optimal Transport [26.47265060394168]
深部ニューラルネットワークの勾配流は遠距離で任意に収束することを示す。これは空間における有限幅の勾配距離の理論に依存する。
論文参考訳（メタデータ） (2024-03-19T16:34:31Z)
An Infinite-Width Analysis on the Jacobian-Regularised Training of a Neural Network [10.384951432591492]
深部ニューラルネットワークの無限幅限界における最近の理論的分析により、ネットワークの初期化、特徴学習、トレーニングに対する理解が深まりました。この無限幅解析は、ディープニューラルネットワークのヤコビアンにまで拡張可能であることを示す。我々は、広い有限ネットワークに対する理論的主張の関連性を実験的に示し、核回帰解の性質を実験的に解析し、ヤコビアン正則化の洞察を得る。
論文参考訳（メタデータ） (2023-12-06T09:52:18Z)
Convergence Analysis for Learning Orthonormal Deep Linear Neural Networks [27.29463801531576]
本稿では,正規直交深部線形ニューラルネットワークの学習のための収束解析について述べる。その結果、隠れた層の増加が収束速度にどのように影響するかが明らかになった。
論文参考訳（メタデータ） (2023-11-24T18:46:54Z)
When Deep Learning Meets Polyhedral Theory: A Survey [6.899761345257773]
過去10年間で、ディープ・ニューラル・ラーニングの顕著な精度のおかげで、ディープは予測モデリングの一般的な方法論となった。一方、ニューラルネットワークの構造はより単純で線形な関数に収束した。
論文参考訳（メタデータ） (2023-04-29T11:46:53Z)
Globally Optimal Training of Neural Networks with Threshold Activation Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文参考訳（メタデータ） (2023-03-06T18:59:13Z)
Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文参考訳（メタデータ） (2023-02-01T03:18:07Z)
Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文参考訳（メタデータ） (2022-10-13T15:09:54Z)
Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文参考訳（メタデータ） (2022-10-07T03:52:27Z)
Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。 SGDは単純な解に偏りがあることが示される。また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文参考訳（メタデータ） (2021-11-03T15:14:20Z)
Subquadratic Overparameterization for Shallow Neural Networks [60.721751363271146]
私たちは、標準的なニューラルトレーニング戦略を採用することができる分析フレームワークを提供しています。我々は、Desiderata viaak-Lojasiewicz, smoothness, and standard assumptionsを達成する。
論文参考訳（メタデータ） (2021-11-02T20:24:01Z)
Path Regularization: A Convexity and Sparsity Inducing Regularization for Parallel ReLU Networks [75.33431791218302]
本稿では,ディープニューラルネットワークのトレーニング問題について検討し,最適化環境に隠された凸性を明らかにするための解析的アプローチを提案する。我々は、標準のディープ・ネットワークとResNetを特別なケースとして含む、ディープ・パラレルなReLUネットワークアーキテクチャについて検討する。
論文参考訳（メタデータ） (2021-10-18T18:00:36Z)
Backward Gradient Normalization in Deep Neural Networks [68.8204255655161]
ニューラルネットワークトレーニングにおける勾配正規化のための新しい手法を提案する。勾配は、ネットワークアーキテクチャ内の特定の点で導入された正規化レイヤを使用して、後方通過中に再スケールされる。非常に深いニューラルネットワークを用いたテストの結果、新しい手法が勾配ノルムを効果的に制御できることが示されている。
論文参考訳（メタデータ） (2021-06-17T13:24:43Z)
A Convergence Theory Towards Practical Over-parameterized Deep Neural Networks [56.084798078072396]
ネットワーク幅と収束時間の両方で既知の理論境界を大幅に改善することにより、理論と実践のギャップを埋める一歩を踏み出します。本研究では, サンプルサイズが2次幅で, 両者の時間対数で線形なネットワークに対して, 地球最小値への収束が保証されていることを示す。私たちの分析と収束境界は、いつでも合理的なサイズの同等のRELUネットワークに変換できる固定アクティベーションパターンを備えたサロゲートネットワークの構築によって導出されます。
論文参考訳（メタデータ） (2021-01-12T00:40:45Z)
Deep Networks from the Principle of Rate Reduction [32.87280757001462]
この研究は、レート還元と(シフト)不変分類の原理から、現代のディープ(畳み込み)ネットワークを解釈しようとする。学習した特徴量の減少率を最適化するための基本的反復的漸進勾配法が,多層深層ネットワーク,すなわち1層1回を自然に導くことを示す。この「ホワイトボックス」ネットワークの全てのコンポーネントは正確な最適化、統計学、幾何学的解釈を持っている。
論文参考訳（メタデータ） (2020-10-27T06:01:43Z)
The Hidden Convex Optimization Landscape of Two-Layer ReLU Neural Networks: an Exact Characterization of the Optimal Solutions [51.60996023961886]
コーン制約のある凸最適化プログラムを解くことにより,グローバルな2層ReLUニューラルネットワークの探索が可能であることを示す。我々の分析は新しく、全ての最適解を特徴づけ、最近、ニューラルネットワークのトレーニングを凸空間に持ち上げるために使われた双対性に基づく分析を活用できない。
論文参考訳（メタデータ） (2020-06-10T15:38:30Z)
The duality structure gradient descent algorithm: analysis and applications to neural networks [0.0]
本稿では,非漸近的性能解析に寄与する双対構造勾配降下法(DSGD)を提案する。いくつかのニューラルネットワークトレーニングシナリオにおいて,DSGDの動作を実証的に示す。
論文参考訳（メタデータ） (2017-08-01T21:24:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。