論文の概要: Understanding Gradient Regularization in Deep Learning: Efficient
Finite-Difference Computation and Implicit Bias
- arxiv url: http://arxiv.org/abs/2210.02720v1
- Date: Thu, 6 Oct 2022 07:12:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 15:53:02.133137
- Title: Understanding Gradient Regularization in Deep Learning: Efficient
Finite-Difference Computation and Implicit Bias
- Title(参考訳): 深層学習における勾配正規化の理解:効率的な有限差分計算と暗黙バイアス
- Authors: Ryo Karakida, Tomoumi Takase, Tomohiro Hayase, Kazuki Osawa
- Abstract要約: グラディエント正規化(GR、Gradient regularization)は、トレーニング中のトレーニング損失の規範を罰する手法である。
勾配上昇段数と降下段数の両方からなる特定の有限差分計算がGRの計算コストを低減させることを示す。
有限差分GRは、平らなミニマを探索するための反復的な昇降ステップと降下ステップに基づいて、他のアルゴリズムと密接に関連していることを示す。
- 参考スコア(独自算出の注目度): 15.739122088062793
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gradient regularization (GR) is a method that penalizes the gradient norm of
the training loss during training. Although some studies have reported that GR
improves generalization performance in deep learning, little attention has been
paid to it from the algorithmic perspective, that is, the algorithms of GR that
efficiently improve performance. In this study, we first reveal that a specific
finite-difference computation, composed of both gradient ascent and descent
steps, reduces the computational cost for GR. In addition, this computation
empirically achieves better generalization performance. Next, we theoretically
analyze a solvable model, a diagonal linear network, and clarify that GR has a
desirable implicit bias in a certain problem. In particular, learning with the
finite-difference GR chooses better minima as the ascent step size becomes
larger. Finally, we demonstrate that finite-difference GR is closely related to
some other algorithms based on iterative ascent and descent steps for exploring
flat minima: sharpness-aware minimization and the flooding method. We reveal
that flooding performs finite-difference GR in an implicit way. Thus, this work
broadens our understanding of GR in both practice and theory.
- Abstract(参考訳): グラディエント正規化(GR、Gradient regularization)は、トレーニング中のトレーニング損失の勾配規範を罰する手法である。
一部の研究では、GRはディープラーニングにおける一般化性能を改善すると報告されているが、アルゴリズムの観点からは、GRのアルゴリズムが効率よく性能を改善することにはほとんど注目されていない。
本研究では, 勾配上昇ステップと降下ステップの両方からなる特定の有限差分計算により, grの計算コストが低減することを示す。
さらに、この計算は経験的により良い一般化性能を達成する。
次に,理論上,可解モデルである対角線形ネットワークを解析し,ある問題に対してgrが望ましい暗黙的バイアスを持つことを明らかにする。
特に、有限差分grを用いた学習は、上昇ステップサイズが大きくなるにつれて、より良いミニマを選択する。
最後に、有限差分GRは、平坦なミニマを探索するための反復的な昇降ステップと降下ステップに基づく他のアルゴリズムと密接に関連していることを示す。
我々は洪水が有限差GRを暗黙的に実行することを明らかにした。
したがって、この研究はGRの実践と理論の両方における理解を広げる。
関連論文リスト
- On the Generalization Capability of Temporal Graph Learning Algorithms:
Theoretical Insights and a Simpler Method [59.52204415829695]
テンポラルグラフ学習(TGL)は、様々な現実世界のアプリケーションにまたがる一般的なテクニックとなっている。
本稿では,異なるTGLアルゴリズムの一般化能力について検討する。
一般化誤差が小さく、全体的な性能が向上し、モデルの複雑さが低下する単純化されたTGLネットワークを提案する。
論文 参考訳(メタデータ) (2024-02-26T08:22:22Z) - Model-Based Reparameterization Policy Gradient Methods: Theory and
Practical Algorithms [88.74308282658133]
Reization (RP) Policy Gradient Methods (PGM) は、ロボット工学やコンピュータグラフィックスにおける連続的な制御タスクに広く採用されている。
近年の研究では、長期強化学習問題に適用した場合、モデルベースRP PGMはカオス的かつ非滑らかな最適化環境を経験する可能性があることが示されている。
本稿では,長期モデルアンロールによる爆発的分散問題を緩和するスペクトル正規化法を提案する。
論文 参考訳(メタデータ) (2023-10-30T18:43:21Z) - Edge-set reduction to efficiently solve the graph partitioning problem
with the genetic algorithm [0.0]
エッジベース遺伝的アルゴリズム(GA)における染色体サイズ変更の影響について検討する。
大型の高密度インスタンスの場合,符号化表現のサイズが巨大になり,GAの効率に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2023-07-19T18:39:15Z) - Implicit regularization in AI meets generalized hardness of
approximation in optimization -- Sharp results for diagonal linear networks [0.0]
直交線形ネットワークの勾配流による暗黙の正規化について, 鋭い結果を示す。
これを近似の一般化硬度における相転移現象と関連付ける。
結果の非シャープ性は、基礎追従最適化問題に対して、GHA現象が起こらないことを意味する。
論文 参考訳(メタデータ) (2023-07-13T13:27:51Z) - Unifying gradient regularization for Heterogeneous Graph Neural Networks [6.3093033645568015]
本稿では,Grug と呼ばれる新しい勾配正規化手法を提案する。
Grugはグラフトポロジとノード特徴を統合した統一的なフレームワークを提供する。
論文 参考訳(メタデータ) (2023-05-25T07:47:42Z) - Convergence of ease-controlled Random Reshuffling gradient Algorithms under Lipschitz smoothness [0.0]
非常に多くのスムーズで可能な非サイズの関数の平均を考慮し、この問題に対処するために2つの広く最小限のフレームワークを使用します。
IG/RRスキームの簡易制御による修正を定義する。
我々は、完全なバッチ勾配(L-BFGS)とIG/RR手法の実装の両方で実装を証明し、アルゴリズムが同様の計算作業を必要とすることを証明した。
論文 参考訳(メタデータ) (2022-12-04T15:26:36Z) - Comprehensive Graph Gradual Pruning for Sparse Training in Graph Neural
Networks [52.566735716983956]
本稿では,CGPと呼ばれるグラフの段階的プルーニングフレームワークを動的にGNNに提案する。
LTHに基づく手法とは異なり、提案手法では再学習を必要とせず、計算コストを大幅に削減する。
提案手法は,既存の手法の精度を一致させたり,あるいは超えたりしながら,トレーニングと推論の効率を大幅に向上させる。
論文 参考訳(メタデータ) (2022-07-18T14:23:31Z) - RawlsGCN: Towards Rawlsian Difference Principle on Graph Convolutional
Network [102.27090022283208]
グラフ畳み込みネットワーク(GCN)は多くの現実世界のアプリケーションにおいて重要な役割を担っている。
GCNはしばしばノードの次数に対する性能の相違を示し、結果として低次ノードの予測精度が悪化する。
我々は、Rawlsian差分原理の観点から、GCNの次数関連性能格差を緩和する問題を定式化する。
論文 参考訳(メタデータ) (2022-02-28T05:07:57Z) - Leveraging Non-uniformity in First-order Non-convex Optimization [93.6817946818977]
目的関数の非一様洗練は、emphNon-uniform Smoothness(NS)とemphNon-uniform Lojasiewicz inequality(NL)につながる
新しい定義は、古典的な$Omega (1/t2)$下界よりも早く大域的最適性に収束する新しい幾何学的一階法を刺激する。
論文 参考訳(メタデータ) (2021-05-13T04:23:07Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。