論文の概要: A Granger-Causal Perspective on Gradient Descent with Application to Pruning
- arxiv url: http://arxiv.org/abs/2412.03035v1
- Date: Wed, 04 Dec 2024 05:16:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:07:29.421426
- Title: A Granger-Causal Perspective on Gradient Descent with Application to Pruning
- Title(参考訳): グラニュアントダイスに関するグラニュアンス・カジュアル・パースペクティブとプルーニングへの応用
- Authors: Aditya Shah, Aditya Challa, Sravan Danda, Archana Mathur, Snehanshu Saha,
- Abstract要約: 本稿では,勾配降下の因果性について考察する。
勾配降下法は損失の減少とパラメータの変化との間に暗黙の粒径・因果関係があることが示される。
Pruning の応用による因果的アプローチの意義について述べる。
- 参考スコア(独自算出の注目度): 2.8602509244926413
- License:
- Abstract: Stochastic Gradient Descent (SGD) is the main approach to optimizing neural networks. Several generalization properties of deep networks, such as convergence to a flatter minima, are believed to arise from SGD. This article explores the causality aspect of gradient descent. Specifically, we show that the gradient descent procedure has an implicit granger-causal relationship between the reduction in loss and a change in parameters. By suitable modifications, we make this causal relationship explicit. A causal approach to gradient descent has many significant applications which allow greater control. In this article, we illustrate the significance of the causal approach using the application of Pruning. The causal approach to pruning has several interesting properties - (i) We observe a phase shift as the percentage of pruned parameters increase. Such phase shift is indicative of an optimal pruning strategy. (ii) After pruning, we see that minima becomes "flatter", explaining the increase in accuracy after pruning weights.
- Abstract(参考訳): Stochastic Gradient Descent(SGD)は、ニューラルネットワークを最適化するための主要なアプローチである。
フラットなミニマへの収束のようなディープネットワークのいくつかの一般化特性は、SGDから生じると考えられている。
本稿では,勾配降下の因果性について考察する。
具体的には、勾配降下法は損失の減少とパラメータの変化との間に暗黙の粒径・因果関係を持つことを示す。
適切な修正により、この因果関係を明確にする。
勾配降下に対する因果的アプローチは、より大きな制御を可能にする多くの重要な応用がある。
本稿では,Pruning の応用による因果的アプローチの意義について述べる。
刈り取りに対する因果的アプローチには、いくつかの興味深い性質がある。
(i) プルーンドパラメータの比率が増加するにつれて, 位相変化が観察される。
このような位相シフトは最適なプルーニング戦略を示す。
(II) 刈り込み後, ミニマが「平ら化」し, 刈り込み後の精度の上昇が説明できる。
関連論文リスト
- Gradient Normalization Provably Benefits Nonconvex SGD under Heavy-Tailed Noise [60.92029979853314]
重み付き雑音下でのグラディエントDescence(SGD)の収束を確実にする上での勾配正規化とクリッピングの役割について検討する。
我々の研究は、重尾雑音下でのSGDの勾配正規化の利点を示す最初の理論的証拠を提供する。
我々は、勾配正規化とクリッピングを取り入れた加速SGD変種を導入し、さらに重み付き雑音下での収束率を高めた。
論文 参考訳(メタデータ) (2024-10-21T22:40:42Z) - Emergence of heavy tails in homogenized stochastic gradient descent [1.450405446885067]
勾配降下(SGD)による損失は、重み付きネットワークパラメータをもたらす。
我々はSGDの連続拡散近似をホモジェナイズド勾配降下(homogenized gradient descent)と呼ぶ解析を行った。
最適化パラメータとテールインデックス間の相互作用を定量化する。
論文 参考訳(メタデータ) (2024-02-02T13:06:33Z) - Inference and Interference: The Role of Clipping, Pruning and Loss
Landscapes in Differentially Private Stochastic Gradient Descent [13.27004430044574]
ディファレンシャル・プライベート勾配降下(DP-SGD)は、大規模なニューラルネットワーク上でのトレーニングとテスト性能が劣っていることが知られている。
初期と後期の2つのプロセスの挙動を別々に比較する。
DP-SGDは初期進行が遅いが, 最終結果を決定するのは後期の行動であることがわかった。
論文 参考訳(メタデータ) (2023-11-12T13:31:35Z) - Model-Based Reparameterization Policy Gradient Methods: Theory and
Practical Algorithms [88.74308282658133]
Reization (RP) Policy Gradient Methods (PGM) は、ロボット工学やコンピュータグラフィックスにおける連続的な制御タスクに広く採用されている。
近年の研究では、長期強化学習問題に適用した場合、モデルベースRP PGMはカオス的かつ非滑らかな最適化環境を経験する可能性があることが示されている。
本稿では,長期モデルアンロールによる爆発的分散問題を緩和するスペクトル正規化法を提案する。
論文 参考訳(メタデータ) (2023-10-30T18:43:21Z) - Towards Training Without Depth Limits: Batch Normalization Without
Gradient Explosion [83.90492831583997]
バッチ正規化ネットワークは,信号伝搬特性を最適に保ちつつ,爆発的な勾配を回避することができることを示す。
線形アクティベーションとバッチ正規化を備えた多層パーセプトロン(MLP)を用いて,有界深度を実証する。
また、ある非線形活性化に対して同じ特性を経験的に達成する活性化整形法を設計する。
論文 参考訳(メタデータ) (2023-10-03T12:35:02Z) - Improving Differentially Private SGD via Randomly Sparsified Gradients [31.295035726077366]
ディファレンシャル・プライベート・グラデーション・オブザーバ(DP-SGD)は、厳密に定義されたプライバシー境界圧縮を提供するため、ディープラーニングにおいて広く採用されている。
本稿では,通信コストを向上し,プライバシ境界圧縮を強化するためのRSを提案する。
論文 参考訳(メタデータ) (2021-12-01T21:43:34Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - Learning High-Precision Bounding Box for Rotated Object Detection via
Kullback-Leibler Divergence [100.6913091147422]
既存の回転物体検出器は、主に水平検出パラダイムから受け継がれている。
本稿では,回転回帰損失の設計を帰納パラダイムから導出手法に変更することを目的としている。
論文 参考訳(メタデータ) (2021-06-03T14:29:19Z) - Implicit Gradient Regularization [18.391141066502644]
勾配降下は、過度に適合せず、明示的な正規化もなく、ディープニューラルネットワークを最適化するのに驚くほど適しています。
我々はImplicit Gradient Regularization (IGR)と呼び、後方誤差解析を用いて正規化のサイズを計算する。
論文 参考訳(メタデータ) (2020-09-23T14:17:53Z) - The Break-Even Point on Optimization Trajectories of Deep Neural
Networks [64.7563588124004]
この軌道上の「破滅的な」点の存在を論じる。
トレーニングの初期段階での大きな学習率を用いることで、勾配のばらつきが軽減されることを示す。
また, バッチ正規化層を有するニューラルネットワークにおいても, 低学習率を用いることで損失面の条件が悪くなることを示す。
論文 参考訳(メタデータ) (2020-02-21T22:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。