論文の概要: Regularized Top-$k$: A Bayesian Framework for Gradient Sparsification
- arxiv url: http://arxiv.org/abs/2501.05633v1
- Date: Fri, 10 Jan 2025 00:32:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-13 15:26:09.359054
- Title: Regularized Top-$k$: A Bayesian Framework for Gradient Sparsification
- Title(参考訳): 正規化されたTop-k$: グラディエントスパリフィケーションのためのベイズ的フレームワーク
- Authors: Ali Bereyhi, Ben Liang, Gary Boudreau, Ali Afana,
- Abstract要約: 本研究は,誤り蓄積の学習速度スケーリングを制御する新しいスペーシフィケーション手法を提案する。
Top-$k$から継承された前の分布を用いて、Top-$k$の正規化形式として解釈できる新しいスペーシフィケーションアルゴリズムを導出する。
- 参考スコア(独自算出の注目度): 27.246907664193156
- License:
- Abstract: Error accumulation is effective for gradient sparsification in distributed settings: initially-unselected gradient entries are eventually selected as their accumulated error exceeds a certain level. The accumulation essentially behaves as a scaling of the learning rate for the selected entries. Although this property prevents the slow-down of lateral movements in distributed gradient descent, it can deteriorate convergence in some settings. This work proposes a novel sparsification scheme that controls the learning rate scaling of error accumulation. The development of this scheme follows two major steps: first, gradient sparsification is formulated as an inverse probability (inference) problem, and the Bayesian optimal sparsification mask is derived as a maximum-a-posteriori estimator. Using the prior distribution inherited from Top-$k$, we derive a new sparsification algorithm which can be interpreted as a regularized form of Top-$k$. We call this algorithm regularized Top-$k$ (RegTop-$k$). It utilizes past aggregated gradients to evaluate posterior statistics of the next aggregation. It then prioritizes the local accumulated gradient entries based on these posterior statistics. We validate our derivation through numerical experiments. In distributed linear regression, it is observed that while Top-$k$ remains at a fixed distance from the global optimum, RegTop-$k$ converges to the global optimum at significantly higher compression ratios. We further demonstrate the generalization of this observation by employing RegTop-$k$ in distributed training of ResNet-18 on CIFAR-10, where it noticeably outperforms Top-$k$.
- Abstract(参考訳): 初期未選択の勾配エントリは、その累積誤差が一定のレベルを超えたときに最終的に選択される。
蓄積は基本的に、選択したエントリの学習率のスケーリングとして振る舞う。
この特性は、分散勾配降下における横方向運動の減速を防ぐが、いくつかの設定では収束を低下させる可能性がある。
本研究は,誤り蓄積の学習速度スケーリングを制御する新しいスペーシフィケーション手法を提案する。
このスキームの開発には、2つの大きなステップが従う: 第一に勾配スペーシングは逆確率(推論)問題として定式化され、ベイズ最適スペーシフィケーションマスクは最大位置推定器として導かれる。
Top-$k$から継承された前の分布を用いて、Top-$k$の正規化形式として解釈できる新しいスペーシフィケーションアルゴリズムを導出する。
我々はこのアルゴリズムをTop-$k$ (RegTop-$k$) と呼ぶ。
過去の集計勾配を利用して、次の集計の過去の統計を評価する。
次に、これらの後続統計に基づいて局所的に蓄積された勾配エントリを優先順位付けする。
数値実験により導出を検証する。
分散線形回帰では、Top-$k$は大域的最適値から一定の距離にとどまっているが、RegTop-$k$はより高い圧縮比で大域的最適値に収束する。
CIFAR-10上でResNet-18の分散トレーニングにRegTop-$k$を用いることで、この観測の一般化をさらに実証する。
関連論文リスト
- Novel Gradient Sparsification Algorithm via Bayesian Inference [27.246907664193156]
本稿では,誤り蓄積の学習速度スケーリングを制御する,正規化Top-$k$(RegTop-$k$)と呼ばれる新しいスペーシフィケーションアルゴリズムを提案する。
CIFAR-10のResNet-18による数値実験では、RegTop-$k$は標準のTop-$k$よりも8%高い精度で達成されている。
論文 参考訳(メタデータ) (2024-09-23T10:42:34Z) - Differential Private Stochastic Optimization with Heavy-tailed Data: Towards Optimal Rates [15.27596975662702]
重み付き勾配を用いたDP最適化の最適速度を達成するアルゴリズムについて検討する。
その結果,DP下での凸最適化の理論的限界が達成可能であることを示す。
論文 参考訳(メタデータ) (2024-08-19T11:07:05Z) - Neural Gradient Learning and Optimization for Oriented Point Normal
Estimation [53.611206368815125]
本研究では,3次元点雲から勾配ベクトルを一貫した向きで学習し,正規推定を行うためのディープラーニング手法を提案する。
局所平面幾何に基づいて角距離場を学習し、粗勾配ベクトルを洗練する。
本手法は,局所特徴記述の精度と能力の一般化を図りながら,グローバル勾配近似を効率的に行う。
論文 参考訳(メタデータ) (2023-09-17T08:35:11Z) - SIMPLE: A Gradient Estimator for $k$-Subset Sampling [42.38652558807518]
この作業では、フォワードパスの離散$k$-subsetサンプリングに戻ります。
勾配推定器 SIMPLE は, 最先端推定器と比較して, バイアスやばらつきが低いことを示す。
実験結果から,線形回帰を説明・スパースする学習性能が向上した。
論文 参考訳(メタデータ) (2022-10-04T22:33:16Z) - High-probability Bounds for Non-Convex Stochastic Optimization with
Heavy Tails [55.561406656549686]
我々は、勾配推定が末尾を持つ可能性のある一階アルゴリズムを用いたヒルベルト非最適化を考える。
本研究では, 勾配, 運動量, 正規化勾配勾配の収束を高確率臨界点に収束させることと, 円滑な損失に対する最もよく知られた繰り返しを示す。
論文 参考訳(メタデータ) (2021-06-28T00:17:01Z) - Stochastic Bias-Reduced Gradient Methods [44.35885731095432]
モロー・吉田関数の任意の有界な$x_star$の低バイアスで低コストな平滑化である。
論文 参考訳(メタデータ) (2021-06-17T13:33:05Z) - Gradient Boosted Binary Histogram Ensemble for Large-scale Regression [60.16351608335641]
本研究では,2値ヒストグラム分割とアンサンブル学習に基づくテキストグラディエント2値ヒストグラムアンサンブル(GBBHE)と呼ばれる大規模回帰問題に対する勾配向上アルゴリズムを提案する。
実験では, 勾配向上回帰木 (GBRT) などの他の最先端アルゴリズムと比較して, GBBHEアルゴリズムは大規模データセット上での実行時間が少なく, 有望な性能を示す。
論文 参考訳(メタデータ) (2021-06-03T17:05:40Z) - A Variance Controlled Stochastic Method with Biased Estimation for
Faster Non-convex Optimization [0.0]
減少勾配(SVRG)の性能を向上させるために, 分散制御勾配(VCSG)という新しい手法を提案する。
ラムダ$はVCSGで導入され、SVRGによる分散の過剰還元を避ける。
$mathcalO(min1/epsilon3/2,n1/4/epsilon)$ 勾配評価の数。
論文 参考訳(メタデータ) (2021-02-19T12:22:56Z) - Private Stochastic Non-Convex Optimization: Adaptive Algorithms and
Tighter Generalization Bounds [72.63031036770425]
有界非次元最適化のための差分プライベート(DP)アルゴリズムを提案する。
標準勾配法に対する経験的優位性について,2つの一般的なディープラーニング手法を実証する。
論文 参考訳(メタデータ) (2020-06-24T06:01:24Z) - Carath\'eodory Sampling for Stochastic Gradient Descent [79.55586575988292]
本稿では,Tchakaloff と Carath'eodory の古典的な結果から着想を得た手法を提案する。
我々は、測定値の低減を行う降下ステップを適応的に選択する。
これをBlock Coordinate Descentと組み合わせることで、測定の削減を極めて安価に行えるようにします。
論文 参考訳(メタデータ) (2020-06-02T17:52:59Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。