論文の概要: Novel Gradient Sparsification Algorithm via Bayesian Inference
- arxiv url: http://arxiv.org/abs/2409.14893v1
- Date: Mon, 23 Sep 2024 10:42:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 15:26:12.935982
- Title: Novel Gradient Sparsification Algorithm via Bayesian Inference
- Title(参考訳): ベイジアン推論による新しい勾配スパーシフィケーションアルゴリズム
- Authors: Ali Bereyhi, Ben Liang, Gary Boudreau, Ali Afana,
- Abstract要約: 本稿では,誤り蓄積の学習速度スケーリングを制御する,正規化Top-$k$(RegTop-$k$)と呼ばれる新しいスペーシフィケーションアルゴリズムを提案する。
CIFAR-10のResNet-18による数値実験では、RegTop-$k$は標準のTop-$k$よりも8%高い精度で達成されている。
- 参考スコア(独自算出の注目度): 27.246907664193156
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Error accumulation is an essential component of the Top-$k$ sparsification method in distributed gradient descent. It implicitly scales the learning rate and prevents the slow-down of lateral movement, but it can also deteriorate convergence. This paper proposes a novel sparsification algorithm called regularized Top-$k$ (RegTop-$k$) that controls the learning rate scaling of error accumulation. The algorithm is developed by looking at the gradient sparsification as an inference problem and determining a Bayesian optimal sparsification mask via maximum-a-posteriori estimation. It utilizes past aggregated gradients to evaluate posterior statistics, based on which it prioritizes the local gradient entries. Numerical experiments with ResNet-18 on CIFAR-10 show that at $0.1\%$ sparsification, RegTop-$k$ achieves about $8\%$ higher accuracy than standard Top-$k$.
- Abstract(参考訳): 誤差蓄積は分散勾配降下におけるTop-k$スペーシフィケーション法の重要な構成要素である。
学習速度を暗黙的に拡大し、横運動の減速を防ぐが、収束を低下させることもある。
本稿では,誤り蓄積の学習速度スケーリングを制御する,正規化Top-$k$(RegTop-$k$)と呼ばれる新しいスペーシフィケーションアルゴリズムを提案する。
このアルゴリズムは,勾配スペーシフィケーションを推論問題として検討し,最大姿勢推定によりベイズ最適スペーシフィケーションマスクを決定する。
過去の集計勾配を利用して、局所勾配エントリを優先順位付けした後続統計を評価する。
CIFAR-10上のResNet-18による数値実験により、RegTop-$k$は標準のTop-$k$よりも約8\%の精度で達成されている。
関連論文リスト
- Regularized Top-$k$: A Bayesian Framework for Gradient Sparsification [27.246907664193156]
本研究は,誤り蓄積の学習速度スケーリングを制御する新しいスペーシフィケーション手法を提案する。
Top-$k$から継承された前の分布を用いて、Top-$k$の正規化形式として解釈できる新しいスペーシフィケーションアルゴリズムを導出する。
論文 参考訳(メタデータ) (2025-01-10T00:32:46Z) - Modified Step Size for Enhanced Stochastic Gradient Descent: Convergence
and Experiments [0.0]
本稿では,$frac1sqrtttをベースとした変形ステップサイズを改良することにより,勾配降下法(SGD)アルゴリズムの性能向上に新たなアプローチを提案する。
提案されたステップサイズは対数的なステップ項を統合し、最終イテレーションでより小さな値を選択する。
提案手法の有効性について,FashionMNISTとARARを用いて画像分類タスクの数値実験を行った。
論文 参考訳(メタデータ) (2023-09-03T19:21:59Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - SIMPLE: A Gradient Estimator for $k$-Subset Sampling [42.38652558807518]
この作業では、フォワードパスの離散$k$-subsetサンプリングに戻ります。
勾配推定器 SIMPLE は, 最先端推定器と比較して, バイアスやばらつきが低いことを示す。
実験結果から,線形回帰を説明・スパースする学習性能が向上した。
論文 参考訳(メタデータ) (2022-10-04T22:33:16Z) - Momentum-Based Policy Gradient with Second-Order Information [40.51117836892182]
本稿では,2次情報を勾配降下に組み込んだSHARP法を提案する。
従来の研究と異なり,提案アルゴリズムでは,分散還元プロセスの利点を損なうような重要サンプリングを必要としない。
提案手法が様々な制御課題に対して有効であることを示すとともに,実際の技術状況に対する優位性を示す。
論文 参考訳(メタデータ) (2022-05-17T11:56:50Z) - Fast Gradient Non-sign Methods [67.56549792690706]
Fast Gradient Non-sign Method (FGNM) は一般的なルーチンであり、グラデーションベースの攻撃において従来の$sign$操作をシームレスに置き換えることができる。
我々の手法は、textbf27.5% と textbf9.5% でそれらを上回ります。
論文 参考訳(メタデータ) (2021-10-25T08:46:00Z) - Gradient Boosted Binary Histogram Ensemble for Large-scale Regression [60.16351608335641]
本研究では,2値ヒストグラム分割とアンサンブル学習に基づくテキストグラディエント2値ヒストグラムアンサンブル(GBBHE)と呼ばれる大規模回帰問題に対する勾配向上アルゴリズムを提案する。
実験では, 勾配向上回帰木 (GBRT) などの他の最先端アルゴリズムと比較して, GBBHEアルゴリズムは大規模データセット上での実行時間が少なく, 有望な性能を示す。
論文 参考訳(メタデータ) (2021-06-03T17:05:40Z) - Stochastic Gradient Variance Reduction by Solving a Filtering Problem [0.951828574518325]
ディープニューラルネットワーク(DNN)は一般的に最適化された勾配降下(SGD)を用いる
試料を用いた勾配推定はノイズが多く信頼性が低い傾向にあり, 勾配のばらつきが大きく, 収束不良が生じる。
勾配を一貫した推定を行う効率的な最適化アルゴリズムである textbfFilter Gradient Decent (FGD) を提案する。
論文 参考訳(メタデータ) (2020-12-22T23:48:42Z) - Carath\'eodory Sampling for Stochastic Gradient Descent [79.55586575988292]
本稿では,Tchakaloff と Carath'eodory の古典的な結果から着想を得た手法を提案する。
我々は、測定値の低減を行う降下ステップを適応的に選択する。
これをBlock Coordinate Descentと組み合わせることで、測定の削減を極めて安価に行えるようにします。
論文 参考訳(メタデータ) (2020-06-02T17:52:59Z) - Variance Reduction with Sparse Gradients [82.41780420431205]
SVRGやSpiderBoostのような分散還元法では、大きなバッチ勾配と小さなバッチ勾配が混在している。
我々は、新しい空間演算子:ランダムトップk演算子を導入する。
我々のアルゴリズムは、画像分類、自然言語処理、スパース行列分解など様々なタスクにおいて、一貫してSpiderBoostより優れています。
論文 参考訳(メタデータ) (2020-01-27T08:23:58Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。