論文の概要: Enhancing SignSGD: Small-Batch Convergence Analysis and a Hybrid Switching Strategy
- arxiv url: http://arxiv.org/abs/2604.25550v1
- Date: Tue, 28 Apr 2026 12:15:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.846153
- Title: Enhancing SignSGD: Small-Batch Convergence Analysis and a Hybrid Switching Strategy
- Title(参考訳): SignSGDの強化:小バッチ収束解析とハイブリッドスイッチング戦略
- Authors: Haoran Chen, Wentao Wang,
- Abstract要約: SignSGDは各勾配座標を1ビットに圧縮し、かなりのメモリと通信を節約する。
我々はSignSGDを1ビット量子化とディザリングの観点から再検討し、3つの改善に貢献する。
- 参考スコア(独自算出の注目度): 11.467993356247248
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: SignSGD compresses each stochastic gradient coordinate to a single bit, offering substantial memory and communication savings, but its 1-bit quantization removes magnitude information and is known to leave a generalization gap relative to well-tuned SGD. We revisit SignSGD from a 1-bit quantization and dithering perspective and contribute three improvements. First, we derive a small-batch convergence rate for SignSGD under unimodal symmetric gradient noise using a signal-to-noise weighted stationarity measure, removing the large-batch assumption of prior analyses. Second, we inject annealed Gaussian noise before the sign operator, which acts as a classical dithering mechanism and probabilistically restores magnitude information lost to hard thresholding. Third, we adapt the SWATS strategy to sign-based updates with a projection-based learning-rate calibration that smoothly transitions from SignSGD to SGD. Single-worker experiments on ResNet-18 isolate optimizer effects from communication aspects: pre-sign dithering surpasses Adam on CIFAR-100, and the calibrated switch reaches 92.18% test accuracy on CIFAR-10, outperforming both pure SGD 91.38% and pure SignSGD with momentum 90.82%.
- Abstract(参考訳): SignSGDは各確率勾配座標を1ビットに圧縮し、メモリと通信の大幅な節約を提供するが、その1ビット量子化は大きさ情報を取り除き、十分に調整されたSGDに対して一般化ギャップを残すことが知られている。
我々はSignSGDを1ビット量子化とディザリングの観点から再検討し、3つの改善に貢献する。
まず、信号対雑音重み付き定常度測定器を用いて、一様対称勾配雑音下でのSignSGDの小さなバッチ収束率を導出し、先行解析の大規模バッチ仮定を除去する。
第二に,従来のディザリング機構として機能し,ハードしきい値に失われる大きさの情報を確率的に復元する符号演算子の前にガウス雑音を焼成する。
第3に、SWATSの戦略を、SignSGDからSGDへの移行を円滑に行うプロジェクションベースの学習率キャリブレーションにより、手話ベースの更新に適用する。
プレサインディザリングはCIFAR-100でアダムを上回り、キャリブレーションされたスイッチはCIFAR-10で92.18%のテスト精度に達し、純粋なSGD 91.38%と純粋なSignSGDを90.82%で上回った。
関連論文リスト
- StoSignSGD: Unbiased Structural Stochasticity Fixes SignSGD for Training Large Language Models [16.690425653502256]
SignSGDのような符号ベースの最適化アルゴリズムは、分散学習と大規模基盤モデルの訓練において、顕著な性能で大きな注目を集めている。
実験的な優位性にもかかわらず、SignSGDは非テキスト・平滑な目的において分岐することが知られている。
我々はbfStoSignSGDを提案する。bfStoSignSGDは、不偏更新ステップを維持しつつ、手話演算子に構造性を注入するアルゴリズムである。
論文 参考訳(メタデータ) (2026-04-16T17:55:36Z) - Scaling Laws of SignSGD in Linear Regression: When Does It Outperform SGD? [35.79321975718977]
本稿では,PRO(Power-law random features)モデルを用いて,SingSGDのスケーリング法則について検討する。
本研究では,1パス符号SGDで訓練した線形モデルの集団リスクをガウス的特徴量に基づいて解析する。
論文 参考訳(メタデータ) (2026-03-02T16:58:02Z) - Denoising-Enhanced YOLO for Robust SAR Ship Detection [9.818917054838964]
CPN-YOLOは、YOLOv8上に構築された高精度な船舶検出フレームワークである。
本稿では,入力前処理のための学習可能な大規模カーネル記述モジュールを提案する。
第2に,マルチスケールモデリングの強化を目的としたアテンション機構に基づく特徴抽出強化戦略を設計する。
論文 参考訳(メタデータ) (2026-02-27T09:00:19Z) - Multi-Granular Discretization for Interpretable Generalization in Precise Cyberattack Identification [0.0]
解釈可能な一般化(IG)メカニズムはコヒーレントパターンの学習に使用される。
IG-MDはいくつかのガウスの解像度で全ての連続的な特徴を表す。
UKM-IDS20では、IG-MDは9回の列車試験で4ポイント以上の精度を引き上げている。
論文 参考訳(メタデータ) (2025-07-16T12:57:38Z) - Bias-Aware Minimisation: Understanding and Mitigating Estimator Bias in
Private SGD [56.01810892677744]
DP-SGDにおいて,サンプルごとの勾配ノルムとプライベート勾配オラクルの推定バイアスの関連性を示す。
BAM(Bias-Aware Minimisation)を提案する。
論文 参考訳(メタデータ) (2023-08-23T09:20:41Z) - Patch-Level Contrasting without Patch Correspondence for Accurate and
Dense Contrastive Representation Learning [79.43940012723539]
ADCLRは、正確で高密度な視覚表現を学習するための自己教師型学習フレームワークである。
提案手法は, コントラッシブな手法のための新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-23T07:38:09Z) - Decentralized SGD and Average-direction SAM are Asymptotically
Equivalent [101.37242096601315]
分散勾配降下(D-SGD)は、中央サーバを制御せずに大規模デバイス上で協調学習を可能にする。
既存の理論では、分散化は必ず一般化される。
論文 参考訳(メタデータ) (2023-06-05T14:19:52Z) - Smoothed Contrastive Learning for Unsupervised Sentence Embedding [41.09180639504244]
我々は、Gaussian Smoothing InfoNCE (GS-InfoNCE)と呼ばれるInfoNCE損失関数に基づく平滑化戦略を導入する。
GS-InfoNCEは、BERT-base、BERT-large、RoBERTa-base、RoBERTa-largeのベースで平均1.38%、0.72%、1.17%、0.28%のスピアマン相関によって、最先端のUnsup-SimCSEよりも優れている。
論文 参考訳(メタデータ) (2021-09-09T14:54:24Z) - Breaking (Global) Barriers in Parallel Stochastic Optimization with Wait-Avoiding Group Averaging [48.99717153937717]
本稿では、ウェイトアビジングサブグループであるWAGMA-SGDについて述べる。
ImageNet上でResNet-50をトレーニングし、機械翻訳用のトランスフォーマー、大規模ナビゲーションのための深い強化学習を行う。
最先端の分散SGDと比較すると、WAGMA-SGDはトレーニングのスループットを大幅に改善する。
論文 参考訳(メタデータ) (2020-04-30T22:11:53Z) - Detached Error Feedback for Distributed SGD with Random Sparsification [98.98236187442258]
コミュニケーションのボトルネックは、大規模なディープラーニングにおいて重要な問題である。
非効率な分散問題に対する誤りフィードバックよりも優れた収束性を示す分散誤差フィードバック(DEF)アルゴリズムを提案する。
また、DEFよりも優れた境界を示すDEFの一般化を加速するDEFAを提案する。
論文 参考訳(メタデータ) (2020-04-11T03:50:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。