論文の概要: SURGE: Surrogate Gradient Adaptation in Binary Neural Networks
- arxiv url: http://arxiv.org/abs/2605.10989v2
- Date: Fri, 15 May 2026 04:30:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 03:45:13.105507
- Title: SURGE: Surrogate Gradient Adaptation in Binary Neural Networks
- Title(参考訳): SURGE: 2元ニューラルネットワークにおけるサロゲート勾配適応
- Authors: Haoyu Huang, Boyu Liu, Linlin Yang, Yanjing Li, Yuguang Yang, Xuhui Liu, Canyu Chen, Zhongqian Fu, Baochang Zhang,
- Abstract要約: SURGE(SURrogate GradiEnt Adaptation)は,理論的な基礎を持つ学習可能な勾配補償フレームワークである。
SURGEは補助的なバックプロパゲーションを通じて勾配ミスマッチを緩和する。
画像分類、オブジェクト検出、言語理解タスクの実験は、SURGEが最先端の手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 41.424349870612716
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The training of Binary Neural Networks (BNNs) is fundamentally based on gradient approximation for non-differentiable binarization operations (e.g., sign function). However, prevailing methods including the Straight-Through Estimator (STE) and its improved variants, rely on hand-crafted designs that suffer from gradient mismatch problem and information loss induced by fixed-range gradient clipping. To address this, we propose SURrogate GradiEnt Adaptation (SURGE), a novel learnable gradient compensation framework with theoretical grounding. SURGE mitigates gradient mismatch through auxiliary backpropagation. Specifically, we design a Dual-Path Gradient Compensator (DPGC) that constructs a parallel full-precision auxiliary branch for each binarized layer, decoupling gradient flow via output decomposition during backpropagation. DPGC enables bias-reduced gradient estimation by leveraging the full-precision branch to estimate components beyond STE's first-order approximation. To further enhance training stability, we introduce an Adaptive Gradient Scaler (AGS) based on an optimal scale factor to dynamically balance inter-branch gradient contributions via norm-based scaling. Experiments on image classification, object detection, and language understanding tasks demonstrate that SURGE performs best over state-of-the-art methods.
- Abstract(参考訳): バイナリニューラルネットワーク(BNN)のトレーニングは、基本的には微分不可能な二項化演算(例えば手話関数)の勾配近似に基づいている。
しかし、STE(Straight-Through Estimator)とその改良型を含む一般的な手法は、勾配ミスマッチ問題や固定レンジ勾配クリッピングによって引き起こされる情報損失に苦しむ手作りの設計に依存している。
そこで我々はSURGE(SURrogate GradiEnt Adaptation)を提案する。
SURGEは補助的なバックプロパゲーションを通じて勾配ミスマッチを緩和する。
具体的には、バックプロパゲーション中に出力分解によって勾配流を分離し、各二項化層に対して並列な完全精度補助枝を構成するDual-Path Gradient Compensator (DPGC) を設計する。
DPGCは、STEの1次近似を超える成分を推定するために全精度分岐を利用することにより、バイアス低減勾配推定を可能にする。
トレーニング安定性をさらに高めるために,適応勾配尺度 (Adaptive Gradient Scaler, AGS) を導入する。
画像分類、オブジェクト検出、言語理解タスクの実験は、SURGEが最先端の手法よりも優れていることを示す。
関連論文リスト
- Fast and Slow Gradient Approximation for Binary Neural Network Optimization [11.064044986709733]
ハイパーネットワークに基づく手法は、ニューラルネットワークを用いて微分不可能な量子化関数の勾配を学習する。
本稿では,ヒストリ・グラディエント・ストレージ(HGS)モジュールを提案する。これは,ヒストリ・グラディエント・シーケンスをモデル化し,最適化に必要な1次モーメントを生成する。
また、ハイパーネットワークに層認識埋め込み(LRE)を導入し、層固有の微細勾配の生成を容易にする。
論文 参考訳(メタデータ) (2024-12-16T13:48:40Z) - Gradient Correction beyond Gradient Descent [63.33439072360198]
勾配補正は明らかに、ニューラルネットワークのトレーニングにおいて、最も重要な側面である。
勾配補正を行うためのフレームワーク(textbfGCGD)を導入する。
実験結果から, 勾配補正フレームワークは, トレーニングエポックスを$sim$20%削減し, ネットワーク性能を向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-03-16T01:42:25Z) - Cogradient Descent for Dependable Learning [64.02052988844301]
双線形最適化問題に対処するために,CoGDアルゴリズムに基づく信頼度の高い学習法を提案する。
CoGDは、ある変数がスパーシティ制約を持つ場合の双線形問題を解くために導入された。
また、特徴と重みの関連を分解するためにも使用できるため、畳み込みニューラルネットワーク(CNN)をより良く訓練するための我々の手法をさらに一般化することができる。
論文 参考訳(メタデータ) (2021-06-20T04:28:20Z) - Channel-Directed Gradients for Optimization of Convolutional Neural
Networks [50.34913837546743]
本稿では,畳み込みニューラルネットワークの最適化手法を提案する。
出力チャネル方向に沿って勾配を定義することで性能が向上し,他の方向が有害となることを示す。
論文 参考訳(メタデータ) (2020-08-25T00:44:09Z) - A block coordinate descent optimizer for classification problems
exploiting convexity [0.0]
隠れ層の重み付けにおけるクロスエントロピー損失の凸性を利用した分類タスクのためのディープ線形ネットワークに座標降下法を導入する。
線形層に対する大域的最適パラメータと隠蔽層への勾配勾配を求める2次法とを交互に組み合わせることで、トレーニング全体を通してデータに対する適応基底の最適適合性を確保する。
論文 参考訳(メタデータ) (2020-06-17T19:49:06Z) - Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。
一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。
本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文 参考訳(メタデータ) (2020-06-16T13:41:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。