論文の概要: Layerwise Progressive Freezing Enables STE-Free Training of Deep Binary Neural Networks
- arxiv url: http://arxiv.org/abs/2601.22660v1
- Date: Fri, 30 Jan 2026 07:26:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.295885
- Title: Layerwise Progressive Freezing Enables STE-Free Training of Deep Binary Neural Networks
- Title(参考訳): 層状進行凍結による深部2成分ニューラルネットワークのSTEフリートレーニング
- Authors: Evan Gibson Smith, Bashima Islam,
- Abstract要約: スクラッチからバイナリネットワークをトレーニングするためのストレートスルー推定器(STE)の代替として,進行凍結について検討した。
制御されたトレーニング条件下では、グローバルなプログレッシブ・フリーズがバイナリ・ウェイト・ネットワークで機能する一方で、アクティベーションによって引き起こされる障害により、完全なバイナリ・ニューラル・ネットワークでは機能しないことがわかった。
我々はStoMPPを導入する。StoMPPはレイヤーワイズマスキングを用いて、切り取り可能な重み付け/アクティベーションをハードバイナリステップ関数に段階的に置き換える。
- 参考スコア(独自算出の注目度): 1.1516147824168732
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate progressive freezing as an alternative to straight-through estimators (STE) for training binary networks from scratch. Under controlled training conditions, we find that while global progressive freezing works for binary-weight networks, it fails for full binary neural networks due to activation-induced gradient blockades. We introduce StoMPP (Stochastic Masked Partial Progressive Binarization), which uses layerwise stochastic masking to progressively replace differentiable clipped weights/activations with hard binary step functions, while only backpropagating through the unfrozen (clipped) subset (i.e., no straight-through estimator). Under a matched minimal training recipe, StoMPP improves accuracy over a BinaryConnect-style STE baseline, with gains that increase with depth (e.g., for ResNet-50 BNN: +18.0 on CIFAR-10, +13.5 on CIFAR-100, and +3.8 on ImageNet; for ResNet-18: +3.1, +4.7, and +1.3). For binary-weight networks, StoMPP achieves 91.2\% accuracy on CIFAR-10 and 69.5\% on CIFAR-100 with ResNet-50. We analyze training dynamics under progressive freezing, revealing non-monotonic convergence and improved depth scaling under binarization constraints.
- Abstract(参考訳): スクラッチからバイナリネットワークをトレーニングするためのストレートスルー推定器(STE)の代替として,進行凍結について検討した。
制御されたトレーニング条件下では、グローバルなプログレッシブ・フリーズがバイナリ・ウェイト・ネットワークで機能する一方で、アクティベーションによって誘導される勾配障害により、完全なバイナリ・ニューラルネットワークでは機能しないことがわかった。
我々はStoMPP (Stochastic Masked partial Progressive Binarization) を導入し, 階層的確率的マスキングを用いて, 分離可能なクリッピング重み/アクティベーションをハードバイナリステップ関数に段階的に置き換える。
マッチングされた最小限のトレーニングレシピの下で、StoMPPはBinaryConnectスタイルのSTEベースラインよりも精度が向上し、深度が上がる(例えば、CIFAR-10ではResNet-50 BNNでは+18.0、CIFAR-100では+13.5、ImageNetでは+3.8、ResNet-18では+3.1、+4.7、+1.3)。
2重ネットワークの場合、StoMPPはCIFAR-10では91.2\%、CIFAR-100では69.5\%、ResNet-50では91.2\%の精度を達成している。
進行凍結条件下でのトレーニングダイナミクスを分析し,非単調収束を明らかにするとともに,二項化制約下での深度スケーリングを改善した。
関連論文リスト
- Progressive Supernet Training for Efficient Visual Autoregressive Modeling [56.15415456746672]
本稿では,パラダイムとフルネットワークの両方の世代品質のフロンティアを突破するトレーニング戦略を提案する。
ImageNetの実験では、事前訓練されたVAR-d30、VARiant-d16、VARiant-d8と比べ、ほぼ同等の品質を実現している。
VARiant-d2は3.5倍のスピードアップと80%のメモリ削減を実現している。
論文 参考訳(メタデータ) (2025-11-20T16:59:24Z) - NM-Hebb: Coupling Local Hebbian Plasticity with Metric Learning for More Accurate and Interpretable CNNs [0.0]
NM-Hebbは神経刺激による局所的可塑性と遠隔監視を統合している。
フェーズ1は、クロスエントロピーの目標を共同で最適化することで、標準的な教師付きトレーニングを拡張します。
フェーズ2は、一対のメートル法学習損失でバックボーンを微調整する。
論文 参考訳(メタデータ) (2025-08-27T13:53:04Z) - Pushing the Limits of Sparsity: A Bag of Tricks for Extreme Pruning [32.918269107547616]
ディープニューラルネットワークのプルーニングは、高密度ネットワークの性能の大部分を保ちながら、モデルサイズの削減に有効な手法である。
最近のスパース学習法では、95%や98%といった中等度の疎度レベルまで有望な性能を示している。
極端に間隔があっても精度が崩れることなくネットワークの連続的な学習を可能にする手法の集合を提案する。
論文 参考訳(メタデータ) (2024-11-20T18:54:53Z) - Improved techniques for deterministic l2 robustness [63.34032156196848]
畳み込みニューラルネットワーク(CNN)を$l_2$ノルムの下で厳密な1-Lipschitz制約で訓練することは、対向的堅牢性、解釈可能な勾配、安定した訓練に有用である。
我々は,最後の線形層を1重層に置き換えることで,1-Lipschitz CNNのロバスト性を証明する手法を提案する。
我々は,CIFAR-10およびCIFAR-100における標準および証明可能な堅牢な精度の最先端化を図る。
論文 参考訳(メタデータ) (2022-11-15T19:10:12Z) - Differentially private training of residual networks with scale
normalisation [64.60453677988517]
残差ネットワーク(ResNets)におけるバッチ正規化(BN)置換層の最適選択について検討する。
残差ブロックにおけるスケールミキシング現象について検討し、2つの枝の活性化を異なるスケールで行う。
論文 参考訳(メタデータ) (2022-03-01T09:56:55Z) - FracTrain: Fractionally Squeezing Bit Savings Both Temporally and Spatially for Efficient DNN Training [62.932299614630985]
本稿では, アクティベーション, ウェイト, 勾配の精度を徐々に向上させる, プログレッシブ分数量子化を統合したFracTrainを提案する。
FracTrainはDNNトレーニングの計算コストとハードウェア量子化エネルギー/レイテンシを削減し、同等以上の精度(-0.12%+1.87%)を達成する。
論文 参考訳(メタデータ) (2020-12-24T05:24:10Z) - Convolutional Neural Network Training with Distributed K-FAC [14.2773046188145]
Kronecker-factored Approximate Curvature (K-FAC)はFisher Information Matrixの近似として最近提案されている。
本稿では、大規模畳み込みニューラルネットワーク(CNN)トレーニングにおけるスケーラブルなK-FAC設計とその適用性について検討する。
論文 参考訳(メタデータ) (2020-07-01T22:00:53Z) - Training Binary Neural Networks with Real-to-Binary Convolutions [52.91164959767517]
完全精度のネットワークのうち、数パーセント以内にバイナリネットワークをトレーニングする方法を示します。
我々は、最先端の精度をすでに達成している強力なベースラインを構築する方法を示す。
すべての改善をまとめると、提案したモデルは、ImageNet上で5%以上のトップ1精度で、現在の最先端の技術を上回ります。
論文 参考訳(メタデータ) (2020-03-25T17:54:38Z) - RPR: Random Partition Relaxation for Training; Binary and Ternary Weight
Neural Networks [23.45606380793965]
ニューラルネットワーク重みを2進(+1/-1)および3進(+1/0/-1)値に強く量子化する手法であるランダム分割緩和(RPR)を提案する。
我々は,GoogLeNetの最先端以上の精度とResNet-18とResNet-50の競合性能を有する二進級および三進級のネットワークを実証した。
論文 参考訳(メタデータ) (2020-01-04T15:56:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。