論文の概要: Fast and Slow Gradient Approximation for Binary Neural Network Optimization
- arxiv url: http://arxiv.org/abs/2412.11777v1
- Date: Mon, 16 Dec 2024 13:48:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:55:50.741741
- Title: Fast and Slow Gradient Approximation for Binary Neural Network Optimization
- Title(参考訳): 2元ニューラルネットワーク最適化のための高速・低速勾配近似
- Authors: Xinquan Chen, Junqi Gao, Biqing Qi, Dong Li, Yiang Luo, Fangyuan Li, Pengfei Li,
- Abstract要約: ハイパーネットワークに基づく手法は、ニューラルネットワークを用いて微分不可能な量子化関数の勾配を学習する。
本稿では,ヒストリ・グラディエント・ストレージ(HGS)モジュールを提案する。これは,ヒストリ・グラディエント・シーケンスをモデル化し,最適化に必要な1次モーメントを生成する。
また、ハイパーネットワークに層認識埋め込み(LRE)を導入し、層固有の微細勾配の生成を容易にする。
- 参考スコア(独自算出の注目度): 11.064044986709733
- License:
- Abstract: Binary Neural Networks (BNNs) have garnered significant attention due to their immense potential for deployment on edge devices. However, the non-differentiability of the quantization function poses a challenge for the optimization of BNNs, as its derivative cannot be backpropagated. To address this issue, hypernetwork based methods, which utilize neural networks to learn the gradients of non-differentiable quantization functions, have emerged as a promising approach due to their adaptive learning capabilities to reduce estimation errors. However, existing hypernetwork based methods typically rely solely on current gradient information, neglecting the influence of historical gradients. This oversight can lead to accumulated gradient errors when calculating gradient momentum during optimization. To incorporate historical gradient information, we design a Historical Gradient Storage (HGS) module, which models the historical gradient sequence to generate the first-order momentum required for optimization. To further enhance gradient generation in hypernetworks, we propose a Fast and Slow Gradient Generation (FSG) method. Additionally, to produce more precise gradients, we introduce Layer Recognition Embeddings (LRE) into the hypernetwork, facilitating the generation of layer-specific fine gradients. Extensive comparative experiments on the CIFAR-10 and CIFAR-100 datasets demonstrate that our method achieves faster convergence and lower loss values, outperforming existing baselines.Code is available at http://github.com/two-tiger/FSG .
- Abstract(参考訳): バイナリニューラルネットワーク(BNN)は、エッジデバイスにデプロイする大きな可能性のために、大きな注目を集めている。
しかし、量子化関数の非微分性は、その微分が逆伝播できないため、BNNの最適化に挑戦する。
この問題に対処するために、ニューラルネットワークを用いて微分不可能な量子化関数の勾配を学習するハイパーネットワークベースの手法が、予測誤差を低減するための適応学習能力のために、有望なアプローチとして登場した。
しかし、既存のハイパーネットワークベースの手法は、通常、現在の勾配情報のみに依存し、歴史的勾配の影響を無視する。
この監視は、最適化中に勾配運動量を計算する際の勾配誤差の蓄積につながる可能性がある。
履歴勾配情報を組み込んだHGSモジュールを設計し, 履歴勾配列をモデル化し, 最適化に必要な1次運動量を生成する。
ハイパーネットワークにおける勾配生成をさらに高めるために,高速かつ低速な勾配生成(FSG)法を提案する。
さらに、より精密な勾配を生成するために、ハイパーネットワークに層認識埋め込み(LRE)を導入し、層固有の微細勾配を生成する。
CIFAR-10とCIFAR-100データセットの大規模な比較実験により,既存のベースラインよりも高速な収束と損失の低減を実現し,コードもhttp://github.com/two-tiger/FSGで利用可能である。
関連論文リスト
- Mitigating Gradient Overlap in Deep Residual Networks with Gradient Normalization for Improved Non-Convex Optimization [0.0]
ディープラーニングにおいて、Residual Networks(ResNets)は、消滅する問題に対処する上で有効であることが証明されている。
ResNetのスキップ接続はオーバーラップし、学習した変換とスキップ接続がグラデーションで結合される。
重なりを管理する手法としてZ-score Normalization (ZNorm) を検討した。
論文 参考訳(メタデータ) (2024-10-28T21:54:44Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Learning with Local Gradients at the Edge [14.94491070863641]
我々は、Target Projection Gradient Descent (tpSGD) と呼ばれる新しいバックプロパゲーションフリー最適化アルゴリズムを提案する。
tpSGDは、任意の損失関数を扱うために、直接ランダムターゲット射影を一般化する。
我々は、深層ニューラルネットワークのトレーニングにおけるtpSGDの性能を評価し、マルチ層RNNへのアプローチを拡張した。
論文 参考訳(メタデータ) (2022-08-17T19:51:06Z) - Scaling Private Deep Learning with Low-Rank and Sparse Gradients [5.14780936727027]
ニューラルネットワークの低ランクかつスパースな構造を利用して、勾配更新の次元を小さくするフレームワークを提案する。
勾配を拡大するために新しい戦略が利用され、低次元でノイズの少ない更新をもたらす。
自然言語処理とコンピュータビジョンタスクの実証評価により,本手法が他の最先端のベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2022-07-06T14:09:47Z) - Gradient Correction beyond Gradient Descent [63.33439072360198]
勾配補正は明らかに、ニューラルネットワークのトレーニングにおいて、最も重要な側面である。
勾配補正を行うためのフレームワーク(textbfGCGD)を導入する。
実験結果から, 勾配補正フレームワークは, トレーニングエポックスを$sim$20%削減し, ネットワーク性能を向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-03-16T01:42:25Z) - Non-Gradient Manifold Neural Network [79.44066256794187]
ディープニューラルネットワーク(DNN)は通常、勾配降下による最適化に数千のイテレーションを要します。
非次最適化に基づく新しい多様体ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-15T06:39:13Z) - Channel-Directed Gradients for Optimization of Convolutional Neural
Networks [50.34913837546743]
本稿では,畳み込みニューラルネットワークの最適化手法を提案する。
出力チャネル方向に沿って勾配を定義することで性能が向上し,他の方向が有害となることを示す。
論文 参考訳(メタデータ) (2020-08-25T00:44:09Z) - The duality structure gradient descent algorithm: analysis and applications to neural networks [0.0]
本稿では,非漸近的性能解析に寄与する双対構造勾配降下法(DSGD)を提案する。
いくつかのニューラルネットワークトレーニングシナリオにおいて,DSGDの動作を実証的に示す。
論文 参考訳(メタデータ) (2017-08-01T21:24:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。