Fugu-MT 論文翻訳(概要): Gradient-Free Training of Quantized Neural Networks

論文の概要: Gradient-Free Training of Quantized Neural Networks

arxiv url: http://arxiv.org/abs/2410.09734v2
Date: Mon, 29 Sep 2025 08:57:27 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-30 22:32:18.716056
Title: Gradient-Free Training of Quantized Neural Networks
Title（参考訳）: 量子化ニューラルネットワークのグラディエントフリートレーニング
Authors: Noa Cohen, Omkar Joglekar, Dotan Di Castro, Vladimir Tchuiev, Shir Kozlovsky, Michal Moshkovitz,
Abstract要約: ニューラルネットワークのトレーニングには、かなりの計算資源とエネルギーが必要である。混合精度と量子化学習はビット使用量を減少させるが、計算コストの高い勾配に基づく最適化に大きく依存している。我々は、勾配を完全に排除するパラダイムシフトを提案する。
参考スコア（独自算出の注目度）: 9.348959582516438
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Training neural networks requires significant computational resources and energy. Methods like mixed-precision and quantization-aware training reduce bit usage, yet they still depend heavily on computationally expensive gradient-based optimization. In this work, we propose a paradigm shift: eliminate gradients altogether. One might hope that, in a finite quantized space, finding optimal weights with out gradients would be easier but we theoretically prove that this problem is NP-hard even in simple settings where the continuous case is efficiently solvable. To address this, we introduce a novel heuristic optimization framework that avoids full weight updates and significantly improves efficiency. Empirically, our method achieves performance comparable to that of full-precision gradient-based training on standard datasets and architectures, while using up to 3x less energy and requiring up to 5x fewer parameter updates.
Abstract（参考訳）: ニューラルネットワークのトレーニングには、かなりの計算資源とエネルギーが必要である。混合精度や量子化学習のような手法はビット使用量を減少させるが、計算コストの高い勾配ベースの最適化に大きく依存している。本研究では,勾配を完全に排除するパラダイムシフトを提案する。有限量子化された空間では、勾配を外した最適な重みを見つけることは容易であるが、連続ケースが効率的に解けるような単純な設定であっても、この問題がNPハードであることは理論的に証明できる。そこで本研究では,全重量更新を回避し,効率を大幅に向上する新しいヒューリスティック最適化フレームワークを提案する。提案手法は,最大3倍のエネルギーを消費し,最大5倍のパラメータ更新を必要としながら,標準データセットやアーキテクチャ上での完全精度勾配に基づくトレーニングに匹敵する性能を実現する。

関連論文リスト

Training of Spiking Neural Networks with Expectation-Propagation [9.24888258922809]
スパイキングニューラルネットワーク(SNN)のトレーニングのための統一メッセージパッシングフレームワークを提案する。本手法は,ネットワークパラメータの辺り分布を学習し,隠れ層の出力などのパラメータの辺縁化を同時に行うことができる。
論文参考訳（メタデータ） (2025-06-30T11:59:56Z)
Approximation and Gradient Descent Training with Neural Networks [0.0]
最近の研究は、ニューラル・タンジェント・カーネル(NTK)最適化の議論を過度にパラメータ化された状態に拡張している。本稿では,勾配降下法により学習したネットワークの類似性を示す。
論文参考訳（メタデータ） (2024-05-19T23:04:09Z)
Speed Limits for Deep Learning [67.69149326107103]
熱力学の最近の進歩は、初期重量分布から完全に訓練されたネットワークの最終分布への移動速度の制限を可能にする。線形および線形化可能なニューラルネットワークに対して,これらの速度制限に対する解析式を提供する。 NTKスペクトルとラベルのスペクトル分解に関するいくつかの妥当なスケーリング仮定を考えると、学習はスケーリングの意味で最適である。
論文参考訳（メタデータ） (2023-07-27T06:59:46Z)
Globally Optimal Training of Neural Networks with Threshold Activation Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文参考訳（メタデータ） (2023-03-06T18:59:13Z)
Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文参考訳（メタデータ） (2022-11-19T15:44:08Z)
Combinatorial optimization for low bit-width neural networks [23.466606660363016]
低ビット幅のニューラルネットワークは、計算資源を減らすためにエッジデバイスに展開するために広く研究されている。既存のアプローチでは、2段階の列車・圧縮設定における勾配に基づく最適化に焦点が当てられている。グリーディ座標降下法とこの新しい手法を組み合わせることで、二項分類タスクにおける競合精度が得られることを示す。
論文参考訳（メタデータ） (2022-06-04T15:02:36Z)
Dimensionality Reduced Training by Pruning and Freezing Parts of a Deep Neural Network, a Survey [69.3939291118954]
最先端のディープラーニングモデルには、何十億にも達するパラメータカウントがある。そのようなモデルのトレーニング、保存、転送は、エネルギーと時間を要するため、コストがかかる。モデル圧縮は、ストレージと転送コストを低減し、フォワードおよび/または後方パスでの計算数を減少させることで、トレーニングをより効率的にすることができる。この研究は、トレーニング全体を通してディープラーニングモデルでトレーニングされた重量を減らす方法に関する調査である。
論文参考訳（メタデータ） (2022-05-17T05:37:08Z)
Learning Neural Network Subspaces [74.44457651546728]
近年の観測は,ニューラルネットワーク最適化の展望の理解を深めている。 1つのモデルのトレーニングと同じ計算コストで、高精度ニューラルネットワークの線、曲線、単純軸を学習します。 1つのモデルのトレーニングと同じ計算コストで、高精度ニューラルネットワークの線、曲線、単純軸を学習します。
論文参考訳（メタデータ） (2021-02-20T23:26:58Z)
FracTrain: Fractionally Squeezing Bit Savings Both Temporally and Spatially for Efficient DNN Training [81.85361544720885]
アクティベーション、ウェイト、グラデーションの精度を徐々に高めるプログレッシブ分数量子化を統合したFracTrainを提案します。 FracTrainはDNNトレーニングの計算コストとハードウェア量子化エネルギー/レイテンシを削減し、同等以上の精度(-0.12%+1.87%)を達成する。
論文参考訳（メタデータ） (2020-12-24T05:24:10Z)
Universality of Gradient Descent Neural Network Training [0.0]
ニューラルネットワークの再設計が常に可能であるかどうかを議論する。この構造は実用的な計算を目的としていないが、メタラーニングと関連するアプローチの可能性についてある程度の方向性を提供する。
論文参考訳（メタデータ） (2020-07-27T16:17:19Z)
Training highly effective connectivities within neural networks with randomly initialized, fixed weights [4.56877715768796]
重みの符号を反転させてネットワークを訓練する新しい方法を提案する。重みが一定等級であっても、高非対称分布から重みが引き出される場合でも良い結果が得られる。
論文参考訳（メタデータ） (2020-06-30T09:41:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。