論文の概要: SySMOL: Co-designing Algorithms and Hardware for Neural Networks with Heterogeneous Precisions
- arxiv url: http://arxiv.org/abs/2311.14114v3
- Date: Thu, 06 Nov 2025 06:43:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 22:27:39.524753
- Title: SySMOL: Co-designing Algorithms and Hardware for Neural Networks with Heterogeneous Precisions
- Title(参考訳): SySMOL:不均一精度ニューラルネットワークの共設計アルゴリズムとハードウェア
- Authors: Cyrus Zhou, Pedro Savarese, Zack Hassman, Vaughn Richard, Michael DiBrino, Michael Maire, Yanjing Li,
- Abstract要約: SONIQは、推論で使用されるのと同じ規則の下でトレーニング中に、ウェイトとアクティベーションの両方のチャネル毎の混合精度を学習する。
SONIQは、デプロイ時に使われる個別の算術に対して、起動時なしでモデルを操縦する。
CNNとTransformers全体では、SONIQは最大16倍と7倍の圧縮を達成し、完全精度のマッチングや超精度の向上を実現している。
- 参考スコア(独自算出の注目度): 16.80594978261954
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ultra-low-precision inference can sharply reduce memory and latency but often degrades accuracy and relies on specialized hardware. We present SONIQ, a system-optimized, noise-injected quantization framework that learns per-channel mixed precision for both weights and activations while training under the same rules used at inference. By injecting hardware-calibrated quantization noise during training, SONIQ steers models toward the discrete arithmetic used at deployment -- without bespoke runtimes. Across CNNs and Transformers, SONIQ achieves up to 16x and 7x compression, respectively, while matching or exceeding full-precision accuracy. Measured end-to-end, SONIQ delivers up to 7.3x CPU speedup over strong INT8 baselines and up to 6.3x (vector units) / 2.8x (tensor cores) GPU speedup relative to FP16. A practical outcome is that two per-channel precision levels -- one in the 1--4-bit range and one in the 4--8-bit range -- suffice in practice; at inference, each channel selects one of the two, keeping kernels simple and fast. To our knowledge, SONIQ is the first framework to reach or surpass full-precision accuracy under ultra-low (1--4 bits per parameter) regimes while remaining deployable on commodity hardware, narrowing the gap between quantization theory and practical, high-throughput inference.
- Abstract(参考訳): 超低精度推論は、メモリとレイテンシを著しく削減するが、しばしば精度を低下させ、特別なハードウェアに依存する。
提案するSONIQは,重みとアクティベーションの両方のチャネルごとの混合精度を学習する,システム最適化・ノイズ注入量子化フレームワークである。
トレーニング中にハードウェアキャリブレーションされた量子化ノイズを注入することで、SONIQは、デプロイ時に使われる離散演算(bespoke runtimes)に対してモデルをステアリングする。
CNNとTransformers全体では、SONIQは最大16倍と7倍の圧縮を達成し、完全精度のマッチングや超精度の向上を実現している。
エンドツーエンドで測定されたSONIQは、強力なINT8ベースライン上で最大7.3倍のCPUスピードアップと、FP16と比較して最大6.3倍(ベクトルユニット)/2.8倍(テンソルコア)のGPUスピードアップを提供する。
現実的な結果として、チャネルごとの精度レベルが2つ -- 1--4-bit範囲で1つ、4--8-bit範囲で1つ -- は、実際には十分である。
我々の知る限り、SONIQは、コモディティハードウェア上で展開可能でありながら、超低 (パラメータあたり1~4ビット) の条件下で完全精度を達成または超える最初のフレームワークであり、量子化理論と実用的な高スループット推論のギャップを狭めている。
関連論文リスト
- Complexity-Aware Training of Deep Neural Networks for Optimal Structure Discovery [0.0]
本稿では、トレーニング中に、トレーニング済みのネットワークを適用せずに機能するディープニューラルネットワークのユニット・レイヤ・プルーニングとレイヤ・プルーニングを組み合わせた新しいアルゴリズムを提案する。
本アルゴリズムは, 学習精度とプルーニングレベルを最適に交換し, ユニットプルーニングと計算量とパラメータ複雑性のバランスをとる。
提案アルゴリズムは,ネットワークに対応する最適化問題の解に収束することを示す。
論文 参考訳(メタデータ) (2024-11-14T02:00:22Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - Free Bits: Latency Optimization of Mixed-Precision Quantized Neural
Networks on the Edge [17.277918711842457]
混合精度量子化は、モデルサイズ、レイテンシ、統計的精度の間のトレードオフを最適化する機会を提供する。
本稿では,与えられたネットワークに対する混合精度構成の探索空間をナビゲートするハイブリッド探索手法を提案する。
ハードウェアに依存しない差別化検索アルゴリズムと、特定のハードウェアターゲットに対して遅延最適化された混合精度構成を見つけるハードウェア対応最適化で構成されている。
論文 参考訳(メタデータ) (2023-07-06T09:57:48Z) - A Practical Mixed Precision Algorithm for Post-Training Quantization [15.391257986051249]
混合精度量子化は、均一な量子化よりも優れた性能効率トレードオフを見つけるための有望な解である。
簡単な学習後混合精度アルゴリズムを提案する。
我々は,同質のビット幅等価値よりも精度と効率のトレードオフが良い混合精度ネットワークを見つけることができることを示す。
論文 参考訳(メタデータ) (2023-02-10T17:47:54Z) - Efficient and Effective Methods for Mixed Precision Neural Network
Quantization for Faster, Energy-efficient Inference [3.3213055774512648]
ネットワークの精度を下げるための量子化は、ネットワークを単純化する強力な技術である。
混合精度量子化法は,各レイヤの精度を選択的に調整し,タスク性能の最小低下を実現する。
タスク性能に及ぼすレイヤー精度選択の影響を推定するために,2つの方法を紹介した。
EAGLとALPSを用いて4ビット層と2ビット層を混合して完全精度を復元する。
論文 参考訳(メタデータ) (2023-01-30T23:26:33Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Multi-Exit Semantic Segmentation Networks [78.44441236864057]
本稿では,最先端セグメンテーションモデルをMESSネットワークに変換するフレームワークを提案する。
パラメトリド早期出口を用いた特別訓練されたCNNは、より簡単なサンプルの推測時に、その深さに沿って保存する。
接続されたセグメンテーションヘッドの数、配置、アーキテクチャとエグジットポリシーを併用して、デバイス機能とアプリケーション固有の要件に適応する。
論文 参考訳(メタデータ) (2021-06-07T11:37:03Z) - Ps and Qs: Quantization-aware pruning for efficient low latency neural
network inference [56.24109486973292]
超低遅延アプリケーションのためのニューラルネットワークのトレーニング中の分級と量子化の相互作用を研究します。
量子化アウェアプルーニングは,タスクのプルーニングや量子化のみよりも計算効率のよいモデルであることが判明した。
論文 参考訳(メタデータ) (2021-02-22T19:00:05Z) - GradFreeBits: Gradient Free Bit Allocation for Dynamic Low Precision
Neural Networks [4.511923587827301]
量子ニューラルネットワーク(QNN)は、低リソースエッジデバイスにディープニューラルネットワークをデプロイするための主要なアプローチのひとつだ。
動的QNNを訓練するための新しい共同最適化スキームであるGradFreeBitsを提案する。
本手法はCIFAR10/100上での最先端の低精度ニューラルネットワークと画像ネットの分類を同等あるいは同等の性能で実現している。
論文 参考訳(メタデータ) (2021-02-18T12:18:09Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。