論文の概要: Hardware Efficient Approximate Convolution with Tunable Error Tolerance for CNNs
- arxiv url: http://arxiv.org/abs/2603.10100v1
- Date: Tue, 10 Mar 2026 17:59:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.637239
- Title: Hardware Efficient Approximate Convolution with Tunable Error Tolerance for CNNs
- Title(参考訳): CNNに対するTunable Error Toleranceを用いたハードウェア効率の良い近似畳み込み
- Authors: Vishal Shashidhar, Anupam Kumari, Roy P Paily,
- Abstract要約: ハードウェア効率のよいMest Significant Bitプロキシを用いて、無視できない非ゼロ乗算をスキップする「ソフトスパシティ」パラダイムを提案する。
この方法は、ReLU MACsを88.42%、Tanh MACsを74.87%削減し、精度の低下をゼロにする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern CNNs' high computational demands hinder edge deployment, as traditional ``hard'' sparsity (skipping mathematical zeros) loses effectiveness in deep layers or with smooth activations like Tanh. We propose a ``soft sparsity'' paradigm using a hardware efficient Most Significant Bit (MSB) proxy to skip negligible non-zero multiplications. Integrated as a custom RISC-V instruction and evaluated on LeNet-5 (MNIST), this method reduces ReLU MACs by 88.42% and Tanh MACs by 74.87% with zero accuracy loss--outperforming zero-skipping by 5x. By clock-gating inactive multipliers, we estimate power savings of 35.2\% for ReLU and 29.96\% for Tanh. While memory access makes power reduction sub-linear to operation savings, this approach significantly optimizes resource-constrained inference.
- Abstract(参考訳): 現代のCNNの高い計算要求は、'hard'の間隔(数学的なゼロをスキップする)が深い層やTanhのようなスムーズなアクティベーションで効果を失うため、エッジデプロイメントを妨げている。
ハードウェア効率の良いMest Significant Bit (MSB) プロキシを用いて、無視できない非ゼロ乗算をスキップする `soft sparsity' パラダイムを提案する。
カスタムRISC-V命令として統合され、LeNet-5 (MNIST) で評価され、ReLU MACを88.42%削減し、Tanh MACを74.87%削減する。
クロックゲーティング不活性乗算器により、ReLUは35.2\%、Tanhは29.96\%の省電力を推定する。
メモリアクセスは省電力化と省電力化を両立させるが,本手法はリソース制約推論を著しく最適化する。
関連論文リスト
- ODAR: Principled Adaptive Routing for LLM Reasoning via Active Inference [60.958331943869126]
ODAR-Expertは、原則化されたリソース割り当てによる精度と効率のトレードオフを最適化する適応的なルーティングフレームワークである。
我々は、MATHの98.2%の精度、HumanityのLast Examの54.8%を含む、強く一貫した利得を示している。
論文 参考訳(メタデータ) (2026-02-27T05:22:01Z) - BLaST: High Performance Inference and Pretraining using BLock Sparse Transformers [18.53326467276254]
Bl)ock (a)nd (S)parse (T)ransformers (BLaST)を紹介する。
BLaST は行列乗算における最大95%の間隔と無視可能な精度損失を達成できる。
推論メモリフットプリントを4.45倍削減した16GPUのLlama 3.2の2.2倍の推論速度を示す。
論文 参考訳(メタデータ) (2025-07-03T18:53:54Z) - Quaff: Quantized Parameter-Efficient Fine-Tuning under Outlier Spatial Stability Hypothesis [9.884521812433661]
Quaffは、大規模言語モデルのための量子化されたパラメータ効率の微調整フレームワークである。
軽量な操作を使用して、排他的な不変チャネルを抑える。
1.73倍のレイテンシ削減を実現し、30パーセントのメモリ節約を実現している。
論文 参考訳(メタデータ) (2025-05-20T07:19:36Z) - Scalable LLM Math Reasoning Acceleration with Low-rank Distillation [57.922185576872444]
資源効率の高い蒸留法を提案し, 効率的な推論手法の展開から損失能力を回収する。
もともとの重みは未成熟で、パラメータの約1%、合成トレーニングサンプルは20Kに過ぎなかった。
論文 参考訳(メタデータ) (2025-05-08T17:51:24Z) - Hadamard Domain Training with Integers for Class Incremental Quantized
Learning [1.4416751609100908]
継続的な学習は、リソース制約のあるエッジプラットフォームにとってコストを抑えることができる。
本稿では,整数行列の乗算のみを用いて,低精度の学習を可能にする手法を提案する。
行列乗算の入力を8ビットのアキュムレータで4ビットまで量子化しながら、0.5%未満の精度と3%の精度の劣化を実現する。
論文 参考訳(メタデータ) (2023-10-05T16:52:59Z) - Data-Free Dynamic Compression of CNNs for Tractable Efficiency [46.498278084317704]
構造化プルーニング手法は, 精度が大幅に低下することなく浮動小数点演算を低下させる可能性を示唆している。
HASTE(Hashing for Tractable Efficiency)は,データフリーでプラグイン・アンド・プレイのコンボリューションモジュールで,トレーニングや微調整なしにネットワークのテスト時間推論コストを瞬時に低減する。
CIFAR-10とImageNetでは46.72%のFLOPを1.25%の精度で削減した。
論文 参考訳(メタデータ) (2023-09-29T13:09:40Z) - Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z) - MicroNet: Improving Image Recognition with Extremely Low FLOPs [82.54764264255505]
疎結合性と動的アクティベーション関数の2つの要因が,精度向上に有効であることがわかった。
非線形性を改善するために動的シフトマックスと呼ばれる新しい動的アクティベーション関数を提案する。
私たちはMicroNetというネットワークのファミリに到達し、低FLOP体制下での最先端技術に対して大きなパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2021-08-12T17:59:41Z) - Non-Parametric Adaptive Network Pruning [125.4414216272874]
アルゴリズム設計を簡略化するノンパラメトリックモデリングを導入。
顔認識コミュニティに触発されて,メッセージパッシングアルゴリズムを用いて,適応的な例示数を求める。
EPrunerは「重要」フィルタを決定する際にトレーニングデータへの依存を壊します。
論文 参考訳(メタデータ) (2021-01-20T06:18:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。