論文の概要: Sensitivity-Guided Framework for Pruned and Quantized Reservoir Computing Accelerators
- arxiv url: http://arxiv.org/abs/2603.08737v1
- Date: Tue, 24 Feb 2026 17:13:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-15 16:38:22.509564
- Title: Sensitivity-Guided Framework for Pruned and Quantized Reservoir Computing Accelerators
- Title(参考訳): Pruned and Quantized Reservoir Computing Acceleratorのための感度誘導型フレームワーク
- Authors: Atousa Jafari, Mahdi Taheri, Hassan Ghasemzadeh Mohammadi, Christian Herglotz, Marco Platzner,
- Abstract要約: 本稿では,貯留層計算のための圧縮フレームワークを提案する。
量子化レベル、プルーニングレート、モデルの精度、ハードウェア効率のトレードオフを体系的に設計・空間で探索することができる。
提案手法の有効性を検証するため,大規模なトレードオフ分析を行う。
- 参考スコア(独自算出の注目度): 2.8194988957235547
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper presents a compression framework for Reservoir Computing that enables systematic design-space exploration of trade-offs among quantization levels, pruning rates, model accuracy, and hardware efficiency. The proposed approach leverages a sensitivity-based pruning mechanism to identify and remove less critical quantized weights with minimal impact on model accuracy, thereby reducing computational overhead while preserving accuracy. We perform an extensive trade-off analysis to validate the effectiveness of the proposed framework and the impact of pruning and quantization on model performance and hardware parameters. For this evaluation, we employ three time-series datasets, including both classification and regression tasks. Experimental results across selected benchmarks demonstrate that our proposed approach maintains high accuracy while substantially improving computational and resource efficiency in FPGA-based implementations, with variations observed across different configurations and time series applications. For instance, for the MELBOEN dataset, an accelerator quantized to 4-bit at a 15\% pruning rate reduces resource utilization by 1.2\% and the Power Delay Product (PDP) by 50.8\% compared to an unpruned model, without any noticeable degradation in accuracy.
- Abstract(参考訳): 本稿では, 定量化レベル, プルーニングレート, モデル精度, ハードウェア効率のトレードオフを, 体系的に設計・空間的に探索することのできる貯留層コンピューティングのための圧縮フレームワークを提案する。
提案手法は、感度に基づくプルーニング機構を利用して、モデル精度に最小限の影響を受けずに、最小限の臨界量子化重みを識別・除去し、精度を保ちながら計算オーバーヘッドを低減する。
提案するフレームワークの有効性と,モデル性能およびハードウェアパラメータに対するプルーニングおよび量子化の影響を検証するために,広範なトレードオフ分析を行う。
本評価では,分類タスクと回帰タスクの両方を含む時系列データセットを3つ採用する。
提案手法はFPGAベースの実装において,計算効率と資源効率を大幅に向上させつつ,異なる構成や時系列アプリケーションにまたがる変化を観測し,高い精度を維持していることを示す。
例えば、MELBOENデータセットでは、15\%のプルーニングレートで4ビットに量子化された加速器がリソース使用量を1.2\%削減し、PDP(Power Delay Product)を50.8\%削減する。
関連論文リスト
- Unbiased Dynamic Pruning for Efficient Group-Based Policy Optimization [60.87651283510059]
Group Relative Policy Optimization (GRPO) はLLM推論を効果的にスケールするが、計算コストは禁じている。
本研究では,非バイアス勾配推定を保ちながら動的プルーニングを可能にする動的プルーニングポリシー最適化(DPPO)を提案する。
刈り込みによって引き起こされるデータの空間性を軽減するため,ウィンドウベースの欲求戦略であるDense Prompt Packingを導入する。
論文 参考訳(メタデータ) (2026-03-04T14:48:53Z) - HQP: Sensitivity-Aware Hybrid Quantization and Pruning for Ultra-Low-Latency Edge AI Inference [0.0]
相乗的モデル加速を実現するために設計されたHybrid Quantization and Pruning (HQP)フレームワーク。
HQPフレームワークは3.12倍の推論速度向上と55%のモデルサイズ縮小を実現している。
論文 参考訳(メタデータ) (2026-02-02T18:17:45Z) - Beyond Outliers: A Study of Optimizers Under Quantization [82.75879062804955]
量子化下でのモデルロバスト性に対する選択の影響について検討する。
モデルの性能が、異なるベースラインでトレーニングした場合にどのように低下するかを評価する。
異なるパラメータによる量子化対応トレーニングのスケーリング法則を導出する。
論文 参考訳(メタデータ) (2025-09-27T21:15:22Z) - Sensitivity-Aware Post-Training Quantization for Deep Neural Networks [33.64653796994035]
既存のトレーニング後の量子化手法では、高い圧縮比で精度を維持するために繰り返しパラメーターを更新する。
本稿では,パラメータ感度解析による効率的なPTQ手法を提案する。
ResNet-50とYOLOv5sの実験結果は、最適脳量子化ベースライン上で20-200倍の量子化スピードアップを示す。
論文 参考訳(メタデータ) (2025-09-06T03:26:57Z) - DPQuant: Efficient and Differentially-Private Model Training via Dynamic Quantization Scheduling [7.79764032127686]
Differentially-Private SGD(DP-SGD)は、機密データを使用してニューラルネットワークをトレーニングする際のユーザのプライバシを保護する強力なテクニックである。
DP-SGDの量子化は,通常のSGDに比べて高い精度で劣化することを示した。
QPQuantは動的量子化フレームワークであり、各エポックで量子化するレイヤの変動部分集合を適応的に選択する。
論文 参考訳(メタデータ) (2025-09-03T16:51:26Z) - Progressive Element-wise Gradient Estimation for Neural Network Quantization [2.1413624861650358]
量子化アウェアトレーニング(QAT)法は、離散化関数の非微分可能性に対処するためにSTE(Straight-Through Estimator)に依存する。
本稿では,連続値と量子化値の離散化誤差に対処するため,PEGE(Progressive Element-wise Gradient Estimation)を提案する。
PEGEは、既存のバックプロパゲーション手法を一貫して上回り、低精度のモデルが彼らの完全精度の精度にマッチしたり、さらに上回ったりすることを可能にしている。
論文 参考訳(メタデータ) (2025-08-27T15:59:36Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - LoRAPrune: Structured Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning [56.88751562302793]
低ランク適応 (LoRA) が大型言語モデル (LLM) に登場した。
LoRAPruneは、高度にメモリ効率の良い正確な構造化プルーンドモデルを提供する新しいフレームワークである。
LoRAPruneはWikiText2では4.81、TBでは3.46、メモリ使用量は52.6%減少している。
論文 参考訳(メタデータ) (2023-05-28T15:15:48Z) - VecQ: Minimal Loss DNN Model Compression With Vectorized Weight
Quantization [19.66522714831141]
我々は、最小の直接量子化損失とモデル精度を保証できるVecQと呼ばれる新しい量子化ソリューションを開発した。
また,学習中に提案した量子化過程を高速化するために,パラメータ化推定と確率ベース計算を用いて量子化過程を高速化する。
論文 参考訳(メタデータ) (2020-05-18T07:38:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。