論文の概要: DPQ-HD: Post-Training Compression for Ultra-Low Power Hyperdimensional Computing
- arxiv url: http://arxiv.org/abs/2505.05413v1
- Date: Thu, 08 May 2025 16:54:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.97147
- Title: DPQ-HD: Post-Training Compression for Ultra-Low Power Hyperdimensional Computing
- Title(参考訳): DPQ-HD:超低消費電力超次元計算のための後処理圧縮
- Authors: Nilesh Prasad Pandey, Shriniwas Kulkarni, David Wang, Onat Gungor, Flavio Ponzina, Tajana Rosing,
- Abstract要約: ポストトレーニング圧縮アルゴリズムDPQ-HD(Decomposition-Pruning-Quantization)を提案する。
DPQ-HDは上記の3つの圧縮技法を一意に組み合わせることで計算とメモリのオーバーヘッドを低減する。
DPQ-HDは1-2%の精度で画像およびグラフ分類タスクの最大20-100倍のメモリ削減を実現している。
- 参考スコア(独自算出の注目度): 6.378578005171813
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hyperdimensional Computing (HDC) is emerging as a promising approach for edge AI, offering a balance between accuracy and efficiency. However, current HDC-based applications often rely on high-precision models and/or encoding matrices to achieve competitive performance, which imposes significant computational and memory demands, especially for ultra-low power devices. While recent efforts use techniques like precision reduction and pruning to increase the efficiency, most require retraining to maintain performance, making them expensive and impractical. To address this issue, we propose a novel Post Training Compression algorithm, Decomposition-Pruning-Quantization (DPQ-HD), which aims at compressing the end-to-end HDC system, achieving near floating point performance without the need of retraining. DPQ-HD reduces computational and memory overhead by uniquely combining the above three compression techniques and efficiently adapts to hardware constraints. Additionally, we introduce an energy-efficient inference approach that progressively evaluates similarity scores such as cosine similarity and performs early exit to reduce the computation, accelerating prediction inference while maintaining accuracy. We demonstrate that DPQ-HD achieves up to 20-100x reduction in memory for image and graph classification tasks with only a 1-2% drop in accuracy compared to uncompressed workloads. Lastly, we show that DPQ-HD outperforms the existing post-training compression methods and performs better or at par with retraining-based state-of-the-art techniques, requiring significantly less overall optimization time (up to 100x) and faster inference (up to 56x) on a microcontroller
- Abstract(参考訳): 超次元コンピューティング(HDC)は、エッジAIの有望なアプローチとして登場し、正確性と効率のバランスを提供する。
しかし、現在のHDCベースのアプリケーションは、特に超低消費電力デバイスにおいて、計算とメモリの大幅な要求を課す競争的な性能を達成するために、高精度のモデルや/または符号化マトリクスに依存していることが多い。
近年の取り組みでは、精度の低下やプルーニング(pruning)といったテクニックを使用して効率を向上させる一方で、ほとんどの場合、パフォーマンスを維持するために再トレーニングを必要としており、高価で実用的ではない。
そこで,本稿では,DPQ-HD(Decomposition-Pruning-Quantization)アルゴリズムを提案する。
DPQ-HDは上記の3つの圧縮技法を一意に組み合わせることで計算とメモリのオーバーヘッドを低減し、ハードウェアの制約に効率的に適応する。
さらに,コサイン類似度などの類似度を漸進的に評価し,計算を減らし,精度を維持しつつ予測推論を高速化するエネルギー効率推論手法を提案する。
DPQ-HDは、圧縮されていないワークロードに比べて1-2%の精度で画像およびグラフ分類タスクの最大20-100倍のメモリ削減を実現している。
最後に、DPQ-HDは既存のトレーニング後の圧縮手法よりも優れており、マイクロコントローラ上での最適化時間(最大100倍)と高速推論(最大56倍)を著しく削減し、再トレーニングベースの最先端技術と同等あるいは同等に動作することを示す。
関連論文リスト
- PCGS: Progressive Compression of 3D Gaussian Splatting [55.149325473447384]
ガウスの量と品質を適応的に制御するPCGS(Progressive Compression of 3D Gaussian Splatting)を提案する。
全体として、PCGSは、SoTA非プログレッシブ手法に匹敵する圧縮性能を維持しながら、進行性を達成する。
論文 参考訳(メタデータ) (2025-03-11T15:01:11Z) - Efficient Distributed Training through Gradient Compression with Sparsification and Quantization Techniques [3.6481248057068174]
50倍の圧縮でトップkとDGCを使用するとパフォーマンスが向上し、ベースラインに比べてパープレキシティが最大0.06削減される。
通信時間は全ての圧縮法で減少し、トップkとDGCは高い圧縮比で無視できるレベルまで通信を減少させる。
論文 参考訳(メタデータ) (2024-12-07T22:55:55Z) - Accelerating Error Correction Code Transformers [56.75773430667148]
本稿では,トランスを用いたデコーダの高速化手法を提案する。
最新のハードウェアでは、90%の圧縮比を実現し、算術演算エネルギー消費を少なくとも224倍削減する。
論文 参考訳(メタデータ) (2024-10-08T11:07:55Z) - LoCo: Low-Bit Communication Adaptor for Large-scale Model Training [63.040522637816906]
低ビット通信は、しばしば圧縮情報損失によってトレーニング品質が低下する。
本稿では,ローカルGPUノードを補償するLoCo(Lo-bit Communication Adaptor)を提案する。
実験結果から,Megatron-LMやPyTorchs FSDPといった大規模トレーニングモデルフレームワークの移動により,LoCoは圧縮通信効率を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-07-05T13:01:36Z) - ALPS: Improved Optimization for Highly Sparse One-Shot Pruning for Large Language Models [14.310720048047136]
ALPSは,演算子分割法と事前条件付き勾配共役型後処理法を用いて,プルーニング問題に対処する最適化ベースのフレームワークである。
提案手法はベクトル化とGPU並列性を有効利用しながら収束を加速し理論的に保証する新しい手法を取り入れている。
OPT-30Bモデルでは70%の間隔で、ALPSはWikiTextデータセットにおけるテストの難易度を13%削減し、既存の手法と比較してゼロショットベンチマークのパフォーマンスを19%改善した。
論文 参考訳(メタデータ) (2024-06-12T02:57:41Z) - MicroHD: An Accuracy-Driven Optimization of Hyperdimensional Computing Algorithms for TinyML systems [8.54897708375791]
超次元コンピューティング(HDC)は、TinyMLアプリケーションを効果的にターゲットできる有望なAIアプローチとして登場しつつある。
HDCの以前の研究は、超次元空間の標準10k次元をはるかに低い値に制限することは可能であることを示した。
論文 参考訳(メタデータ) (2024-03-24T02:45:34Z) - Retraining-free Model Quantization via One-Shot Weight-Coupling Learning [41.299675080384]
混合精度量子化(MPQ)は、層に不均一なビット幅を割り当てることで、モデルを効果的に圧縮することを提唱する。
MPQは典型的には、探索訓練された2段階のプロセスに編成される。
本稿では,混合精度モデル圧縮のためのワンショットトレーニング探索パラダイムを考案する。
論文 参考訳(メタデータ) (2024-01-03T05:26:57Z) - An Information Theory-inspired Strategy for Automatic Network Pruning [88.51235160841377]
深層畳み込みニューラルネットワークは、リソース制約のあるデバイスで圧縮されることがよく知られている。
既存のネットワークプルーニング手法の多くは、人的努力と禁忌な計算資源を必要とする。
本稿では,自動モデル圧縮のための情報理論に基づく戦略を提案する。
論文 参考訳(メタデータ) (2021-08-19T07:03:22Z) - An Efficient Statistical-based Gradient Compression Technique for
Distributed Training Systems [77.88178159830905]
Sparsity-Inducing Distribution-based Compression (SIDCo) は閾値に基づくスペーシフィケーションスキームであり、DGCと同等のしきい値推定品質を享受する。
SIDCoは,非圧縮ベースライン,Topk,DGC圧縮機と比較して,最大で41:7%,7:6%,1:9%の速度でトレーニングを高速化する。
論文 参考訳(メタデータ) (2021-01-26T13:06:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。