論文の概要: PQuantML: A Tool for End-to-End Hardware-aware Model Compression
- arxiv url: http://arxiv.org/abs/2603.26595v1
- Date: Fri, 27 Mar 2026 16:54:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.604939
- Title: PQuantML: A Tool for End-to-End Hardware-aware Model Compression
- Title(参考訳): PQuantML: エンド・ツー・エンドのハードウェア・アウェア・モデル圧縮ツール
- Authors: Roope Niemi, Anastasiia Petrovych, Arghya Ranjan Das, Enrico Lupi, Chang Sun, Dimitrios Danopoulos, Marlon Joshua Helbing, Mia Liu, Sebastian Dittmeier, Michael Kagan, Vladimir Loncar, Maurizio Pierini,
- Abstract要約: PQuantMLは、エンドツーエンド環境に適したハードウェア対応ニューラルネットワークモデル圧縮ライブラリである。
このライブラリは、異なる粒度を持つ複数のプルーニング法と、高グラニュラリティ量子化をサポートする固定点量子化を実装している。
- 参考スコア(独自算出の注目度): 4.411331461983092
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: PQuantML is a new open-source, hardware-aware neural network model compression library tailored to end-to-end workflows. Motivated by the need to deploy performant models to environments with strict latency constraints, PQuantML simplifies training of compressed models by providing a unified interface to apply pruning and quantization, either jointly or individually. The library implements multiple pruning methods with different granularities, as well as fixed-point quantization with support for High-Granularity Quantization. We evaluate PQuantML on representative tasks such as the jet substructure classification, so-called jet tagging, an on-edge problem related to real-time LHC data processing. Using various pruning methods with fixed-point quantization, PQuantML achieves substantial parameter and bit-width reductions while maintaining accuracy. The resulting compression is further compared against existing tools, such as QKeras and HGQ.
- Abstract(参考訳): PQuantMLは、エンドツーエンドワークフローに適した、ハードウェア対応の新しいオープンソースニューラルネットワークモデル圧縮ライブラリである。
PQuantMLは、厳密なレイテンシの制約のある環境にパフォーマンスモデルをデプロイする必要があるため、プルーニングと量子化を適用する統一インターフェースを提供することで、圧縮されたモデルのトレーニングを単純化する。
このライブラリは、異なる粒度を持つ複数のプルーニング法と、高グラニュラリティ量子化をサポートする固定点量子化を実装している。
我々はPQuantMLを,ジェットサブストラクチャ分類,いわゆるジェットタグ付け,リアルタイムLHCデータ処理に関する最先端問題などの代表的タスクで評価する。
固定点量子化を用いた様々なプルーニング手法を用いて、PQuantMLは精度を維持しつつ、かなりのパラメータとビット幅の削減を実現する。
結果の圧縮は、QKerasやHGQといった既存のツールと比較される。
関連論文リスト
- Learning Grouped Lattice Vector Quantizers for Low-Bit LLM Compression [57.54335545892155]
本稿では,各重みの群に独自の格子コードブックを割り当てるGLVQ(Grouped Lattice Vector Quantization)フレームワークを紹介する。
提案手法は,既存のトレーニング後の量子化ベースラインと比較して,モデルサイズと精度のトレードオフが良好である。
論文 参考訳(メタデータ) (2025-10-23T20:19:48Z) - Mixed-Precision Quantization for Language Models: Techniques and Prospects [10.345914140081925]
量子化は、モデルサイズを減らし、メモリボトルネックを緩和し、推論を加速する重要な圧縮技術として登場した。
混合精度量子化は、効率と精度のバランスをとるために、層またはテンソル内で精度を選択的に割り振ることで、有望な代替手段を提供する。
論文 参考訳(メタデータ) (2025-10-19T12:16:40Z) - Flexible Mixed Precision Quantization for Learned Image Compression [4.847449762378203]
本稿では、異なるビット幅を量子化されたネットワークの異なる層に割り当てるフレキシブル混合精密量子化法(FMPQ)を提案する。
また、量子化ビット幅の所望分布を探索する際の時間複雑度を低減する適応探索アルゴリズムを導入する。
論文 参考訳(メタデータ) (2025-06-02T00:12:50Z) - QSpec: Speculative Decoding with Complementary Quantization Schemes [53.960146187821685]
大規模言語モデル(LLM)における推論の高速化とメモリ消費削減のために量子化が広く採用されている
品質から効率を分離する新しい量子化パラダイムであるQSpecを提案する。
QSpecは重みとKVキャッシュの両方を段階的に再利用し、再トレーニングや補助モデルなしでほぼゼロコストで切り替えることができる。
論文 参考訳(メタデータ) (2024-10-15T05:57:51Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [63.118592279833656]
後学習量子化(PTQ)は,大規模言語モデル(LLM)の圧縮に有効な手法である
本稿では,SliM-LLMを提案する。SliM-LLMは,グループ単位でビット幅を割り当てるサリエンス駆動の混合精度量子化フレームワークである。
実験により、SliM-LLMは低ビット幅の様々なLLMにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z) - Memory-Efficient Fine-Tuning of Compressed Large Language Models via
sub-4-bit Integer Quantization [27.79783067245817]
大規模言語モデル(LLM)は、高いメモリ要求と計算コストのため、微調整とデプロイメントの課題に直面している。
本稿では,PEFT と量子化 LLM の利点を組み合わせた簡易かつ効果的な手法である PEQA (Efficient Adaptation and Quantization-aware) を提案する。
論文 参考訳(メタデータ) (2023-05-23T15:20:01Z) - Automatic Mixed-Precision Quantization Search of BERT [62.65905462141319]
BERTのような事前訓練された言語モデルは、様々な自然言語処理タスクにおいて顕著な効果を示している。
これらのモデルは通常、数百万のパラメータを含んでおり、リソースに制約のあるデバイスへの実践的なデプロイを妨げている。
本稿では,サブグループレベルでの量子化とプルーニングを同時に行うことができるBERT用に設計された混合精密量子化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-30T06:32:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。