論文の概要: KANtize: Exploring Low-bit Quantization of Kolmogorov-Arnold Networks for Efficient Inference
- arxiv url: http://arxiv.org/abs/2603.17230v1
- Date: Wed, 18 Mar 2026 00:32:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.455207
- Title: KANtize: Exploring Low-bit Quantization of Kolmogorov-Arnold Networks for Efficient Inference
- Title(参考訳): Kantize:効率的な推論のためのKolmogorov-Arnoldネットワークの低ビット量子化探索
- Authors: Sohaib Errabii, Olivier Sentieys, Marcello Traiola,
- Abstract要約: Kolmogorov-Arnold Networks (KANs) は、MLP(Multi-Layer Perceptrons)を上回る可能性について注目されている。
本研究では,低ビット量子化がkanに与える影響と,計算複雑性とハードウェア効率に与える影響について検討する。
- 参考スコア(独自算出の注目度): 1.5102260054654923
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Kolmogorov-Arnold Networks (KANs) have gained attention for their potential to outperform Multi-Layer Perceptrons (MLPs) in terms of parameter efficiency and interpretability. Unlike traditional MLPs, KANs use learnable non-linear activation functions, typically spline functions, expressed as linear combinations of basis splines (B-splines). B-spline coefficients serve as the model's learnable parameters. However, evaluating these spline functions increases computational complexity during inference. Conventional quantization reduces this complexity by lowering the numerical precision of parameters and activations. However, the impact of quantization on KANs, and especially its effectiveness in reducing computational complexity, is largely unexplored, particularly for quantization levels below 8 bits. The study investigates the impact of low-bit quantization on KANs and its impact on computational complexity and hardware efficiency. Results show that B-splines can be quantized to 2-3 bits with negligible loss in accuracy, significantly reducing computational complexity. Hence, we investigate the potential of using low-bit quantized precomputed tables as a replacement for the recursive B-spline algorithm. This approach aims to further reduce the computational complexity of KANs and enhance hardware efficiency while maintaining accuracy. For example, ResKAN18 achieves a 50x reduction in BitOps without loss of accuracy using low-bit-quantized B-spline tables. Additionally, precomputed 8-bit lookup tables improve GPU inference speedup by up to 2.9x, while on FPGA-based systolic-array accelerators, reducing B-spline table precision from 8 to 3 bits cuts resource usage by 36%, increases clock frequency by 50%, and enhances speedup by 1.24x. On a 28nm FD-SOI ASIC, reducing the B-spline bit-width from 16 to 3 bits achieves 72% area reduction and 50% higher maximum frequency.
- Abstract(参考訳): Kolmogorov-Arnold Networks (KANs) は、パラメータ効率と解釈可能性の観点から、MLP(Multi-Layer Perceptrons)を上回る可能性を注目されている。
従来のMLPとは異なり、カンは学習可能な非線形アクティベーション関数(通常はスプライン関数)を使用し、ベーススプライン(B-スプライン)の線形結合として表される。
B-スプライン係数はモデルの学習可能なパラメータとして機能する。
しかし、これらのスプライン関数の評価は、推論中の計算複雑性を増大させる。
従来の量子化は、パラメータとアクティベーションの数値的精度を下げることで、この複雑さを減少させる。
しかし、量子化の影響、特に計算複雑性の低減における有効性は、特に8ビット未満の量子化レベルでは、ほとんど解明されていない。
本研究では,低ビット量子化がkanに与える影響と,計算複雑性とハードウェア効率に与える影響について検討した。
その結果,B-スプラインの量子化は2~3ビットに抑えられ,計算複雑性を著しく低減できることがわかった。
そこで, 再帰的B-スプラインアルゴリズムの代替として, 低ビット量子化事前計算テーブルを用いる可能性を検討する。
このアプローチは、kanの計算複雑性をさらに減らし、精度を維持しながらハードウェア効率を向上させることを目的としている。
例えば、ResKAN18はビットOpsの50倍の精度を低ビット量子化Bスプラインテーブルで達成している。
さらに、プリ計算された8ビットルックアップテーブルはGPU推論のスピードアップを最大2.9倍改善し、FPGAベースのシストリックアレイアクセラレーターでは、Bスプラインテーブルの精度を8ビットから3ビットに削減し、リソース使用量を36%削減し、クロック周波数を50%増加させ、1.24倍高速化する。
28nmのFD-SOI ASICでは、Bスプラインのビット幅を16ビットから3ビットに減らし、面積を72%減らし、最大周波数を50%高める。
関連論文リスト
- BPDQ: Bit-Plane Decomposition Quantization on a Variable Grid for Large Language Models [56.504879072674015]
本稿では,ビットプレーンとスカラー係数による可変量子化グリッドを構成するビットプレーン分解量子化(BPDQ)を提案する。
BPDQは、1つのGTX 3090上でQwen2.5-72Bを83.85%のGSM8Kの精度で提供できる(ただし16ビットでは90.83%)。
論文 参考訳(メタデータ) (2026-02-04T02:54:37Z) - MSQ: Memory-Efficient Bit Sparsification Quantization [11.510434574824213]
混合精度量子化は効率と精度のバランスが優れているため、広く好まれる。
メモリ効率の良いビットスカラー化量子化(MSQ)を提案する。
MSQは、トレーニング可能なパラメータの最大8.00倍の削減、トレーニング時間の最大86%の削減を実現している。
論文 参考訳(メタデータ) (2025-07-30T03:21:29Z) - Pushing the Limits of Low-Bit Optimizers: A Focus on EMA Dynamics [64.62231094774211]
ステートフル(例えばアダム)は、最適収束を達成するために、モデルサイズを2倍も補助情報を維持する。
SOLOにより、アダムスタイルは3ビットまたは2ビットの精度で量子化された状態を維持することができる。
したがって、SOLOはAdamスタイルにシームレスに適用でき、精度の低下を最小限に抑えることができる。
論文 参考訳(メタデータ) (2025-05-01T06:47:45Z) - DB-LLM: Accurate Dual-Binarization for Efficient LLMs [83.70686728471547]
大規模言語モデル(LLM)は自然言語処理の分野を著しく進歩させてきた。
既存の超低ビット量子化は、常に深刻な精度低下を引き起こす。
本稿では,LLM,すなわちDB-LLMのための新しいデュアルバイナライズ手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T09:04:30Z) - Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z) - VS-Quant: Per-vector Scaled Quantization for Accurate Low-Precision
Neural Network Inference [7.886868529510128]
量子化は、訓練されたモデルの浮動小数点重みとアクティベーションをスケールファクターを用いて低ビット幅整数値にマッピングする。
過剰な量子化、過度に精度を低下させると、精度が低下する。
ベクトル単位のスケールファクタは、2レベル量子化スキームを使用する場合、低ビット幅の整数で実装できる。
論文 参考訳(メタデータ) (2021-02-08T19:56:04Z) - PAMS: Quantized Super-Resolution via Parameterized Max Scale [84.55675222525608]
深部畳み込みニューラルネットワーク(DCNN)は超解像処理(SR)において優位な性能を示した
本稿では,PAMS(Parameterized Max Scale)と呼ばれる新しい量子化手法を提案する。
実験により,提案手法はEDSRやRDNなどの既存のSRモデルを適切に圧縮・高速化できることが示された。
論文 参考訳(メタデータ) (2020-11-09T06:16:05Z) - WrapNet: Neural Net Inference with Ultra-Low-Resolution Arithmetic [57.07483440807549]
ニューラルネットワークをアキュムレータの低分解能(8ビット)加算に適応させ,32ビットのアキュムレータに匹敵する分類精度を実現する手法を提案する。
ソフトウェアプラットフォームとハードウェアプラットフォームの両方において、我々のアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2020-07-26T23:18:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。