論文の概要: LUT-KAN: Segment-wise LUT Quantization for Fast KAN Inference
- arxiv url: http://arxiv.org/abs/2601.03332v1
- Date: Tue, 06 Jan 2026 18:00:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:22.976004
- Title: LUT-KAN: Segment-wise LUT Quantization for Fast KAN Inference
- Title(参考訳): LUT-KAN:高速化のためのセグメントワイドLUT量子化
- Authors: Oleksandr Kuznetsov,
- Abstract要約: 本稿では,PyKanスタイルのkan層に対するLUTコンパイルおよび量子化手法であるLUT-KANを紹介する。
LUT-KANは、各エッジ関数をアフィンInt8/uint8量子化および線形化したセグメントごとのLUTに変換する。
複数の種にまたがる平均および標準偏差による精度,速度,メモリ計測値について報告する。
- 参考スコア(独自算出の注目度): 20.271194684947282
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Kolmogorov--Arnold Networks (KAN) replace scalar weights by learnable univariate functions, often implemented with B-splines. This design can be accurate and interpretable, but it makes inference expensive on CPU because each layer requires many spline evaluations. Standard quantization toolchains are also hard to apply because the main computation is not a matrix multiply but repeated spline basis evaluation. This paper introduces LUT-KAN, a segment-wise lookup-table (LUT) compilation and quantization method for PyKAN-style KAN layers. LUT-KAN converts each edge function into a per-segment LUT with affine int8/uint8 quantization and linear interpolation. The method provides an explicit and reproducible inference contract, including boundary conventions and out-of-bounds (OOB) policies. We propose an ``honest baseline'' methodology for speed evaluation: B-spline evaluation and LUT evaluation are compared under the same backend optimization (NumPy vs NumPy and Numba vs Numba), which separates representation gains from vectorization and JIT effects. Experiments include controlled sweeps over LUT resolution L in 16, 32, 64, 128 and two quantization schemes (symmetric int8 and asymmetric uint8). We report accuracy, speed, and memory metrics with mean and standard deviation across multiple seeds. A two-by-two OOB robustness matrix evaluates behavior under different boundary modes and OOB policies. In a case study, we compile a trained KAN model for DoS attack detection (CICIDS2017 pipeline) into LUT artifacts. The compiled model preserves classification quality (F1 drop below 0.0002) while reducing steady-state CPU inference latency by 12x under NumPy and 10x under Numba backends (honest baseline). The memory overhead is approximately 10x at L=64. All code and artifacts are publicly available with fixed release tags for reproducibility.
- Abstract(参考訳): Kolmogorov--Arnold Networks (KAN) は学習可能な単変数関数によってスカラーウェイトを置き換える。
この設計は正確で解釈可能であるが、各層が多くのスプライン評価を必要とするため、CPU上での推論が高価になる。
標準量子化ツールチェーンは、主計算が行列乗算ではなく、繰り返しスプライン基底評価であるため、適用も困難である。
本稿では,PyKanスタイルのkan層に対するLUTコンパイルおよび量子化手法であるLUT-KANを紹介する。
LUT-KAN は各エッジ関数をアフィン int8/uint8 量子化と線形補間によりセグメントごとの LUT に変換する。
この方法は、境界規則やアウト・オブ・バウンド(OOB)ポリシーを含む明示的で再現可能な推論契約を提供する。
B-spline 評価と LUT 評価は同じバックエンド最適化(NumPy 対 NumPy と Numba 対 Numba 対 Numba )で比較し、ベクトル化と JIT 効果から表現ゲインを分離する。
実験には、16, 32, 64, 18 の LUT 分解能 L と 2 つの量子化スキーム (対称 int8 と非対称 uint8 ) の制御スイープが含まれる。
複数の種にまたがる平均および標準偏差による精度,速度,メモリ計測値について報告する。
2対2のOOBロバスト性行列は、異なる境界モードとOOBポリシーの下での挙動を評価する。
ケーススタディでは、DoSアタック検出(CICIDS2017パイプライン)のための訓練済みkanモデルをLUTアーティファクトにコンパイルする。
コンパイルされたモデルでは、分類品質(F1は0.0002以下)を保ちながら、NumPyでは12倍、Numbaバックエンドでは10倍のレイテンシを低減している。
メモリオーバーヘッドはL=64で約10倍になる。
すべてのコードとアーティファクトは、再現性のために固定されたリリースタグで公開されています。
関連論文リスト
- Vec-LUT: Vector Table Lookup for Parallel Ultra-Low-Bit LLM Inference on Edge Devices [13.483546044414581]
大規模言語モデル(LLM)はますますエッジデバイスにデプロイされている。
LUTベースの推論は、並列推論中にメモリ帯域幅を弱める。
Vec-LUTはベースラインを最大4.2倍に上回る。
論文 参考訳(メタデータ) (2025-12-06T14:14:01Z) - PolyKAN: Efficient Fused GPU Operators for Polynomial Kolmogorov-Arnold Network Variants [10.239332579225522]
Kolmogorov-Arnold Networks (KAN) はマルチレイヤ・パーセプトロンよりも高い表現能力と高い解釈性を約束している。
我々は,kanとその変種の最初のオープンソース実装であるPolyKANというGPUアクセラレーション演算子ライブラリを提案する。
論文 参考訳(メタデータ) (2025-11-18T19:05:16Z) - Learning Grouped Lattice Vector Quantizers for Low-Bit LLM Compression [57.54335545892155]
本稿では,各重みの群に独自の格子コードブックを割り当てるGLVQ(Grouped Lattice Vector Quantization)フレームワークを紹介する。
提案手法は,既存のトレーニング後の量子化ベースラインと比較して,モデルサイズと精度のトレードオフが良好である。
論文 参考訳(メタデータ) (2025-10-23T20:19:48Z) - LUT-DLA: Lookup Table as Efficient Extreme Low-Bit Deep Learning Accelerator [11.167930856636161]
本稿では、ベクトル量子化を利用してニューラルネットワークモデルをLUTに変換するLUT-DLA(Look-Up Table (LUT) Deep Learning Accelerator Framework)を紹介する。
LUT-DLAは、それぞれ$1.4$$7.0times$と$1.5$$$146.1times$で、電力効率と面積効率の改善を実現していることを示す。
論文 参考訳(メタデータ) (2025-01-18T05:27:25Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [63.118592279833656]
後学習量子化(PTQ)は,大規模言語モデル(LLM)の圧縮に有効な手法である
本稿では,SliM-LLMを提案する。SliM-LLMは,グループ単位でビット幅を割り当てるサリエンス駆動の混合精度量子化フレームワークである。
実験により、SliM-LLMは低ビット幅の様々なLLMにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - Quick Adaptive Ternary Segmentation: An Efficient Decoding Procedure For Hidden Markov Models [41.99844472131922]
ノイズ観測から元の信号を復号することは、ほぼすべてのHMMデータ解析における主要な目標の1つである。
QATS, QATS, QATS, QATS, QATS, QATS, QATS, QATS, QATS, QATS, QATS, QATSについて述べる。
QATSの実装はGitHubのRパッケージQATSにある。
論文 参考訳(メタデータ) (2023-05-29T19:37:48Z) - Tensor Slicing and Optimization for Multicore NPUs [2.670309629218727]
本稿では,Slicing Optimization (TSO) と呼ばれるマルチコアNPUに対するコンパイラ最適化パスを提案する。
TSOは、一連のCNNモデルの実行時間を最小化する最高のテンソルスライシングを特定する。
その結果、TSOは一連のCNNモデルの実行時間を最小化する最適なテンソルスライシングを識別できることがわかった。
論文 参考訳(メタデータ) (2023-04-06T12:03:03Z) - Improved techniques for deterministic l2 robustness [63.34032156196848]
畳み込みニューラルネットワーク(CNN)を$l_2$ノルムの下で厳密な1-Lipschitz制約で訓練することは、対向的堅牢性、解釈可能な勾配、安定した訓練に有用である。
我々は,最後の線形層を1重層に置き換えることで,1-Lipschitz CNNのロバスト性を証明する手法を提案する。
我々は,CIFAR-10およびCIFAR-100における標準および証明可能な堅牢な精度の最先端化を図る。
論文 参考訳(メタデータ) (2022-11-15T19:10:12Z) - 8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。
この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。
本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文 参考訳(メタデータ) (2021-10-06T15:43:20Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。