論文の概要: F-BFQ: Flexible Block Floating-Point Quantization Accelerator for LLMs
- arxiv url: http://arxiv.org/abs/2510.13401v1
- Date: Wed, 15 Oct 2025 10:56:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.630096
- Title: F-BFQ: Flexible Block Floating-Point Quantization Accelerator for LLMs
- Title(参考訳): F-BFQ:LLM用フレキシブルブロック浮動小数点量子化加速器
- Authors: Jude Haris, José Cano,
- Abstract要約: 大きな言語モデル(LLM)は日々のタスクでますます顕著になっている。
LLMはリソース制約のあるエッジデバイス上で実行できる。
LLMは通常、モデル層をまたいだ混合BFP量子化によって定量化される。
- 参考スコア(独自算出の注目度): 0.6302369456012739
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) have become increasingly prominent for daily tasks, from improving sound-totext translation to generating additional frames for the latest video games. With the help of LLM inference frameworks, such as llama.cpp, which support optimizations such as KV-caching and quantization, it is now easier than ever to deploy LLMs on edge devices. Quantization is fundamental to enable LLMs on resource-constrained edge devices, and llama.cpp utilizes block floating point (BFP) quantization to drastically reduce the bit width of weights and input tensors, the memory footprint, and the computational power required to run LLMs. LLMs are typically quantized with mixed BFP quantization across the model layers to reduce the loss of model accuracy due to quantization. Therefore, to efficiently accelerate across the layers of BFP-quantized LLMs, specialized accelerators need to support different BFP variants without reconfiguration. To address this issue, we propose a Flexible Block FloatingPoint Quantization (F-BFQ) accelerator, which can dynamically switch between two BFP quantization variants and perform matrix multiplication (MatMul) operations. Our initial F-BFQ accelerator design, deployed on the AMD Kria board, reduces inference time by 1.4x on average over the Arm NEON-based CPU execution across three BFP quantized LLMs while achieving 5.2 tokens per second (~3.9 words per second).
- Abstract(参考訳): 大きな言語モデル(LLM)は、音声テキスト翻訳の改善から最新のビデオゲームのための追加フレームの生成に至るまで、日々のタスクにおいてますます顕著になっている。
KVキャッシュや量子化などの最適化をサポートするllama.cppのようなLLM推論フレームワークの助けにより、エッジデバイスにLLMをデプロイするのはこれまで以上に簡単になった。
リソース制約のあるエッジデバイス上でLLMを有効にするためには量子化が基本であり、llama.cppはブロック浮動小数点(BFP)量子化を利用して重みと入力テンソルのビット幅、メモリフットプリント、LLMの実行に必要な計算能力を大幅に削減する。
LLMは典型的には、量子化によるモデルの精度の損失を減らすために、モデル層をまたいだ混合BFP量子化で定量化される。
したがって、BFP量子化LDMの層間を効率的に加速するためには、異なるBFP変種を再構成せずにサポートする必要がある。
この問題に対処するために,2つのBFP量子化変種を動的に切り替え,行列乗算(MatMul)演算を行うフレキシブルブロック浮動小数点量子化(F-BFQ)アクセラレータを提案する。
AMD Kriaボード上にデプロイされた最初のF-BFQアクセラレータ設計では、3つのBFP量子化LLMに対して平均1.4倍の推論時間を削減し、毎秒5.2トークン(約3.9ワード)を実現した。
関連論文リスト
- Designing Efficient LLM Accelerators for Edge Devices [1.4128048241287314]
大きな言語モデル(LLM)は、リソース制約のあるエッジデバイスにデプロイすることで、ネットワーク接続への依存を低減し、よりプライバシーを提供する。
この問題に対処するため、LLM推論のための新しい効率的なエッジアクセラレータを設計することが重要である。
本稿では,効率的なFPGAベースのLCMアクセラレータの設計,統合,展開プロセスの合理化にSECDA手法を用いるSECDA-LLMを提案する。
論文 参考訳(メタデータ) (2024-08-01T11:06:05Z) - Fast Matrix Multiplications for Lookup Table-Quantized LLMs [58.11584672945781]
FLUTEはLUT量子化LLM用のフレキシブルなルックアップテーブルエンジンである。
バッチサイズ32と量子化グループサイズ128では、FLUTEカーネルは既存のGEMMカーネルよりも2〜4倍高速である。
論文 参考訳(メタデータ) (2024-07-15T17:55:42Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [63.118592279833656]
後学習量子化(PTQ)は,大規模言語モデル(LLM)の圧縮に有効な手法である
本稿では,SliM-LLMを提案する。SliM-LLMは,グループ単位でビット幅を割り当てるサリエンス駆動の混合精度量子化フレームワークである。
実験により、SliM-LLMは低ビット幅の様々なLLMにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。