論文の概要: IntAttention: A Fully Integer Attention Pipeline for Efficient Edge Inference
- arxiv url: http://arxiv.org/abs/2511.21513v1
- Date: Wed, 26 Nov 2025 15:46:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:59.176376
- Title: IntAttention: A Fully Integer Attention Pipeline for Efficient Edge Inference
- Title(参考訳): IntAttention: 効率的なエッジ推論のための完全な整数アテンションパイプライン
- Authors: Wanli Zhong, Haibo Feng, Zirui Zhou, Hanyang Peng, Shiqi Yu,
- Abstract要約: IntAttentionは、最初の完全整数型、プラグイン・アンド・プレイアテンションパイプラインで、再トレーニングは行わない。
IntAttentionは、スペーサリティ対応クリッピング、32エントリルックアップテーブル近似、直接整数正規化を統合している。
提案手法は,ARMv8 CPU上の従来のINT8アテンションパイプラインよりも最大3.7倍,FP16ベースラインより61%のエネルギー削減を実現している。
- 参考スコア(独自算出の注目度): 11.526305104815357
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deploying Transformer models on edge devices is limited by latency and energy budgets. While INT8 quantization effectively accelerates the primary matrix multiplications, it exposes the softmax as the dominant bottleneck. This stage incurs a costly dequantize-softmax-requantize detour, which can account for up to 65% of total attention latency and disrupts the end-to-end integer dataflow critical for edge hardware efficiency. To address this limitation, we present IntAttention, the first fully integer, plug-and-play attention pipeline without retraining. At the core of our approach lies IndexSoftmax, a hardware-friendly operator that replaces floating-point exponentials entirely within the integer domain. IntAttention integrates sparsity-aware clipping, a 32-entry lookup-table approximation, and direct integer normalization, thereby eliminating all datatype conversion overhead. We evaluate IntAttention and demonstrate consistent and substantial gains. Our method achieves up to 3.7x speedup and 61% energy reduction over FP16 baselines and 2.0x faster than conventional INT8 attention pipelines on Armv8 CPUs. These gains are achieved with high-fidelity accuracy comparable to baselines across diverse language and vision models, enabling practical and efficient Transformer inference on commodity edge devices. Code will be released in later version of this work.
- Abstract(参考訳): エッジデバイスにTransformerモデルをデプロイするのは、レイテンシとエネルギー予算によって制限される。
INT8量子化は一次行列乗法を効果的に加速するが、ソフトマックスを支配的なボトルネックとして表す。
この段階では、コストのかかる dequantize-softmax-requantize detour が発生し、注意遅延の最大65%を占めることができ、エッジハードウェア効率に不可欠なエンドツーエンドの整数データフローを破壊できる。
この制限に対処するために,最初の完全整数型プラグアンドプレイアテンションパイプラインであるIntAttentionを提案する。
われわれのアプローチの中核はIndexSoftmaxであり、これはハードウェアフレンドリーな演算子で、整数領域内で浮動小数点指数を置き換える。
IntAttentionは、スペーサリティ対応クリッピング、32エントリルックアップテーブル近似、直接整数正規化を統合し、すべてのデータ型変換オーバーヘッドをなくす。
IntAttentionを評価し、一貫性と実質的な利益を示す。
提案手法は,ARMv8 CPU上の従来のINT8アテンションパイプラインよりも最大3.7倍,FP16ベースラインより61%のエネルギー削減を実現している。
これらのゲインは、多種多様な言語およびビジョンモデルにわたるベースラインに匹敵する高忠実さの精度で達成され、コモディティエッジデバイス上で実用的で効率的なトランスフォーマー推論を可能にする。
コードは、この作業の後のバージョンでリリースされる。
関連論文リスト
- INT v.s. FP: A Comprehensive Study of Fine-Grained Low-bit Quantization Formats [51.72056104795248]
NvidiaのBlackwellアーキテクチャのような現代のAIハードウェアは、低精度浮動小数点(FP)フォーマットをますます受け入れている。
本稿では,FPフォーマットと整数(INT)フォーマットのトレードオフを系統的に検討する。
FPは粗粒度量子化に優れるが、きめ細かい(ブロックワイド)レベルでの比較はよりニュアンスが高い。
論文 参考訳(メタデータ) (2025-10-29T15:11:53Z) - FLASH-D: FlashAttention with Hidden Softmax Division [3.668018928502405]
FlashAttentionはオンラインのソフトマックス計算に基づいており、ソフトマックス計算と行列演算を統合している。
この研究は、FLASH-Dを数学的に等価だが単純化した定式化として、 (a) ソフトマックス分割を他の非線形関数評価内に隠蔽し、 (b) 本質的に指数関数の数値的に安定な計算を行い、 (c) FlashAttentionカーネルに数値近似を導入することなく計算コストを削減した。
論文 参考訳(メタデータ) (2025-05-20T11:01:33Z) - Delta Attention: Fast and Accurate Sparse Attention Inference by Delta Correction [52.14200610448542]
変圧器は二次的な複雑さを持ち、長いシーケンスに対して高い推論コストとレイテンシをもたらす。
本稿では、この分布シフトを修正するためのシンプルで斬新で効果的な手順を提案する。
1Mトークンのプリフィル処理では,Flash Attention 2の32倍の速度で,約98.5%の間隔を維持することができる。
論文 参考訳(メタデータ) (2025-05-16T13:48:33Z) - VEXP: A Low-Cost RISC-V ISA Extension for Accelerated Softmax Computation in Transformers [13.984340807378457]
ソフトマックスの加速は、非ポイント、非線形の性質のために困難であり、指数が最も要求されるステップである。
シュラウドルフ法に基づく新しい近似アルゴリズムを用いて, Bfloat16指数の算術ブロックを設計する。
我々は162.7$times$低レイテンシと74.3$times$低エネルギーでSoftmaxを実行する。
論文 参考訳(メタデータ) (2025-04-15T14:28:48Z) - FFSplit: Split Feed-Forward Network For Optimizing Accuracy-Efficiency
Trade-off in Language Model Inference [57.119047493787185]
本稿では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56times$wall clock time speedupを無視できる精度低下で実現する方法を示す。
実際、本手法では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56Times$wall clock time speedupを無視できる精度で実現している。
論文 参考訳(メタデータ) (2024-01-08T17:29:16Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale [80.86029795281922]
トランスにおけるフィードフォワードおよびアテンションプロジェクション層に対するInt8行列乗算法を開発した。
175Bパラメータ16/32ビットのチェックポイントをロードし、Int8に変換し、直ちに使用することができる。
論文 参考訳(メタデータ) (2022-08-15T17:08:50Z) - I-ViT: Integer-only Quantization for Efficient Vision Transformer
Inference [3.067607520161916]
ビジョントランスフォーマー (ViT) は様々なコンピュータビジョンアプリケーションで最先端のパフォーマンスを実現している。
これらのモデルにはかなりのストレージと計算オーバーヘッドがあり、エッジデバイスへのデプロイメントと効率的な推論が困難である。
整数演算とビットシフトによる推論の計算グラフ全体の実行を可能にするために,ViTの整数のみの量子化方式であるI-ViTを提案する。
論文 参考訳(メタデータ) (2022-07-04T13:37:38Z) - I-BERT: Integer-only BERT Quantization [78.43819756382103]
トランスフォーマーモデルのための新しい量子化手法であるI-BERTを提案する。
I-BERTは浮動小数点演算なしでエンドツーエンドの整数のみのBERT推論を実行する。
いずれの場合も,I-BERTは全精度ベースラインと同等(かつ若干高い)精度が得られた。
論文 参考訳(メタデータ) (2021-01-05T02:42:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。