論文の概要: LAPA: Log-Domain Prediction-Driven Dynamic Sparsity Accelerator for Transformer Model
- arxiv url: http://arxiv.org/abs/2512.07855v1
- Date: Wed, 26 Nov 2025 07:24:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 04:16:52.519483
- Title: LAPA: Log-Domain Prediction-Driven Dynamic Sparsity Accelerator for Transformer Model
- Title(参考訳): LAPA: 変圧器モデルのためのログドメイン予測駆動動的スパーシティ加速器
- Authors: Huizheng Wang, Hongbin Wang, Shaojun Wei, Yang Hu, Shouyi Yin,
- Abstract要約: 本稿では,LAPAという対数領域の注意予測アルゴリズム-アーキテクチャ共設計を提案する。
その結果, LAPAのエネルギー効率は, Spatten, Sanger, FACTの3.52倍, 3.24倍, 2.79倍に向上した。
- 参考スコア(独自算出の注目度): 14.53308613746613
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attention-based Transformers have revolutionized natural language processing (NLP) and shown strong performance in computer vision (CV) tasks. However, as the input sequence varies, the computational bottlenecks in Transformer models exhibit dynamic behavior across stages, which calls for a cross-stage sparse acceleration strategy. Unfortunately, most existing sparse Transformer approaches are single-stage based, and their sparsity prediction mechanisms lead to significant power overhead when applied across multiple stages. To this end, this paper proposes a log-domain attention prediction algorithm-architecture co-design, named LAPA. First, an asymmetric leading one computing (ALOC) scheme is designed to eliminate expensive multiplications. Next, a mixed-precision multi-round shifting accumulation (MRSA) mechanism is further proposed to mitigate the accumulation overhead. A data-feature dependent filter (DDF) strategy is designed to work in concert with the MRSA process. Finally, an elaborate accelerator is designed to translate the theoretical enhancement into practical hardware improvement. Experimental results show that LAPA achieves 3.52x, 3.24x and 2.79x higher energy efficiency than the state-of-the-art (SOTA) works Spatten, Sanger and FACT, respectively.
- Abstract(参考訳): アテンションベースのトランスフォーマーは自然言語処理(NLP)に革命をもたらし、コンピュータビジョン(CV)タスクで強いパフォーマンスを示した。
しかし、入力シーケンスが変化するにつれて、Transformerモデルの計算ボトルネックはステージ間の動的挙動を示す。
残念ながら、ほとんどの既存のスパーストランスフォーマーアプローチはシングルステージベースであり、そのスパース性予測機構は複数のステージにまたがって適用した場合にかなりの電力オーバーヘッドをもたらす。
そこで本稿では,LAPA という対数領域の注意予測アルゴリズム-アーキテクチャ共設計を提案する。
まず、コストのかかる乗算をなくすために、非対称リードワン・コンピューティング(ALOC)方式を設計する。
次に、蓄積オーバーヘッドを軽減するため、MRSA(Mix-precision Multi-round shifting accumulation)機構を提案する。
データ機能依存フィルタ(DDF)戦略はMRSAプロセスと協調して動作するように設計されている。
最後に、理論的拡張を実用的なハードウェア改善に変換するために、精巧な加速器が設計されている。
実験の結果, LAPAのエネルギー効率は, Spatten, Sanger, FACTの3.52倍, 3.24倍, 2.79倍であった。
関連論文リスト
- BitStopper: An Efficient Transformer Attention Accelerator via Stage-fusion and Early Termination [14.53308613746613]
BitStopperは、粒度の細かいアルゴリズムアーキテクチャの共設計で、スパーシティ予測器を使わずに動作する。
サンガーとSOFAの2.03倍と1.89倍のスピードアップを実現し、エネルギー効率は2.4倍と2.1倍向上した。
論文 参考訳(メタデータ) (2025-12-06T14:44:38Z) - Optimality and NP-Hardness of Transformers in Learning Markovian Dynamical Functions [32.71332125930795]
トランスフォーマーアーキテクチャは、インコンテキスト学習(ICL)による所定のプロンプトにおける入出力ペアに基づいて、目に見えないタスクを解決できる
マルコフ関数学習の基盤となる最適化動作を明らかにするため,構造化ICL設定によるマルコフ関数学習について検討する。
論文 参考訳(メタデータ) (2025-10-21T13:42:48Z) - To Theoretically Understand Transformer-Based In-Context Learning for Optimizing CSMA [26.87533852488578]
バイナリ指数バックオフ方式はWiFi 7で広く使われているが、動的チャネル環境下ではスループットが低下している。
最近のモデルベースアプローチは、既知のノード密度と固定されたノード密度の下でのバックオフ戦略を単純に最適化する。
本稿では、チャネルアクセスを最適化するためのトランスフォーマーベースのインコンテキスト学習(ICL)理論を初めて提案する。
論文 参考訳(メタデータ) (2025-07-31T23:31:23Z) - GENIAL: Generative Design Space Exploration via Network Inversion for Low Power Algorithmic Logic Units [4.148469311862123]
本稿では,算術単位の自動生成と最適化のための機械学習ベースのフレームワークを提案する。
ジェネリックの中核はトランスフォーマーベースのサロゲートモデルであり、2つの段階で訓練されている。
大規模なデータセットの実験では、ジェネリックは他の方法よりも一貫してサンプリング効率が高いことが示されている。
論文 参考訳(メタデータ) (2025-07-25T06:34:59Z) - BHViT: Binarized Hybrid Vision Transformer [53.38894971164072]
モデルバイナライゼーションは畳み込みニューラルネットワーク(CNN)のリアルタイムおよびエネルギー効率の計算を可能にした。
本稿では,バイナライズフレンドリーなハイブリッドViTアーキテクチャであるBHViTとそのバイナライズモデルを提案する。
提案アルゴリズムは,バイナリ ViT 手法間でSOTA 性能を実現する。
論文 参考訳(メタデータ) (2025-03-04T08:35:01Z) - Full Stack Optimization of Transformer Inference: a Survey [58.55475772110702]
トランスフォーマーモデルは広範囲のアプリケーションにまたがって優れた精度を実現する。
最近のTransformerモデルの推測に必要な計算量と帯域幅は、かなり増加しています。
Transformerモデルをより効率的にすることに注力している。
論文 参考訳(メタデータ) (2023-02-27T18:18:13Z) - Paraformer: Fast and Accurate Parallel Transformer for
Non-autoregressive End-to-End Speech Recognition [62.83832841523525]
そこで我々はParaformerと呼ばれる高速かつ高精度な並列トランスを提案する。
出力トークンの数を正確に予測し、隠れた変数を抽出する。
10倍以上のスピードアップで、最先端のARトランスフォーマーに匹敵するパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2022-06-16T17:24:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。