論文の概要: Pimba: A Processing-in-Memory Acceleration for Post-Transformer Large Language Model Serving
- arxiv url: http://arxiv.org/abs/2507.10178v1
- Date: Mon, 14 Jul 2025 11:40:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:24.772036
- Title: Pimba: A Processing-in-Memory Acceleration for Post-Transformer Large Language Model Serving
- Title(参考訳): Pimba: トランスフォーマー後の大規模言語モデルの実行のための処理インメモリ高速化
- Authors: Wonung Kim, Yubin Lee, Yoonsung Kim, Jinwoo Hwang, Seongryong Oh, Jiyong Jung, Aziz Huseynov, Woong Gyu Park, Chang Hyun Park, Divya Mahajan, Jongse Park,
- Abstract要約: トランスフォーマーは、今日のLarge Language Models(LLM)の原動力であり、そのパフォーマンスと汎用性の基盤となっている。
これに対し、アルゴリズムコミュニティはステートスペースモデル(SSM)、線形アテンション、リカレントニューラルネットワーク(RNN)などの代替アーキテクチャを模索している。
本稿では,変圧器と変圧器後LLMの両方を統一的な枠組みで効率的にサポートするサービスシステムを提案する。
LLM最適化GPUとGPU+PIMシステムと比較して、Pimbaは最大3.2倍および2.1倍高いトークン生成スループットを達成する。
- 参考スコア(独自算出の注目度): 1.9508863993381267
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers are the driving force behind today's Large Language Models (LLMs), serving as the foundation for their performance and versatility. Yet, their compute and memory costs grow with sequence length, posing scalability challenges for long-context inferencing. In response, the algorithm community is exploring alternative architectures, such as state space models (SSMs), linear attention, and recurrent neural networks (RNNs), which we refer to as post-transformers. This shift presents a key challenge: building a serving system that efficiently supports both transformer and post-transformer LLMs within a unified framework. To address this challenge, we analyze the performance characteristics of transformer and post-transformer LLMs. Despite their algorithmic differences, both are fundamentally limited by memory bandwidth under batched inference due to attention in transformers and state updates in post-transformers. Further analyses suggest two additional insights: (1) state update operations, unlike attention, incur high hardware cost, making per-bank PIM acceleration inefficient, and (2) different low-precision arithmetic methods offer varying accuracy-area tradeoffs, while we identify Microsoft's MX as the Pareto-optimal choice. Building on these insights, we design Pimba as an array of State-update Processing Units (SPUs), each shared between two banks to enable interleaved access to PIM. Each SPU includes a State-update Processing Engine (SPE) that comprises element-wise multipliers and adders using MX-based quantized arithmetic, enabling efficient execution of state update and attention operations. Our evaluation shows that, compared to LLM-optimized GPU and GPU+PIM systems, Pimba achieves up to 3.2x and 2.1x higher token generation throughput, respectively.
- Abstract(参考訳): トランスフォーマーは、今日のLarge Language Models(LLM)の原動力であり、そのパフォーマンスと汎用性の基盤となっている。
しかし、その計算とメモリのコストはシーケンス長とともに増加し、長いコンテキストの推論にスケーラビリティの課題が生じる。
これに対し、アルゴリズムコミュニティは、状態空間モデル(SSM)、線形アテンション、リカレントニューラルネットワーク(RNN)などの代替アーキテクチャを探求している。
統一されたフレームワーク内でトランスフォーマーとポストトランスフォーマーの両方を効率的にサポートするサービスシステムを構築すること。
この課題に対処するため,変圧器および後変圧器LLMの性能特性を解析した。
アルゴリズム上の違いにもかかわらず、両者は基本的に、バッチ推論の下でのメモリ帯域幅によって、トランスフォーマーの注意とポストトランスフォーマーの状態更新によって制限されている。
さらなる分析では,1) 状態更新操作は注目とは違って高いハードウェアコストを発生させ,銀行ごとのPIM加速を非効率にすること,2) 異なる低精度算術法は,精度と領域のトレードオフを異なるものにすること,そしてMicrosoft の MX をパレート最適選択として認識すること,の2つが示唆されている。
これらの知見に基づいて、Pimbaを状態更新処理ユニット(SPU)の配列として設計し、2つの銀行間で共有し、PIMへのインターリーブアクセスを可能にする。
各SPUは、要素ワイド乗算器とMXベースの量子化演算を用いた加算器からなる状態更新処理エンジン(SPE)を含み、状態更新と注意操作の効率的な実行を可能にする。
LLM最適化GPUとGPU+PIMシステムと比較して、Pimbaは最大3.2倍、トークン生成スループットは2.1倍である。
関連論文リスト
- TransMamba: Flexibly Switching between Transformer and Mamba [43.20757187382281]
本稿ではTransformerとMambaを統合するフレームワークであるTransMambaを提案する。
本研究では,TransMambaがベースラインよりも優れたトレーニング効率と性能を実現することを示す。
論文 参考訳(メタデータ) (2025-03-31T13:26:24Z) - Sliding Window Attention Training for Efficient Large Language Models [55.56483740523027]
SWATを導入し,スライディングウインドウ・アテンション・トレーニング(Sliding Window Attention Training)を用いて,より効率的な長文処理を実現する。
本稿ではまず,変圧器の非効率性を注目シンク現象とみなす。
我々は、ソフトマックスをシグモイド関数に置き換え、効率的な情報圧縮と保持のためにバランスの取れたALiBiとRotary Position Embeddingを利用する。
論文 参考訳(メタデータ) (2025-02-26T05:31:44Z) - PointMT: Efficient Point Cloud Analysis with Hybrid MLP-Transformer Architecture [46.266960248570086]
本研究は,効率的な特徴集約のための複雑局所的注意機構を導入することで,自己注意機構の二次的複雑さに取り組む。
また,各チャネルの注目重量分布を適応的に調整するパラメータフリーチャネル温度適応機構を導入する。
我々は,PointMTが性能と精度の最適なバランスを維持しつつ,最先端手法に匹敵する性能を実現することを示す。
論文 参考訳(メタデータ) (2024-08-10T10:16:03Z) - Mamba: Linear-Time Sequence Modeling with Selective State Spaces [31.985243136674146]
ファンデーションモデルは、ほぼ普遍的にTransformerアーキテクチャとコアアテンションモジュールに基づいている。
このようなモデルの重大な弱点は、コンテンツベースの推論を実行できないことである。
我々はこれらの選択的なSSMを、注意やブロック(Mamba)を使わずに、単純化されたエンドツーエンドニューラルネットワークアーキテクチャに統合する(Mamba)。
一般的なシーケンスモデルバックボーンとして、Mambaは言語、オーディオ、ゲノミクスといったいくつかのモードで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-01T18:01:34Z) - Blockwise Parallel Transformer for Large Context Models [70.97386897478238]
Blockwise Parallel Transformer (BPT) は、メモリコストを最小限に抑えるために、自己アテンションとフィードフォワードネットワーク融合のブロックワイズ計算である。
メモリ効率を維持しながら、長い入力シーケンスを処理することにより、BPTはバニラ変換器の32倍、以前のメモリ効率の4倍のトレーニングシーケンスを可能にする。
論文 参考訳(メタデータ) (2023-05-30T19:25:51Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。