論文の概要: End-to-End Transformer Acceleration Through Processing-in-Memory Architectures
- arxiv url: http://arxiv.org/abs/2601.14260v1
- Date: Fri, 21 Nov 2025 19:22:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.808107
- Title: End-to-End Transformer Acceleration Through Processing-in-Memory Architectures
- Title(参考訳): メモリ内処理アーキテクチャによるエンド・ツー・エンド変圧器高速化
- Authors: Xiaoxuan Yang, Peilin Chen, Tergel Molom-Ochir, Yiran Chen,
- Abstract要約: トランスフォーマーは自然言語処理や大規模言語モデルの中心となっているが、大規模に展開することは3つの大きな課題に直面している。
この研究は、オフチップデータ転送を最小限に抑えるために注意を再構築し、KVキャッシュを動的に圧縮してプーンし、複雑さとハードウェアフットプリントを減らすための連想メモリ操作として注意を解釈する処理インメモリソリューションを導入する。
- 参考スコア(独自算出の注目度): 6.3093372874778835
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers have become central to natural language processing and large language models, but their deployment at scale faces three major challenges. First, the attention mechanism requires massive matrix multiplications and frequent movement of intermediate results between memory and compute units, leading to high latency and energy costs. Second, in long-context inference, the key-value cache (KV cache) can grow unpredictably and even surpass the model's weight size, creating severe memory and bandwidth bottlenecks. Third, the quadratic complexity of attention with respect to sequence length amplifies both data movement and compute overhead, making large-scale inference inefficient. To address these issues, this work introduces processing-in-memory solutions that restructure attention and feed-forward computation to minimize off-chip data transfers, dynamically compress and prune the KV cache to manage memory growth, and reinterpret attention as an associative memory operation to reduce complexity and hardware footprint. Moreover, we evaluate our processing-in-memory design against state-of-the-art accelerators and general-purpose GPUs, demonstrating significant improvements in energy efficiency and latency. Together, these approaches address computation overhead, memory scalability, and attention complexity, further enabling efficient, end-to-end acceleration of Transformer models.
- Abstract(参考訳): トランスフォーマーは自然言語処理と大規模言語モデルの中心となっているが、大規模に展開することは3つの大きな課題に直面している。
第一に、注意機構は大量の行列乗算とメモリと計算ユニット間の中間結果の頻繁な移動を必要とし、高いレイテンシとエネルギーコストをもたらす。
第二に、長文推論では、キー値キャッシュ(KVキャッシュ)は予測不能に成長し、モデルの重みサイズを超過し、メモリと帯域幅のボトルネックが発生する。
第3に、シーケンス長に関する注意の二次的な複雑さは、データ移動と計算オーバーヘッドの両方を増幅し、大規模な推論を非効率にする。
これらの問題に対処するため、この研究は、オフチップデータ転送を最小限に抑えるために注意を再構築し、KVキャッシュを動的に圧縮して実行し、メモリ成長を管理し、複雑さとハードウェアフットプリントを減らすための連想メモリ操作として注意を解釈する処理インメモリソリューションを導入している。
さらに,最先端アクセラレータと汎用GPUに対するメモリ内処理設計を評価し,エネルギー効率と遅延の大幅な改善を実証した。
これらのアプローチは計算オーバーヘッド、メモリスケーラビリティ、注意の複雑さに対処し、トランスフォーマーモデルの効率的なエンドツーエンドアクセラレーションを可能にする。
関連論文リスト
- MAS-Attention: Memory-Aware Stream Processing for Attention Acceleration on Resource-Constrained Edge Devices [24.1144641404561]
本稿では,メモリ制約付きエッジアクセラレータ上での正確なアテンション推定高速化手法を提案する。
エッジコンピューティングのシナリオではFLAT (State-of-the-art attention fusion Method) と比較して,2.75倍のスピードアップと54%のエネルギー消費削減が見られた。
論文 参考訳(メタデータ) (2024-11-20T19:44:26Z) - Analog In-Memory Computing Attention Mechanism for Fast and Energy-Efficient Large Language Models [0.755189019348525]
自己注意によって駆動されるトランスフォーマーネットワークは、大規模言語モデルの中心である。
生成トランスフォーマーでは、自己アテンションはキャッシュメモリを使用してトークンプロジェクションを格納し、各ステップで再計算を避ける。
本稿では、ゲインセルと呼ばれる新しいチャージベースのメモリをベースとした、独自の自己アテンションインメモリコンピューティングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-09-28T11:00:11Z) - Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。
提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。
実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T15:55:59Z) - Memory Is All You Need: An Overview of Compute-in-Memory Architectures for Accelerating Large Language Model Inference [2.9302211589186244]
大規模言語モデル(LLM)は自然言語処理を変換し、機械が人間のようなテキストを生成し、意味のある会話を行うことを可能にする。
計算と記憶能力の発達はムーアの法則の廃止によってさらに悪化している。
コンピュート・イン・メモリ(CIM)技術は、メモリ内でアナログ計算を直接実行することにより、AI推論を加速するための有望なソリューションを提供する。
論文 参考訳(メタデータ) (2024-06-12T16:57:58Z) - Efficient and accurate neural field reconstruction using resistive memory [52.68088466453264]
デジタルコンピュータにおける従来の信号再構成手法は、ソフトウェアとハードウェアの両方の課題に直面している。
本稿では,スパース入力からの信号再構成のためのソフトウェア・ハードウェア協調最適化を用いた体系的アプローチを提案する。
この研究は、AI駆動の信号復元技術を進歩させ、将来の効率的で堅牢な医療AIと3Dビジョンアプリケーションへの道を開く。
論文 参考訳(メタデータ) (2024-04-15T09:33:09Z) - Accelerator-driven Data Arrangement to Minimize Transformers Run-time on
Multi-core Architectures [5.46396577345121]
人工知能におけるトランスフォーマーモデルの複雑さは、計算コスト、メモリ使用量、エネルギー消費を拡大します。
ハードウェアアクセラレーターのカーネルサイズに支配される新しいメモリアレンジメント戦略を提案し,オフチップデータアクセスを効果的に最小化する。
我々の手法は、最先端の変圧器を用いた推論を実行する場合、最大2.8倍の速度向上を実現することができる。
論文 参考訳(メタデータ) (2023-12-20T13:01:25Z) - Blockwise Parallel Transformer for Large Context Models [70.97386897478238]
Blockwise Parallel Transformer (BPT) は、メモリコストを最小限に抑えるために、自己アテンションとフィードフォワードネットワーク融合のブロックワイズ計算である。
メモリ効率を維持しながら、長い入力シーケンスを処理することにより、BPTはバニラ変換器の32倍、以前のメモリ効率の4倍のトレーニングシーケンスを可能にする。
論文 参考訳(メタデータ) (2023-05-30T19:25:51Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。