Fugu-MT 論文翻訳(概要): PIM-LLM: A High-Throughput Hybrid PIM Architecture for 1-bit LLMs

論文の概要: PIM-LLM: A High-Throughput Hybrid PIM Architecture for 1-bit LLMs

arxiv url: http://arxiv.org/abs/2504.01994v1
Date: Mon, 31 Mar 2025 21:42:43 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-12 01:20:35.911993
Title: PIM-LLM: A High-Throughput Hybrid PIM Architecture for 1-bit LLMs
Title（参考訳）: 1ビットLLMのための高速ハイブリッドPIMアーキテクチャPIM-LLM
Authors: Jinendra Malekar, Peyton Chandarana, Md Hasibul Amin, Mohammed E. Elbtity, Ramtin Zand,
Abstract要約: PIM-LLMは1ビット大言語モデル(LLM)を高速化するために開発されたハイブリッドアーキテクチャである。我々の設計では、1秒あたりのトークンの約80倍の改善と、1ジュール当たりのトークンの70%の増加を実現している。
参考スコア（独自算出の注目度）: 0.4038539043067986
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we propose PIM-LLM, a hybrid architecture developed to accelerate 1-bit large language models (LLMs). PIM-LLM leverages analog processing-in-memory (PIM) architectures and digital systolic arrays to accelerate low-precision matrix multiplication (MatMul) operations in projection layers and high-precision MatMul operations in attention heads of 1-bit LLMs, respectively. Our design achieves up to roughly 80x improvement in tokens per second and a 70% increase in tokens per joule compared to conventional hardware accelerators. Additionally, PIM-LLM outperforms previous PIM-based LLM accelerators, setting a new benchmark with at least 2x and 5x improvement in GOPS and GOPS/W, respectively.
Abstract（参考訳）: 本稿では,1ビット大規模言語モデル(LLM)を高速化するハイブリッドアーキテクチャであるPIM-LLMを提案する。 PIM-LLMは、アナログ処理メモリ(PIM)アーキテクチャとデジタルシストリックアレイを活用し、プロジェクション層における低精度行列乗算(MatMul)演算と1ビットLLMのアテンションヘッドにおける高精度MatMul演算をそれぞれ高速化する。我々の設計では、1秒あたりのトークンの約80倍の改善と、1ジュール当たりのトークンの70%の増加を実現している。さらに、PIM-LLM は以前の PIM ベースの LLM アクセラレータよりも優れており、GOPS と GOPS/W をそれぞれ2倍および5倍改善した新しいベンチマークが設定されている。

関連論文リスト

Towards Economical Inference: Enabling DeepSeek's Multi-Head Latent Attention in Any Transformer-based LLMs [74.74225314708225]
MLA(Multi-head Latent Attention)は、効率的かつ経済的推論を保証するために設計された革新的なアーキテクチャである。本稿では,マルチヘッドアテンションからMLAへの移行のための,データ効率の良いファインチューニング手法を提案する。
論文参考訳（メタデータ） (2025-02-20T18:50:42Z)
LoL-PIM: Long-Context LLM Decoding with Scalable DRAM-PIM System [6.21613161960432]
大規模言語モデル(LLM)は数万のトークンのシーケンスを処理する。 Processing-in-Memory (PIM) は、計算をデータに移動させることでメモリ帯域幅を最大化する。 LoL-PIM はマルチノード PIM アーキテクチャであり、ハードウェアとソフトウェアの共同設計により長期のコンテキスト LLM を高速化する。
論文参考訳（メタデータ） (2024-12-28T14:38:16Z)
PIM-AI: A Novel Architecture for High-Efficiency LLM Inference [0.4746684680917117]
本稿では,大規模言語モデル推論用に設計された新しいDDR5/LPDDR5 PIMアーキテクチャであるPIM-AIを紹介する。クラウドベースのシナリオでは、PIM-AIはクエリ毎秒あたりの3年間のTCOを最大6.94倍削減する。モバイルシナリオでは、PIM-AIは最先端のモバイルSOCと比較してトークン当たりのエネルギーを10倍から20倍に削減する。
論文参考訳（メタデータ） (2024-11-26T10:54:19Z)
Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。 Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文参考訳（メタデータ） (2024-10-24T19:48:51Z)
EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文参考訳（メタデータ） (2024-10-16T05:17:49Z)
Designing Efficient LLM Accelerators for Edge Devices [1.4128048241287314]
大きな言語モデル(LLM)は、リソース制約のあるエッジデバイスにデプロイすることで、ネットワーク接続への依存を低減し、よりプライバシーを提供する。この問題に対処するため、LLM推論のための新しい効率的なエッジアクセラレータを設計することが重要である。本稿では,効率的なFPGAベースのLCMアクセラレータの設計,統合,展開プロセスの合理化にSECDA手法を用いるSECDA-LLMを提案する。
論文参考訳（メタデータ） (2024-08-01T11:06:05Z)
ShiftAddLLM: Accelerating Pretrained LLMs via Post-Training Multiplication-Less Reparameterization [13.622268474310918]
ShiftAddLLMは大規模言語モデルの効率的な乗算自由モデルである。 5.6および22.7ポイントのパープレキシティ改善を同等または低いレイテンシで達成する。 5つのLLMファミリーと8つのタスクの実験は、ShiftAddLLMの有効性を一貫して検証している。
論文参考訳（メタデータ） (2024-06-10T02:47:55Z)
SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [67.67135738642547]
後学習量子化(PTQ)は、大規模言語モデル(LLM)において研究される強力な圧縮手法である。既存のPTQ法は、特に4ビット幅以下では、精度と効率の点で理想的ではない。本稿では,LSM,すなわちSliM-LLMに対するSalience-Driven Mixed-Precision Quantizationスキームを提案する。
論文参考訳（メタデータ） (2024-05-23T16:21:48Z)
BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。 LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文参考訳（メタデータ） (2024-02-06T09:26:34Z)
Multi-Agent Automated Machine Learning [54.14038920246645]
自動機械学習(AutoML)におけるモジュールの共同最適化のためのマルチエージェント自動機械学習(MA2ML)を提案する。 MA2MLはモジュール間の協力を強化するために各エージェントにクレジットを明示的に割り当て、検索効率を向上させるために政治外の学習を取り入れている。実験により、MA2MLは計算コストの制約の下でImageNet上で最先端のトップ1の精度が得られることが示された。
論文参考訳（メタデータ） (2022-10-17T13:32:59Z)
Neural-PIM: Efficient Processing-In-Memory with Neural Approximation of Peripherals [11.31429464715989]
本稿では,ディープラーニングタスクを効率的に高速化する新しいPIMアーキテクチャを提案する。アナログ集積回路とニューラル近似周辺回路で必要となるA/D変換を最小化する。異なるベンチマークによる評価では、Neural-PIMはエネルギー効率を5.36x (1.73x)向上し、スループットを3.43x (1.59x)向上する。
論文参考訳（メタデータ） (2022-01-30T16:14:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。