論文の概要: Accelerating LLM Inference with Flexible N:M Sparsity via A Fully Digital Compute-in-Memory Accelerator
- arxiv url: http://arxiv.org/abs/2504.14365v1
- Date: Sat, 19 Apr 2025 17:47:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 01:09:19.201054
- Title: Accelerating LLM Inference with Flexible N:M Sparsity via A Fully Digital Compute-in-Memory Accelerator
- Title(参考訳): フルデジタル・コンピュート・イン・メモリ・アクセラレータによるフレキシブルN:MスポーザリティによるLCM推論の高速化
- Authors: Akshat Ramachandran, Souvik Kundu, Arnab Raha, Shamik Kundu, Deepak K. Mathaikutty, Tushar Krishna,
- Abstract要約: 固定N:M構造を持つ大言語モデル(LLM)はスパースモデルの表現性を制限している。
フレキシブルな層状外層密度対応N:Mスパシティ(FLOW)選択法を提案する。
次に、フレキシブルで低オーバーヘッドのデジタルコンピュートインメモリアーキテクチャ(FlexCiM)を紹介します。
- 参考スコア(独自算出の注目度): 5.985414012866983
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM) pruning with fixed N:M structured sparsity significantly limits the expressivity of the sparse model, yielding sub-optimal performance. In contrast, supporting multiple N:M patterns to provide sparse representational freedom introduces costly overhead in hardware. To address these challenges for LLMs, we first present a flexible layer-wise outlier-density-aware N:M sparsity (FLOW) selection method. FLOW enables the identification of optimal layer-wise N and M values (from a given range) by simultaneously accounting for the presence and distribution of outliers, allowing a higher degree of representational freedom. To deploy sparse models with such N:M flexibility, we then introduce a flexible, low-overhead digital compute-in-memory architecture (FlexCiM). FlexCiM supports diverse sparsity patterns by partitioning a digital CiM (DCiM) macro into smaller sub-macros, which are adaptively aggregated and disaggregated through distribution and merging mechanisms for different N and M values. Extensive experiments on both transformer-based and recurrence-based state space foundation models (SSMs) demonstrate that FLOW outperforms existing alternatives with an accuracy improvement of up to 36%, while FlexCiM achieves up to 1.75x lower inference latency and 1.5x lower energy consumption compared to existing sparse accelerators. Code is available at: https://github.com/FLOW-open-project/FLOW
- Abstract(参考訳): 固定N:M構造を持つ大言語モデル(LLM)プルーニングはスパースモデルの表現性を著しく制限し、準最適性能をもたらす。
対照的に、スパース表現の自由を提供するために複数のN:Mパターンをサポートすることは、ハードウェアにコストのかかるオーバーヘッドをもたらす。
LLMのこれらの課題に対処するために、まず、フレキシブルな層状外層密度認識N:Mスパシティ(FLOW)選択法を提案する。
FLOW は(与えられた範囲から)最適層 N と M の値の同定を可能にし、同時に外れ値の存在と分布を考慮し、表現の自由度を高める。
N:Mの柔軟性でスパースモデルをデプロイするために、フレキシブルで低オーバーヘッドのデジタルコンピュートインメモリアーキテクチャ(FlexCiM)を導入します。
FlexCiMは、デジタルCiM(DCiM)マクロを小さなサブマクロに分割することで、多様な空間パターンをサポートします。
トランスフォーマーベースおよびリカレンスベースステートスペース基盤モデル(SSM)の広範な実験により、FLOWは既存の代替品よりも最大で36%、FlexCiMは既存のスパースアクセラレータに比べて最大で1.75倍、エネルギー消費量は1.5倍、という結果が得られた。
コードは、https://github.com/FLOW-open-project/FLOWで入手できる。
関連論文リスト
- LLM Braces: Straightening Out LLM Predictions with Relevant Sub-Updates [27.022532404557264]
LLMBRACESは,FFN層内の値ベクトルに関連付けられた関連値を求める手法である。
サブアップデートのコントリビューションを最適化することで、LLMBRACESは予測プロセスを洗練し、より正確で信頼性の高いアウトプットを実現する。
LLMBRACESは感情制御による生成と毒性の低減に優れており、アプリケーション間で柔軟に制御されたテキスト生成の可能性を強調している。
論文 参考訳(メタデータ) (2025-03-20T16:55:26Z) - Tackling the Dynamicity in a Production LLM Serving System with SOTA Optimizations via Hybrid Prefill/Decode/Verify Scheduling on Efficient Meta-kernels [12.77187564450236]
本稿では,多機能なAscendネイティブ,エンドツーエンド生産型大規模言語モデル(LLM)サービスシステムであるXY-Serveを紹介する。
中心となる考え方は、計算をきめ細かいメタプリミティブに分解することで、ワークロードの変動を円滑にする抽象化メカニズムである。
GEMMでは,動的形状変化に適応する仮想パディング方式を導入し,高効率な固定タイルサイズGEMMプリミティブを用いた。
論文 参考訳(メタデータ) (2024-12-24T02:27:44Z) - SWIFT: On-the-Fly Self-Speculative Decoding for LLM Inference Acceleration [10.970637831760136]
投機的復号法(SD)は,LLM推論を品質を損なうことなく高速化するためのパラダイムとして広く用いられている。
本稿では,LLMの中間層を適応的に選択して推論時にスキップする,オンザフライの自己投機的復号アルゴリズムであるSWIFTを紹介する。
実験により,SWIFTは生成したテキストの元の分布を保ちながら,1.3x-1.6x以上の高速化を実現することができることを示した。
論文 参考訳(メタデータ) (2024-10-09T14:15:30Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Fast Matrix Multiplications for Lookup Table-Quantized LLMs [58.11584672945781]
FLUTEはLUT量子化LLM用のフレキシブルなルックアップテーブルエンジンである。
バッチサイズ32と量子化グループサイズ128では、FLUTEカーネルは既存のGEMMカーネルよりも2〜4倍高速である。
論文 参考訳(メタデータ) (2024-07-15T17:55:42Z) - Cloud-Device Collaborative Learning for Multimodal Large Language Models [24.65882336700547]
本稿では,クラウド・デバイス協調型継続的適応フレームワークを導入し,デバイス分割型MLLMの性能向上を図る。
当社のフレームワークは,効率的なデータ伝送のためのデバイス間アップリンク,クラウドベースの知識適応,モデルデプロイメントのための最適化されたクラウド間ダウンリンクという,3つの重要なコンポーネントで構成されています。
論文 参考訳(メタデータ) (2023-12-26T18:46:14Z) - Modality Plug-and-Play: Elastic Modality Adaptation in Multimodal LLMs
for Embodied AI [10.82017289243097]
LLM(Large Language Models)は、事前訓練されたエンコーダを通じて様々な入力データモダリティを推論することができる。
m-LLMは、既存の最良のスキームと比較してタスクの精度を最大4%改善する。
論文 参考訳(メタデータ) (2023-12-13T04:08:59Z) - MatFormer: Nested Transformer for Elastic Inference [91.45687988953435]
MatFormerは、多様なデプロイメント制約にまたがる弾性推論を提供するように設計された、新しいTransformerアーキテクチャである。
MatFormerは、標準的なTransformerモデルにネストフィードフォワードネットワーク(FFN)ブロック構造を組み込むことで、これを実現している。
8億5000万デコーダのみのMatFormer言語モデル(MatLM)により,5億2200万から8億5千万のパラメータにまたがる複数の小さなモデルを抽出できることを示す。
論文 参考訳(メタデータ) (2023-10-11T17:57:14Z) - Can SAM Boost Video Super-Resolution? [78.29033914169025]
単純な有効モジュールであるSAM-guidEd refinEment Module (SEEM)を提案する。
この軽量プラグインモジュールは、セマンティック・アウェア機能の生成にアテンションメカニズムを活用するように設計されている。
我々はSEEMをEDVRとBasicVSRの2つの代表的手法に適用し、最小限の実装労力で継続的に性能を向上する。
論文 参考訳(メタデータ) (2023-05-11T02:02:53Z) - SWEM: Towards Real-Time Video Object Segmentation with Sequential
Weighted Expectation-Maximization [36.43412404616356]
本稿では,メモリ特性の冗長性を大幅に低減するために,SWEM(Sequential Weighted expectation-Maximization)ネットワークを提案する。
SWEMは、シーケンシャル重み付きEMアルゴリズムを活用することで、フレーム内およびフレーム間類似の機能を組み合わせる。
一般的に使用されているDAVISとYouTube-VOSデータセットの実験は、高効率(36 FPS)と高パフォーマンス(84.3%$mathcalJ&mathcalF$ on DAVIS 2017 Validationデータセット)を検証する。
論文 参考訳(メタデータ) (2022-08-22T08:03:59Z) - SlimFL: Federated Learning with Superposition Coding over Slimmable
Neural Networks [56.68149211499535]
フェデレートラーニング(FL)は、デバイスの分散コンピューティング機能を活用した効率的なコミュニケーションとコンピューティングのための重要な実現手段である。
本稿では、FLと幅調整可能なスリムブルニューラルネットワーク(SNN)を統合した新しい学習フレームワークを提案する。
局所モデル更新のためのグローバルモデル集約と重ね合わせ訓練(ST)に重ね合わせ符号化(SC)を併用した通信およびエネルギー効率の高いSNNベースFL(SlimFL)を提案する。
論文 参考訳(メタデータ) (2022-03-26T15:06:13Z) - Joint Superposition Coding and Training for Federated Learning over
Multi-Width Neural Networks [52.93232352968347]
本稿では,2つの相乗的技術,フェデレートラーニング(FL)と幅調整可能なスリムブルニューラルネットワーク(SNN)を統合することを目的とする。
FLは、ローカルに訓練されたモバイルデバイスのモデルを交換することによって、データのプライバシを保護している。しかしながら、SNNは、特に時間変化のあるチャネル条件との無線接続下では、非自明である。
局所モデル更新のためのグローバルモデル集約と重ね合わせ訓練(ST)に重ね合わせ符号化(SC)を併用した通信およびエネルギー効率の高いSNNベースFL(SlimFL)を提案する。
論文 参考訳(メタデータ) (2021-12-05T11:17:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。