論文の概要: Mugi: Value Level Parallelism For Efficient LLMs
- arxiv url: http://arxiv.org/abs/2601.10823v1
- Date: Thu, 15 Jan 2026 19:48:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.278854
- Title: Mugi: Value Level Parallelism For Efficient LLMs
- Title(参考訳): Mugi: 効率的なLLMのためのバリューレベルの並列処理
- Authors: Daniel Price, Prabhu Vellaisamy, John Shen, Di Wu,
- Abstract要約: 変換器ベースの大規模言語モデル(LLM)では、活性化重み付けGEMM以上の高度な操作が存在する。
我々は、非線形近似に対する値中心近似を一般化し、従来の非線形近似をエンドツーエンドのLCM精度、性能、効率で上回る。
また、上のイノベーションをカプセル化し、完全なLLMワークロードをサポートするために、新しいGMAアーキテクチャであるMugを設計しています。
- 参考スコア(独自算出の注目度): 3.137054372887258
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Value level parallelism (VLP) has been proposed to improve the efficiency of large-batch, low-precision general matrix multiply (GEMM) between symmetric activations and weights. In transformer based large language models (LLMs), there exist more sophisticated operations beyond activation-weight GEMM. In this paper, we explore how VLP benefits LLMs. First, we generalize VLP for nonlinear approximations, outperforming existing nonlinear approximations in end-to-end LLM accuracy, performance, and efficiency. Our VLP approximation follows a value-centric approach, where important values are assigned with greater accuracy. Second, we optimize VLP for small-batch GEMMs with asymmetric inputs efficiently, which leverages timely LLM optimizations, including weight-only quantization, key-value (KV) cache quantization, and group query attention. Finally, we design a new VLP architecture, Mugi, to encapsulate the innovations above and support full LLM workloads, while providing better performance, efficiency and sustainability. Our experimental results show that Mugi can offer significant improvements on throughput and energy efficiency, up to $45\times$ and $668\times$ for nonlinear softmax operations, and $2.07\times$ and $3.11\times$ for LLMs, and also decrease operational carbon for LLM operation by $1.45\times$ and embodied carbon by $1.48\times$.
- Abstract(参考訳): 値レベルの並列性 (VLP) は, 対称性の活性化と重みの間の大バッチ, 低精度の一般行列乗算 (GEMM) の効率を改善するために提案されている。
変換器ベースの大規模言語モデル(LLM)では、活性化重み付けGEMM以上の高度な操作が存在する。
本稿では,VLPがLLMにどのような影響を与えるかを検討する。
まず, 非線形近似に対するVLPを一般化し, 従来の非線形近似よりもエンドツーエンドのLCM精度, 性能, 効率に優れることを示す。
我々のVLP近似は、重要な値をより高い精度で割り当てる、価値中心のアプローチに従う。
第二に、非対称な入力を持つ小バッチGEMMに対してVLPを最適化し、重みのみの量子化、キー値(KV)キャッシュの量子化、グループクエリアテンションなど、タイムリーなLCM最適化を利用する。
最後に、上述したイノベーションをカプセル化し、完全なLLMワークロードをサポートしながら、パフォーマンス、効率、持続可能性を向上させるために、新しいVLPアーキテクチャであるMugiを設計する。
実験結果から,Mugはスループットとエネルギー効率を大幅に向上し,非線形ソフトマックス操作では45-times$,668-times$,LCMでは2.07-times$,3.11-times$,LCM操作では1.45-times$,エンボディカーボンでは1.48-times$に値下げできることがわかった。
関連論文リスト
- IAM: Efficient Inference through Attention Mapping between Different-scale LLMs [74.81417160018856]
IAMフレームワークは、注意計算の高速化とKVキャッシュ使用量の削減という2つの利点を実現する。
IAMはプリフィルを15%高速化し,KVキャッシュ使用量を22.1%削減できることを示す。
論文 参考訳(メタデータ) (2025-07-16T06:39:11Z) - Towards Economical Inference: Enabling DeepSeek's Multi-Head Latent Attention in Any Transformer-based LLMs [92.7279890407059]
MLA(Multi-head Latent Attention)は、効率的かつ経済的推論を保証するために設計された革新的なアーキテクチャである。
本稿では,マルチヘッドアテンションからMLAへの移行のための,データ効率の良いファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2025-02-20T18:50:42Z) - Q-Sparse: All Large Language Models can be Fully Sparsely-Activated [93.45300714803429]
Q-Sparseは、スパースアクティベートされた大規模言語モデル(LLM)を訓練するための、シンプルで効果的なアプローチである。
Q-Sparse は LLM における活性化の完全な分散を可能にし、推論においてかなりの効率向上をもたらす。
バッチトレーニングと推論のためのBlock Q-Sparseも導入しています。
論文 参考訳(メタデータ) (2024-07-15T17:59:29Z) - Value Augmented Sampling for Language Model Alignment and Personalization [39.070662999014836]
報酬最適化のための新しいフレームワーク、価値拡張サンプリング(VAS)を提案する。
VASは、ポリシーと値関数を併用することなく、最適報酬最大化ポリシーを解く。
我々のアルゴリズムは、いくつかの報酬を作曲し、展開期間中に各報酬の幅を制御できる新しい能力を解き放ちます。
論文 参考訳(メタデータ) (2024-05-10T17:59:04Z) - SMART: Automatically Scaling Down Language Models with Accuracy Guarantees for Reduced Processing Fees [21.801053526411415]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクの性能を大幅に向上させた。
高性能LLMの配備は、主にモデル性能の向上を目的としたパラメータの増大により、かなりのコストがかかる。
SMARTは,NLPタスクの推論コストを最小限に抑えつつ,十分な結果品質を確保するために設計された新しいフレームワークである。
論文 参考訳(メタデータ) (2024-03-11T17:45:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。