論文の概要: Mugi: Value Level Parallelism For Efficient LLMs
- arxiv url: http://arxiv.org/abs/2601.10823v1
- Date: Thu, 15 Jan 2026 19:48:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.278854
- Title: Mugi: Value Level Parallelism For Efficient LLMs
- Title(参考訳): Mugi: 効率的なLLMのためのバリューレベルの並列処理
- Authors: Daniel Price, Prabhu Vellaisamy, John Shen, Di Wu,
- Abstract要約: 変換器ベースの大規模言語モデル(LLM)では、活性化重み付けGEMM以上の高度な操作が存在する。
我々は、非線形近似に対する値中心近似を一般化し、従来の非線形近似をエンドツーエンドのLCM精度、性能、効率で上回る。
また、上のイノベーションをカプセル化し、完全なLLMワークロードをサポートするために、新しいGMAアーキテクチャであるMugを設計しています。
- 参考スコア(独自算出の注目度): 3.137054372887258
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Value level parallelism (VLP) has been proposed to improve the efficiency of large-batch, low-precision general matrix multiply (GEMM) between symmetric activations and weights. In transformer based large language models (LLMs), there exist more sophisticated operations beyond activation-weight GEMM. In this paper, we explore how VLP benefits LLMs. First, we generalize VLP for nonlinear approximations, outperforming existing nonlinear approximations in end-to-end LLM accuracy, performance, and efficiency. Our VLP approximation follows a value-centric approach, where important values are assigned with greater accuracy. Second, we optimize VLP for small-batch GEMMs with asymmetric inputs efficiently, which leverages timely LLM optimizations, including weight-only quantization, key-value (KV) cache quantization, and group query attention. Finally, we design a new VLP architecture, Mugi, to encapsulate the innovations above and support full LLM workloads, while providing better performance, efficiency and sustainability. Our experimental results show that Mugi can offer significant improvements on throughput and energy efficiency, up to $45\times$ and $668\times$ for nonlinear softmax operations, and $2.07\times$ and $3.11\times$ for LLMs, and also decrease operational carbon for LLM operation by $1.45\times$ and embodied carbon by $1.48\times$.
- Abstract(参考訳): 値レベルの並列性 (VLP) は, 対称性の活性化と重みの間の大バッチ, 低精度の一般行列乗算 (GEMM) の効率を改善するために提案されている。
変換器ベースの大規模言語モデル(LLM)では、活性化重み付けGEMM以上の高度な操作が存在する。
本稿では,VLPがLLMにどのような影響を与えるかを検討する。
まず, 非線形近似に対するVLPを一般化し, 従来の非線形近似よりもエンドツーエンドのLCM精度, 性能, 効率に優れることを示す。
我々のVLP近似は、重要な値をより高い精度で割り当てる、価値中心のアプローチに従う。
第二に、非対称な入力を持つ小バッチGEMMに対してVLPを最適化し、重みのみの量子化、キー値(KV)キャッシュの量子化、グループクエリアテンションなど、タイムリーなLCM最適化を利用する。
最後に、上述したイノベーションをカプセル化し、完全なLLMワークロードをサポートしながら、パフォーマンス、効率、持続可能性を向上させるために、新しいVLPアーキテクチャであるMugiを設計する。
実験結果から,Mugはスループットとエネルギー効率を大幅に向上し,非線形ソフトマックス操作では45-times$,668-times$,LCMでは2.07-times$,3.11-times$,LCM操作では1.45-times$,エンボディカーボンでは1.48-times$に値下げできることがわかった。
関連論文リスト
- IAM: Efficient Inference through Attention Mapping between Different-scale LLMs [74.81417160018856]
IAMフレームワークは、注意計算の高速化とKVキャッシュ使用量の削減という2つの利点を実現する。
IAMはプリフィルを15%高速化し,KVキャッシュ使用量を22.1%削減できることを示す。
論文 参考訳(メタデータ) (2025-07-16T06:39:11Z) - Towards Economical Inference: Enabling DeepSeek's Multi-Head Latent Attention in Any Transformer-based LLMs [92.7279890407059]
MLA(Multi-head Latent Attention)は、効率的かつ経済的推論を保証するために設計された革新的なアーキテクチャである。
本稿では,マルチヘッドアテンションからMLAへの移行のための,データ効率の良いファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2025-02-20T18:50:42Z) - CoLA: Compute-Efficient Pre-Training of LLMs via Low-Rank Activation [19.447967755388092]
我々は,計算効率の高いオートエンコーダを用いて,CoLAとそのメモリ効率の高い実装であるCoLA-Mを提案する。
6000万から70億のパラメータを持つLLaMAモデルに対する実験は、CoLAが計算コストを$bf 2pmbtimes$.bf 2pmbtimes$.comに削減したことを示している。
CoLA-Mはスループットを犠牲にすることなくメモリコストをさらに削減し、全体として優れたパラメータ、計算、メモリ効率を備えた事前学習アプローチを提供する。
論文 参考訳(メタデータ) (2025-02-16T01:05:16Z) - Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。
LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。
モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文 参考訳(メタデータ) (2024-12-19T18:08:04Z) - Densing Law of LLMs [81.06644243978101]
大規模言語モデル(LLM)は人工知能のマイルストーンとして登場し、モデルのサイズが大きくなるにつれてその性能が向上する。
本稿では,異なるスケールでLLMの品質を評価するための新しい指標として,「テクトキャパシティ密度」の概念を紹介する。
論文 参考訳(メタデータ) (2024-12-05T16:31:13Z) - Q-Sparse: All Large Language Models can be Fully Sparsely-Activated [93.45300714803429]
Q-Sparseは、スパースアクティベートされた大規模言語モデル(LLM)を訓練するための、シンプルで効果的なアプローチである。
Q-Sparse は LLM における活性化の完全な分散を可能にし、推論においてかなりの効率向上をもたらす。
バッチトレーニングと推論のためのBlock Q-Sparseも導入しています。
論文 参考訳(メタデータ) (2024-07-15T17:59:29Z) - Value Augmented Sampling for Language Model Alignment and Personalization [39.070662999014836]
報酬最適化のための新しいフレームワーク、価値拡張サンプリング(VAS)を提案する。
VASは、ポリシーと値関数を併用することなく、最適報酬最大化ポリシーを解く。
我々のアルゴリズムは、いくつかの報酬を作曲し、展開期間中に各報酬の幅を制御できる新しい能力を解き放ちます。
論文 参考訳(メタデータ) (2024-05-10T17:59:04Z) - AffineQuant: Affine Transformation Quantization for Large Language Models [58.45460102764]
ポストトレーニング量子化(PTQ)は、その圧縮効率とトレーニングの文脈における費用対効果により、かなりの関心を集めている。
既存の大規模言語モデル(LLM)のPTQ手法は、事前量子化重みと後量子化重みの間の変換のスケーリングに最適化範囲を制限している。
本稿では,PTQ(AffineQuant)における等価アフィン変換を用いた直接最適化を提唱する。
論文 参考訳(メタデータ) (2024-03-19T08:40:21Z) - SMART: Automatically Scaling Down Language Models with Accuracy Guarantees for Reduced Processing Fees [21.801053526411415]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクの性能を大幅に向上させた。
高性能LLMの配備は、主にモデル性能の向上を目的としたパラメータの増大により、かなりのコストがかかる。
SMARTは,NLPタスクの推論コストを最小限に抑えつつ,十分な結果品質を確保するために設計された新しいフレームワークである。
論文 参考訳(メタデータ) (2024-03-11T17:45:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。