論文の概要: EfficientLLM: Efficiency in Large Language Models
- arxiv url: http://arxiv.org/abs/2505.13840v1
- Date: Tue, 20 May 2025 02:27:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.631599
- Title: EfficientLLM: Efficiency in Large Language Models
- Title(参考訳): 効率的なLLM:大規模言語モデルの効率性
- Authors: Zhengqing Yuan, Weixiang Sun, Yixin Liu, Huichi Zhou, Rong Zhou, Yiyang Li, Zheyuan Zhang, Wei Song, Yue Huang, Haolong Jia, Keerthiram Murugesan, Yu Wang, Lifang He, Jianfeng Gao, Lichao Sun, Yanfang Ye,
- Abstract要約: 大規模言語モデル(LLM)は大きな進歩を導いてきたが、その増加とコンテキストウィンドウは計算、エネルギー、金銭的コストを禁止している。
本稿では,新しいベンチマークであるEfficientLLMを紹介する。
- 参考スコア(独自算出の注目度): 64.3537131208038
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have driven significant progress, yet their growing parameter counts and context windows incur prohibitive compute, energy, and monetary costs. We introduce EfficientLLM, a novel benchmark and the first comprehensive empirical study evaluating efficiency techniques for LLMs at scale. Conducted on a production-class cluster (48xGH200, 8xH200 GPUs), our study systematically explores three key axes: (1) architecture pretraining (efficient attention variants: MQA, GQA, MLA, NSA; sparse Mixture-of-Experts (MoE)), (2) fine-tuning (parameter-efficient methods: LoRA, RSLoRA, DoRA), and (3) inference (quantization methods: int4, float16). We define six fine-grained metrics (Memory Utilization, Compute Utilization, Latency, Throughput, Energy Consumption, Compression Rate) to capture hardware saturation, latency-throughput balance, and carbon cost. Evaluating over 100 model-technique pairs (0.5B-72B parameters), we derive three core insights: (i) Efficiency involves quantifiable trade-offs: no single method is universally optimal; e.g., MoE reduces FLOPs and improves accuracy but increases VRAM by 40%, while int4 quantization cuts memory/energy by up to 3.9x at a 3-5% accuracy drop. (ii) Optima are task- and scale-dependent: MQA offers optimal memory-latency trade-offs for constrained devices, MLA achieves lowest perplexity for quality-critical tasks, and RSLoRA surpasses LoRA efficiency only beyond 14B parameters. (iii) Techniques generalize across modalities: we extend evaluations to Large Vision Models (Stable Diffusion 3.5, Wan 2.1) and Vision-Language Models (Qwen2.5-VL), confirming effective transferability. By open-sourcing datasets, evaluation pipelines, and leaderboards, EfficientLLM provides essential guidance for researchers and engineers navigating the efficiency-performance landscape of next-generation foundation models.
- Abstract(参考訳): 大規模言語モデル(LLM)は大きな進歩を導いてきたが、その成長するパラメータ数とコンテキストウィンドウは、計算、エネルギー、金銭コストを禁止している。
本稿では,新しいベンチマークであるEfficientLLMを紹介する。
実運用級クラスタ(48xGH200, 8xH200 GPU)上で実施した本研究では,(1)アーキテクチャ事前学習(効率的な注意変動:MQA, GQA, MLA, NSA),(2)微調整(パラメータ効率の高い手法:LoRA, RSLoRA, DoRA),(3)推論(量子化手法:int4,float16)の3つの重要な軸を体系的に検討した。
ハードウェア飽和度,レイテンシ・スループットバランス,炭素コストを計測するために,メモリ利用,計算利用,レイテンシ,スループット,エネルギー消費,圧縮率の6つの詳細な指標を定義した。
100以上のモデル技術ペア(0.5B-72Bパラメータ)を評価することで、3つの中核的な洞察を導き出す。
例えば、MoEはFLOPを削減し、精度は向上するが、VRAMは40%向上する一方、Int4量子化は35%の精度低下でメモリ/エネルギーを最大3.9倍削減する。
MQAは制約されたデバイスに対して最適なメモリレイテンシトレードオフを提供し、MLAは品質クリティカルなタスクに対して最低のパープレキシティを達成し、RSLoRAはLoRA効率を14Bパラメータを超えて上回る。
三 評価を大ビジョンモデル(安定拡散3.5、ワン2.1)及びビジョンランゲージモデル(Qwen2.5-VL)に拡張し、効果的な伝達性を確認する。
データセット、評価パイプライン、リーダーボードをオープンソース化することによって、EfficientLLMは、次世代の基礎モデルの効率とパフォーマンスの展望をナビゲートする研究者やエンジニアにとって、不可欠なガイダンスを提供する。
関連論文リスト
- R-Sparse: Rank-Aware Activation Sparsity for Efficient LLM Inference [77.47238561728459]
R-スパース(R-Sparse)は、高度なLCMにおいて高い疎度を達成できる訓練不要なアクティベーション・スパシティ・アプローチである。
10種類のタスクにわたるLlama-2/3およびMistralモデルの実験は、R-Sparseが50%のモデルレベルの間隔で同等のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-04-28T03:30:32Z) - Structure-Activation Synergy: A Dual Efficiency Framework for Parameter-Memory Optimized Transfer Learning [8.602744958104969]
本稿では、パラメータとメモリの二重最適化を実現する革新的なフレームワークであるStructure-Activation Synergy(S2A)を提案する。
我々は、S2Aの優れた効率を示し、GPUメモリ消費を75%削減し(平均4.2削減)、フル微調整精度の98.7%を維持し、わずか0.9%の調整可能なパラメータしか持たない。
論文 参考訳(メタデータ) (2025-03-11T08:10:03Z) - Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。
LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。
モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文 参考訳(メタデータ) (2024-12-19T18:08:04Z) - MOFHEI: Model Optimizing Framework for Fast and Efficient Homomorphically Encrypted Neural Network Inference [0.8388591755871735]
ホモモルフィック暗号化(HE)により、暗号化データ上で機械学習タスクを実行できる。
HEに基づくニューラルネットワーク推論を高速かつ効率的にするためのモデルを最適化するフレームワークであるMOFHEIを提案する。
このフレームワークはLeNet上で最大98%のプルーニング比を実現し,PI実行に必要なHE操作の最大93%を排除した。
論文 参考訳(メタデータ) (2024-12-10T22:44:54Z) - LiteVAR: Compressing Visual Autoregressive Modelling with Efficient Attention and Quantization [17.190984773586745]
現在のARベースのビジュアル生成モデルは、リソース制約のあるデバイスに適用性を制限するために、かなりの計算資源を必要とする。
性能を維持しつつ,VARモデルの効率を向上させるために,効率的な注意機構と低ビット量子化手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T07:32:36Z) - Scalable Efficient Training of Large Language Models with Low-dimensional Projected Attention [27.46314600638108]
低ランク事前学習は、通常効率的な方法と考えられているが、削減されたパラメータが的確にターゲットされた場合、非常に効果的であることが判明した。
我々は,この構造を低次元投影注意(LPA)と呼び,説明分析を行う。
以上の結果から,LPAモデルでは最大12.4%の時間節約が可能であり,バニラ変圧器と比較して,テストパープレキシティ(ppl)および下流タスクの約5%の改善が達成されている。
論文 参考訳(メタデータ) (2024-11-04T13:06:17Z) - TernaryLLM: Ternarized Large Language Model [29.29122031050894]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて顕著なパフォーマンスを達成した。
本稿では、Dual Learnable Ternarization (DLT)を導入し、スケールとシフトの両方を学習可能にする。
また、極低ビット量子化で失われた情報を復元するために、OFF(Outlier-Friendly Feature Knowledge Distillation)を提案する。
論文 参考訳(メタデータ) (2024-06-11T11:40:12Z) - LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z) - LoRAPrune: Structured Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning [56.88751562302793]
低ランク適応 (LoRA) が大型言語モデル (LLM) に登場した。
LoRAPruneは、高度にメモリ効率の良い正確な構造化プルーンドモデルを提供する新しいフレームワークである。
LoRAPruneはWikiText2では4.81、TBでは3.46、メモリ使用量は52.6%減少している。
論文 参考訳(メタデータ) (2023-05-28T15:15:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。