Fugu-MT 論文翻訳(概要): EfficientLLM: Efficiency in Large Language Models

論文の概要: EfficientLLM: Efficiency in Large Language Models

arxiv url: http://arxiv.org/abs/2505.13840v1
Date: Tue, 20 May 2025 02:27:08 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-21 14:49:52.631599
Title: EfficientLLM: Efficiency in Large Language Models
Title（参考訳）: 効率的なLLM:大規模言語モデルの効率性
Authors: Zhengqing Yuan, Weixiang Sun, Yixin Liu, Huichi Zhou, Rong Zhou, Yiyang Li, Zheyuan Zhang, Wei Song, Yue Huang, Haolong Jia, Keerthiram Murugesan, Yu Wang, Lifang He, Jianfeng Gao, Lichao Sun, Yanfang Ye,
Abstract要約: 大規模言語モデル(LLM)は大きな進歩を導いてきたが、その増加とコンテキストウィンドウは計算、エネルギー、金銭的コストを禁止している。本稿では,新しいベンチマークであるEfficientLLMを紹介する。
参考スコア（独自算出の注目度）: 64.3537131208038
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) have driven significant progress, yet their growing parameter counts and context windows incur prohibitive compute, energy, and monetary costs. We introduce EfficientLLM, a novel benchmark and the first comprehensive empirical study evaluating efficiency techniques for LLMs at scale. Conducted on a production-class cluster (48xGH200, 8xH200 GPUs), our study systematically explores three key axes: (1) architecture pretraining (efficient attention variants: MQA, GQA, MLA, NSA; sparse Mixture-of-Experts (MoE)), (2) fine-tuning (parameter-efficient methods: LoRA, RSLoRA, DoRA), and (3) inference (quantization methods: int4, float16). We define six fine-grained metrics (Memory Utilization, Compute Utilization, Latency, Throughput, Energy Consumption, Compression Rate) to capture hardware saturation, latency-throughput balance, and carbon cost. Evaluating over 100 model-technique pairs (0.5B-72B parameters), we derive three core insights: (i) Efficiency involves quantifiable trade-offs: no single method is universally optimal; e.g., MoE reduces FLOPs and improves accuracy but increases VRAM by 40%, while int4 quantization cuts memory/energy by up to 3.9x at a 3-5% accuracy drop. (ii) Optima are task- and scale-dependent: MQA offers optimal memory-latency trade-offs for constrained devices, MLA achieves lowest perplexity for quality-critical tasks, and RSLoRA surpasses LoRA efficiency only beyond 14B parameters. (iii) Techniques generalize across modalities: we extend evaluations to Large Vision Models (Stable Diffusion 3.5, Wan 2.1) and Vision-Language Models (Qwen2.5-VL), confirming effective transferability. By open-sourcing datasets, evaluation pipelines, and leaderboards, EfficientLLM provides essential guidance for researchers and engineers navigating the efficiency-performance landscape of next-generation foundation models.
Abstract（参考訳）: 大規模言語モデル(LLM)は大きな進歩を導いてきたが、その成長するパラメータ数とコンテキストウィンドウは、計算、エネルギー、金銭コストを禁止している。本稿では,新しいベンチマークであるEfficientLLMを紹介する。実運用級クラスタ(48xGH200, 8xH200 GPU)上で実施した本研究では,(1)アーキテクチャ事前学習(効率的な注意変動:MQA, GQA, MLA, NSA),(2)微調整(パラメータ効率の高い手法:LoRA, RSLoRA, DoRA),(3)推論(量子化手法:int4,float16)の3つの重要な軸を体系的に検討した。ハードウェア飽和度,レイテンシ・スループットバランス,炭素コストを計測するために,メモリ利用,計算利用,レイテンシ,スループット,エネルギー消費,圧縮率の6つの詳細な指標を定義した。 100以上のモデル技術ペア(0.5B-72Bパラメータ)を評価することで、3つの中核的な洞察を導き出す。例えば、MoEはFLOPを削減し、精度は向上するが、VRAMは40%向上する一方、Int4量子化は35%の精度低下でメモリ/エネルギーを最大3.9倍削減する。 MQAは制約されたデバイスに対して最適なメモリレイテンシトレードオフを提供し、MLAは品質クリティカルなタスクに対して最低のパープレキシティを達成し、RSLoRAはLoRA効率を14Bパラメータを超えて上回る。三評価を大ビジョンモデル(安定拡散3.5、ワン2.1)及びビジョンランゲージモデル(Qwen2.5-VL)に拡張し、効果的な伝達性を確認する。データセット、評価パイプライン、リーダーボードをオープンソース化することによって、EfficientLLMは、次世代の基礎モデルの効率とパフォーマンスの展望をナビゲートする研究者やエンジニアにとって、不可欠なガイダンスを提供する。

関連論文リスト

Slimming Down LLMs Without Losing Their Minds [3.15067317204403]
本稿では,パラメータ効率向上手法(LoRAとQLoRA)に着目し,微調整が大規模言語モデルの性能に及ぼす影響を検証・検証する。我々は,(1)コモンセンス推論(HellaSwag),(2)数学的推論(GSM8K),(3)マルチドメイン知識(MMLU-CS)の3分野にわたるモデル能力を評価する。
論文参考訳（メタデータ） (2025-06-12T16:49:40Z)
MiniCPM4: Ultra-Efficient LLMs on End Devices [124.73631357883228]
MiniCPM4は、エンドサイドデバイス向けに明示的に設計された高効率な大規模言語モデル(LLM)である。この効率性は、モデルアーキテクチャ、トレーニングデータ、トレーニングアルゴリズム、推論システムという4つの重要な側面において、体系的な革新を通じて達成します。 MiniCPM4は、それぞれ0.5Bと8Bのパラメータを持つ2つのバージョンで利用可能である。
論文参考訳（メタデータ） (2025-06-09T16:16:50Z)
Harnessing On-Device Large Language Model: Empirical Results and Implications for AI PC [8.837470787975308]
エッジデバイス上の大規模言語モデル(LLM)は、大きなプライバシー上のメリットを提供する。これらのオンデバイスLSMは、モデル容量の削減と必要な圧縮技術のために本質的に性能上の制限に直面している。デバイス上でのLCMを評価するために,モデル能力,開発効率,システム資源を包含する体系的方法論を導入する。
論文参考訳（メタデータ） (2025-05-21T02:23:01Z)
R-Sparse: Rank-Aware Activation Sparsity for Efficient LLM Inference [77.47238561728459]
R-スパース(R-Sparse)は、高度なLCMにおいて高い疎度を達成できる訓練不要なアクティベーション・スパシティ・アプローチである。 10種類のタスクにわたるLlama-2/3およびMistralモデルの実験は、R-Sparseが50%のモデルレベルの間隔で同等のパフォーマンスを達成することを示した。
論文参考訳（メタデータ） (2025-04-28T03:30:32Z)
Structure-Activation Synergy: A Dual Efficiency Framework for Parameter-Memory Optimized Transfer Learning [8.602744958104969]
本稿では、パラメータとメモリの二重最適化を実現する革新的なフレームワークであるStructure-Activation Synergy(S2A)を提案する。我々は、S2Aの優れた効率を示し、GPUメモリ消費を75%削減し(平均4.2削減)、フル微調整精度の98.7%を維持し、わずか0.9%の調整可能なパラメータしか持たない。
論文参考訳（メタデータ） (2025-03-11T08:10:03Z)
Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。 LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文参考訳（メタデータ） (2024-12-19T18:08:04Z)
MOFHEI: Model Optimizing Framework for Fast and Efficient Homomorphically Encrypted Neural Network Inference [0.8388591755871735]
ホモモルフィック暗号化(HE)により、暗号化データ上で機械学習タスクを実行できる。 HEに基づくニューラルネットワーク推論を高速かつ効率的にするためのモデルを最適化するフレームワークであるMOFHEIを提案する。このフレームワークはLeNet上で最大98%のプルーニング比を実現し,PI実行に必要なHE操作の最大93%を排除した。
論文参考訳（メタデータ） (2024-12-10T22:44:54Z)
LiteVAR: Compressing Visual Autoregressive Modelling with Efficient Attention and Quantization [17.190984773586745]
現在のARベースのビジュアル生成モデルは、リソース制約のあるデバイスに適用性を制限するために、かなりの計算資源を必要とする。性能を維持しつつ,VARモデルの効率を向上させるために,効率的な注意機構と低ビット量子化手法を提案する。
論文参考訳（メタデータ） (2024-11-26T07:32:36Z)
Scalable Efficient Training of Large Language Models with Low-dimensional Projected Attention [27.46314600638108]
低ランク事前学習は、通常効率的な方法と考えられているが、削減されたパラメータが的確にターゲットされた場合、非常に効果的であることが判明した。我々は,この構造を低次元投影注意(LPA)と呼び,説明分析を行う。以上の結果から,LPAモデルでは最大12.4%の時間節約が可能であり,バニラ変圧器と比較して,テストパープレキシティ(ppl)および下流タスクの約5%の改善が達成されている。
論文参考訳（メタデータ） (2024-11-04T13:06:17Z)
TernaryLLM: Ternarized Large Language Model [29.29122031050894]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて顕著なパフォーマンスを達成した。本稿では、Dual Learnable Ternarization (DLT)を導入し、スケールとシフトの両方を学習可能にする。また、極低ビット量子化で失われた情報を復元するために、OFF(Outlier-Friendly Feature Knowledge Distillation)を提案する。
論文参考訳（メタデータ） (2024-06-11T11:40:12Z)
LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文参考訳（メタデータ） (2024-05-09T11:49:05Z)
When Parameter-efficient Tuning Meets General-purpose Vision-language Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文参考訳（メタデータ） (2023-12-16T17:13:08Z)
RA-DIT: Retrieval-Augmented Dual Instruction Tuning [90.98423540361946]
Retrieval-augmented Language Model (RALMs) は、外部データストアからロングテールおよび最新の知識にアクセスすることで、パフォーマンスを向上させる。既存のアプローチでは、LM事前トレーニングに高価な検索固有の修正が必要になるか、あるいは、最適以下のパフォーマンスをもたらすデータストアのポストホック統合を使用する必要がある。本稿では,第3の選択肢を提供する軽量な微調整手法であるRetrieval-Augmented Dual Instruction Tuning (RA-DIT)を紹介する。
論文参考訳（メタデータ） (2023-10-02T17:16:26Z)
LoRAPrune: Structured Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning [56.88751562302793]
低ランク適応 (LoRA) が大型言語モデル (LLM) に登場した。 LoRAPruneは、高度にメモリ効率の良い正確な構造化プルーンドモデルを提供する新しいフレームワークである。 LoRAPruneはWikiText2では4.81、TBでは3.46、メモリ使用量は52.6%減少している。
論文参考訳（メタデータ） (2023-05-28T15:15:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。