Fugu-MT 論文翻訳(概要): LLMCBench: Benchmarking Large Language Model Compression for Efficient Deployment

論文の概要: LLMCBench: Benchmarking Large Language Model Compression for Efficient Deployment

arxiv url: http://arxiv.org/abs/2410.21352v1
Date: Mon, 28 Oct 2024 14:45:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:41.527158
Title: LLMCBench: Benchmarking Large Language Model Compression for Efficient Deployment
Title（参考訳）: LLMCBench: 効率的なデプロイメントのための大規模言語モデル圧縮のベンチマーク
Authors: Ge Yang, Changyi He, Jinyang Guo, Jianyu Wu, Yifu Ding, Aishan Liu, Haotong Qin, Pengliang Ji, Xianglong Liu,
Abstract要約: 大規模言語モデル (LLM) は、その強力な知能を実証しているが、計算とストレージの需要が高いため、実用化は困難である。本稿ではLLMCBench(Large Language Model Compression Benchmark)を提案する。
参考スコア（独自算出の注目度）: 36.958867918858296
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Although large language models (LLMs) have demonstrated their strong intelligence ability, the high demand for computation and storage hinders their practical application. To this end, many model compression techniques are proposed to increase the efficiency of LLMs. However, current researches only validate their methods on limited models, datasets, metrics, etc, and still lack a comprehensive evaluation under more general scenarios. So it is still a question of which model compression approach we should use under a specific case. To mitigate this gap, we present the Large Language Model Compression Benchmark (LLMCBench), a rigorously designed benchmark with an in-depth analysis for LLM compression algorithms. We first analyze the actual model production requirements and carefully design evaluation tracks and metrics. Then, we conduct extensive experiments and comparison using multiple mainstream LLM compression approaches. Finally, we perform an in-depth analysis based on the evaluation and provide useful insight for LLM compression design. We hope our LLMCBench can contribute insightful suggestions for LLM compression algorithm design and serve as a foundation for future research. Our code is available at https://github.com/AboveParadise/LLMCBench.
Abstract（参考訳）: 大規模言語モデル(LLM)はその強力な知能能力を示しているが、計算とストレージの需要が高いため、実用的応用は妨げられている。この目的のために, LLMの効率を高めるため, モデル圧縮技術が多数提案されている。しかしながら、現在の研究は、限られたモデル、データセット、メトリクスなどについてのみメソッドを検証するとともに、より一般的なシナリオ下での包括的な評価を欠いている。ですから、特定のケースで使用するモデル圧縮アプローチには、依然として疑問があります。このギャップを軽減するために,Large Language Model Compression Benchmark (LLMCBench) を提案する。まず、実際のモデル生産要件を分析し、評価トラックとメトリクスを慎重に設計する。そこで本研究では,複数のLLM圧縮手法を用いて広範囲な実験と比較を行った。最後に,評価に基づいて詳細な解析を行い,LLM圧縮設計に有用な知見を提供する。我々はLLMCBenchがLLM圧縮アルゴリズム設計の洞察に富む提案に貢献し、将来の研究の基盤となることを願っている。私たちのコードはhttps://github.com/AboveParadise/LLMCBench.comから入手可能です。

関連論文リスト

LLMC+: Benchmarking Vision-Language Model Compression with a Plug-and-play Toolkit [29.877232989285833]
VLM(Large Vision-Language Models)は、高機能なマルチモーダル機能を持つが、計算とメモリの要求が禁じられている。現在のアプローチでは、テクニックを同等のモジュールに分解することはなく、空間的および時間的冗長性に対する公正な評価を妨げる。本稿では,汎用なプラグイン・アンド・プレイツールキットを備えた総合的なVLM圧縮ベンチマークであるLLMC+を紹介する。
論文参考訳（メタデータ） (2025-08-13T17:54:49Z)
Can Compressed LLMs Truly Act? An Empirical Evaluation of Agentic Capabilities in LLM Compression [19.447797559761135]
学習後圧縮は大規模言語モデル(LLM)の計算コストとメモリコストを削減する既存の圧縮ベンチマークは、言語モデリングと自然言語理解タスクのみに焦点を当てている。圧縮がLLMのエージェント能力に与える影響を評価するための,最初の包括的なベンチマークであるACBenchを紹介する。
論文参考訳（メタデータ） (2025-05-26T02:49:07Z)
LatentLLM: Attention-Aware Joint Tensor Compression [50.33925662486034]
大規模言語モデル(LLM)と大規模マルチモーダルモデル(LMM)は膨大な計算量とメモリ資源を必要とする。本稿では,LLM/LMMを低次元潜在構造に変換するための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-05-23T22:39:54Z)
Compression Laws for Large Language Models [20.62274005080048]
言語モデル(LLM)の圧縮法則を導入する。我々は、1000ドル以上の実験により、構造化モデル圧縮がLLMに与える影響を実証的に検討した。以上の結果から, クロスエントロピー損失は圧縮比に比例して2次的に増加することが示唆された。
論文参考訳（メタデータ） (2025-04-06T03:39:34Z)
When Reasoning Meets Compression: Benchmarking Compressed Large Reasoning Models on Complex Reasoning Tasks [11.656636716718175]
大規模言語モデルの圧縮(LLM)は、計算資源のコスト削減に有効なソリューションを提供する。圧縮されたDeepSeek-R1モデルを4つの異なる推論データセットでベンチマークした。パラメータカウントは記憶量よりも LRM の知識に大きく影響していることがわかった。
論文参考訳（メタデータ） (2025-04-02T05:17:46Z)
SoftCoT: Soft Chain-of-Thought for Efficient Reasoning with LLMs [48.28847964704554]
CoT(Chain-of-Thought)推論により、LLM(Large Language Models)は複雑な推論タスクを解くことができる。 LLMの変更を必要としない連続空間推論のための新しい手法を提案する。
論文参考訳（メタデータ） (2025-02-17T18:52:29Z)
Pruning Foundation Models for High Accuracy without Retraining [48.256389781305415]
基礎モデルや大規模言語モデル(LLM)の展開は、膨大なパラメータと計算量のために困難である。ワンショットでLLMを再訓練せずにプルーンする訓練後プルーニング法が提案されている。本実験は,SOTAベースラインと比較して提案手法の優れた性能を示す。
論文参考訳（メタデータ） (2024-10-21T01:23:34Z)
Basis Sharing: Cross-Layer Parameter Sharing for Large Language Model Compression [5.206085750261924]
大規模言語モデル(LLM)は、推論においてかなりの量のメモリストレージを必要とする。本稿では,特異値分解を伴う異なる層間のパラメータ共有について検討する。総合的な実験により、Basis Sharingは最先端のSVDベースの圧縮アプローチより優れていることが示された。
論文参考訳（メタデータ） (2024-10-02T14:30:02Z)
Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文参考訳（メタデータ） (2024-09-25T21:32:12Z)
Ranking LLMs by compression [13.801767671391604]
圧縮の先駆けとして5つの大きな言語モデルを使用し、課題のある自然言語処理タスクのパフォーマンスを比較します。実験の結果,圧縮比とモデル性能は正の相関関係にあることが明らかとなった。
論文参考訳（メタデータ） (2024-06-20T10:23:38Z)
LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文参考訳（メタデータ） (2024-05-09T11:49:05Z)
Retrieval-based Knowledge Transfer: An Effective Approach for Extreme Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文参考訳（メタデータ） (2023-10-24T07:58:20Z)
LLMLingua: Compressing Prompts for Accelerated Inference of Large Language Models [22.06402870816756]
大きな言語モデル(LLM)は、その驚くべき能力のために様々なアプリケーションに適用されている。本稿では,意味的整合性を維持するための予算制御を伴う粗大なプロンプト圧縮手法であるLLMLinguaを提案する。提案手法により,最先端性能が得られ,最大20倍圧縮が可能であり,性能損失が少ないことを示す。
論文参考訳（メタデータ） (2023-10-09T14:10:21Z)
Compressing LLMs: The Truth is Rarely Pure and Never Simple [90.05366363633568]
Knowledge-Intensive Compressed LLM BenchmarKは、圧縮された大言語モデルの評価プロトコルを再定義することを目的としている。 LLM-KICKは、現在のSoTA圧縮方式の多くの有利な利点と不運な点を明らかにしている。 LLM-KICKは、言語理解、推論、生成、テキスト内検索、テキスト内要約などのための圧縮LLMの能力に一様にアクセスできるように設計されている。
論文参考訳（メタデータ） (2023-10-02T17:42:37Z)
In-context Autoencoder for Context Compression in a Large Language Model [70.7621953091318]
In-context Autoencoder (ICAE) を提案し、長いコンテキストを短いメモリスロットに圧縮する。 ICAEは、大量のテキストデータに基づく自動符号化と言語モデリングの両方の目的を用いて、まず事前訓練を行う。
論文参考訳（メタデータ） (2023-07-13T17:59:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。