論文の概要: Can Compressed LLMs Truly Act? An Empirical Evaluation of Agentic Capabilities in LLM Compression
- arxiv url: http://arxiv.org/abs/2505.19433v1
- Date: Mon, 26 May 2025 02:49:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.122151
- Title: Can Compressed LLMs Truly Act? An Empirical Evaluation of Agentic Capabilities in LLM Compression
- Title(参考訳): 圧縮LDMは真に作用するか? : LLM圧縮におけるエージェント能力の実証評価
- Authors: Peijie Dong, Zhenheng Tang, Xiang Liu, Lujun Li, Xiaowen Chu, Bo Li,
- Abstract要約: 学習後圧縮は大規模言語モデル(LLM)の計算コストとメモリコストを削減する
既存の圧縮ベンチマークは、言語モデリングと自然言語理解タスクのみに焦点を当てている。
圧縮がLLMのエージェント能力に与える影響を評価するための,最初の包括的なベンチマークであるACBenchを紹介する。
- 参考スコア(独自算出の注目度): 19.447797559761135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Post-training compression reduces the computational and memory costs of large language models (LLMs), enabling resource-efficient deployment. However, existing compression benchmarks only focus on language modeling (e.g., perplexity) and natural language understanding tasks (e.g., GLUE accuracy), ignoring the agentic capabilities - workflow, tool use/function call, long-context understanding and real-world application. We introduce the Agent Compression Benchmark (ACBench), the first comprehensive benchmark for evaluating how compression impacts LLMs' agentic abilities. ACBench spans (1) 12 tasks across 4 capabilities (e.g., WorfBench for workflow generation, Needle-in-Haystack for long-context retrieval), (2) quantization (GPTQ, AWQ) and pruning (Wanda, SparseGPT), and (3) 15 models, including small (Gemma-2B), standard (Qwen2.5 7B-32B), and distilled reasoning LLMs (DeepSeek-R1-Distill). Our experiments reveal compression tradeoffs: 4-bit quantization preserves workflow generation and tool use (1%-3% drop) but degrades real-world application accuracy by 10%-15%. We introduce ERank, Top-k Ranking Correlation and Energy to systematize analysis. ACBench provides actionable insights for optimizing LLM compression in agentic scenarios. The code can be found in https://github.com/pprp/ACBench.
- Abstract(参考訳): トレーニング後の圧縮により、大規模言語モデル(LLM)の計算コストとメモリコストが削減され、リソース効率が向上する。
しかし、既存の圧縮ベンチマークは、言語モデリング(例えば、パープレキシティ)と自然言語理解タスク(例えば、GLUEの精度)にのみフォーカスし、エージェント機能を無視している。
エージェント圧縮ベンチマーク(ACBench, Agent Compression Benchmark)は, LLMのエージェント能力にどのように影響するかを評価するための総合ベンチマークである。
ACBenchは、(1)ワークフロー生成のためのWorfBench、(2)量子化(GPTQ、AWQ)とプルーニング(Wanda、SparseGPT)の12のタスク、(3)小さな(Gemma-2B)、標準(Qwen2.5 7B-32B)、蒸留された推理LSM(DeepSeek-R1-Distill)を含む15のモデルにまたがる。
4ビット量子化はワークフロー生成とツール使用(1%-3%の削減)を保ちながら、実際のアプリケーションの精度を10%-15%低下させる。
分析の体系化のために,ERank,Top-k Ranking correlation and Energyを導入する。
ACBenchはエージェントシナリオでLLM圧縮を最適化するための実行可能な洞察を提供する。
コードはhttps://github.com/pprp/ACBench.comにある。
関連論文リスト
- R1-Compress: Long Chain-of-Thought Compression via Chunk Compression and Search [61.4807238517108]
CoT(Chain-of-Thought)推論は、ステップバイステップの問題解決を可能にすることで、大きな言語モデル(LLM)を強化する。
CoTのLong-CoTへの拡張はトークン長の増加による計算オーバーヘッドを大幅に増加させる。
ローカル情報とコヒーレンスの両方を保存する2段階のチャンクレベル圧縮フレームワークであるR1-Compressを提案する。
論文 参考訳(メタデータ) (2025-05-22T16:06:59Z) - Lillama: Large Language Models Compression via Low-Rank Feature Distillation [8.090496457850852]
ライラマ(英: Lillama)は、低ランク重量で活性化を蒸留する圧縮法である。
1つのA100 GPUでMixtral-8x7Bを数分で圧縮し、100億のパラメータを削除し、元のパフォーマンスの95%以上を保持した。
非トランスフォーマーアーキテクチャを一般化し、99%のパフォーマンスを維持しながら、Mamba-3Bを20%圧縮する。
論文 参考訳(メタデータ) (2024-12-21T18:04:01Z) - LLMCBench: Benchmarking Large Language Model Compression for Efficient Deployment [36.958867918858296]
大規模言語モデル (LLM) は、その強力な知能を実証しているが、計算とストレージの需要が高いため、実用化は困難である。
本稿ではLLMCBench(Large Language Model Compression Benchmark)を提案する。
論文 参考訳(メタデータ) (2024-10-28T14:45:01Z) - Long Context Compression with Activation Beacon [22.054232261437186]
Activation Beaconは、トランスフォーマーベースのLLM用のプラグインモジュールである。
長いコンテキストの効率的な、効率的、柔軟な圧縮をターゲットとしている。
推論時間の2倍の高速化と、KVキャッシュのメモリコストの8倍の削減を実現している。
論文 参考訳(メタデータ) (2024-01-07T11:57:40Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - Compressing LLMs: The Truth is Rarely Pure and Never Simple [90.05366363633568]
Knowledge-Intensive Compressed LLM BenchmarKは、圧縮された大言語モデルの評価プロトコルを再定義することを目的としている。
LLM-KICKは、現在のSoTA圧縮方式の多くの有利な利点と不運な点を明らかにしている。
LLM-KICKは、言語理解、推論、生成、テキスト内検索、テキスト内要約などのための圧縮LLMの能力に一様にアクセスできるように設計されている。
論文 参考訳(メタデータ) (2023-10-02T17:42:37Z) - SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight
Compression [76.73007709690306]
Sparse-Quantized Representation (SpQR) は,新しい圧縮フォーマットと量子化技術である。
SpQRは、高精度なLLaMAとFalcon LLMのパープレキシティにおいて、1%未満の相対的精度の損失を達成している。
これにより、1台の24GBのコンシューマGPU上で33BパラメータのLSMを実行でき、15%のスピードアップでパフォーマンスの劣化は発生しない。
論文 参考訳(メタデータ) (2023-06-05T17:53:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。