Fugu-MT 論文翻訳(概要): Can Compressed LLMs Truly Act? An Empirical Evaluation of Agentic Capabilities in LLM Compression

論文の概要: Can Compressed LLMs Truly Act? An Empirical Evaluation of Agentic Capabilities in LLM Compression

arxiv url: http://arxiv.org/abs/2505.19433v1
Date: Mon, 26 May 2025 02:49:07 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-27 16:58:43.122151
Title: Can Compressed LLMs Truly Act? An Empirical Evaluation of Agentic Capabilities in LLM Compression
Title（参考訳）: 圧縮LDMは真に作用するか? : LLM圧縮におけるエージェント能力の実証評価
Authors: Peijie Dong, Zhenheng Tang, Xiang Liu, Lujun Li, Xiaowen Chu, Bo Li,
Abstract要約: 学習後圧縮は大規模言語モデル(LLM)の計算コストとメモリコストを削減する既存の圧縮ベンチマークは、言語モデリングと自然言語理解タスクのみに焦点を当てている。圧縮がLLMのエージェント能力に与える影響を評価するための,最初の包括的なベンチマークであるACBenchを紹介する。
参考スコア（独自算出の注目度）: 19.447797559761135
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Post-training compression reduces the computational and memory costs of large language models (LLMs), enabling resource-efficient deployment. However, existing compression benchmarks only focus on language modeling (e.g., perplexity) and natural language understanding tasks (e.g., GLUE accuracy), ignoring the agentic capabilities - workflow, tool use/function call, long-context understanding and real-world application. We introduce the Agent Compression Benchmark (ACBench), the first comprehensive benchmark for evaluating how compression impacts LLMs' agentic abilities. ACBench spans (1) 12 tasks across 4 capabilities (e.g., WorfBench for workflow generation, Needle-in-Haystack for long-context retrieval), (2) quantization (GPTQ, AWQ) and pruning (Wanda, SparseGPT), and (3) 15 models, including small (Gemma-2B), standard (Qwen2.5 7B-32B), and distilled reasoning LLMs (DeepSeek-R1-Distill). Our experiments reveal compression tradeoffs: 4-bit quantization preserves workflow generation and tool use (1%-3% drop) but degrades real-world application accuracy by 10%-15%. We introduce ERank, Top-k Ranking Correlation and Energy to systematize analysis. ACBench provides actionable insights for optimizing LLM compression in agentic scenarios. The code can be found in https://github.com/pprp/ACBench.
Abstract（参考訳）: トレーニング後の圧縮により、大規模言語モデル(LLM)の計算コストとメモリコストが削減され、リソース効率が向上する。しかし、既存の圧縮ベンチマークは、言語モデリング(例えば、パープレキシティ)と自然言語理解タスク(例えば、GLUEの精度)にのみフォーカスし、エージェント機能を無視している。エージェント圧縮ベンチマーク(ACBench, Agent Compression Benchmark)は, LLMのエージェント能力にどのように影響するかを評価するための総合ベンチマークである。 ACBenchは、(1)ワークフロー生成のためのWorfBench、(2)量子化(GPTQ、AWQ)とプルーニング(Wanda、SparseGPT)の12のタスク、(3)小さな(Gemma-2B)、標準(Qwen2.5 7B-32B)、蒸留された推理LSM(DeepSeek-R1-Distill)を含む15のモデルにまたがる。 4ビット量子化はワークフロー生成とツール使用(1%-3%の削減)を保ちながら、実際のアプリケーションの精度を10%-15%低下させる。分析の体系化のために,ERank,Top-k Ranking correlation and Energyを導入する。 ACBenchはエージェントシナリオでLLM圧縮を最適化するための実行可能な洞察を提供する。コードはhttps://github.com/pprp/ACBench.comにある。

関連論文リスト

Distilling LLM Agent into Small Models with Retrieval and Code Tools [57.61747522001781]
Agent Distillationは、推論能力とタスク解決の振る舞いを大きな言語モデルから小さな言語モデルに移行するためのフレームワークである。その結果,SLMは0.5B,1.5B,3Bのパラメータで,次世代の1.5B,3B,7Bモデルと競合する性能が得られることがわかった。
論文参考訳（メタデータ） (2025-05-23T08:20:15Z)
R1-Compress: Long Chain-of-Thought Compression via Chunk Compression and Search [61.4807238517108]
CoT(Chain-of-Thought)推論は、ステップバイステップの問題解決を可能にすることで、大きな言語モデル(LLM)を強化する。 CoTのLong-CoTへの拡張はトークン長の増加による計算オーバーヘッドを大幅に増加させる。ローカル情報とコヒーレンスの両方を保存する2段階のチャンクレベル圧縮フレームワークであるR1-Compressを提案する。
論文参考訳（メタデータ） (2025-05-22T16:06:59Z)
Beyond RAG: Task-Aware KV Cache Compression for Comprehensive Knowledge Reasoning [23.376181947937788]
ゼロまたは少数ショット設定で外部知識を圧縮するタスク対応キー値(KV)キャッシュ圧縮を提案する。実験の結果,本手法はRAG法とタスク非依存圧縮法の両方に優れていた。合成データセットは、粗いエビデンスで十分であるのに対して、タスク認識圧縮は幅広い知識タスクに優れていることを強調している。
論文参考訳（メタデータ） (2025-03-06T21:07:41Z)
Lillama: Large Language Models Compression via Low-Rank Feature Distillation [8.090496457850852]
ライラマ(英: Lillama)は、低ランク重量で活性化を蒸留する圧縮法である。 1つのA100 GPUでMixtral-8x7Bを数分で圧縮し、100億のパラメータを削除し、元のパフォーマンスの95%以上を保持した。非トランスフォーマーアーキテクチャを一般化し、99%のパフォーマンスを維持しながら、Mamba-3Bを20%圧縮する。
論文参考訳（メタデータ） (2024-12-21T18:04:01Z)
LLMCBench: Benchmarking Large Language Model Compression for Efficient Deployment [36.958867918858296]
大規模言語モデル (LLM) は、その強力な知能を実証しているが、計算とストレージの需要が高いため、実用化は困難である。本稿ではLLMCBench(Large Language Model Compression Benchmark)を提案する。
論文参考訳（メタデータ） (2024-10-28T14:45:01Z)
Long Context Compression with Activation Beacon [22.054232261437186]
Activation Beaconは、トランスフォーマーベースのLLM用のプラグインモジュールである。長いコンテキストの効率的な、効率的、柔軟な圧縮をターゲットとしている。推論時間の2倍の高速化と、KVキャッシュのメモリコストの8倍の削減を実現している。
論文参考訳（メタデータ） (2024-01-07T11:57:40Z)
ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。 LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文参考訳（メタデータ） (2023-11-16T12:03:21Z)
Compressing LLMs: The Truth is Rarely Pure and Never Simple [90.05366363633568]
Knowledge-Intensive Compressed LLM BenchmarKは、圧縮された大言語モデルの評価プロトコルを再定義することを目的としている。 LLM-KICKは、現在のSoTA圧縮方式の多くの有利な利点と不運な点を明らかにしている。 LLM-KICKは、言語理解、推論、生成、テキスト内検索、テキスト内要約などのための圧縮LLMの能力に一様にアクセスできるように設計されている。
論文参考訳（メタデータ） (2023-10-02T17:42:37Z)
SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight Compression [76.73007709690306]
Sparse-Quantized Representation (SpQR) は,新しい圧縮フォーマットと量子化技術である。 SpQRは、高精度なLLaMAとFalcon LLMのパープレキシティにおいて、1%未満の相対的精度の損失を達成している。これにより、1台の24GBのコンシューマGPU上で33BパラメータのLSMを実行でき、15%のスピードアップでパフォーマンスの劣化は発生しない。
論文参考訳（メタデータ） (2023-06-05T17:53:28Z)
Compress, Then Prompt: Improving Accuracy-Efficiency Trade-off of LLM Inference with Transferable Prompt [96.24800696597707]
圧縮モデルにより,このトレードオフを最適化する新たな視点を導入する。本稿では,圧縮されたモデルを学習プロセスに公開するソフトプロンプト学習法を提案する。我々のソフトプロンプト戦略は8x圧縮LLaMA-7Bモデルの性能を大幅に向上させることを示す。
論文参考訳（メタデータ） (2023-05-17T20:45:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。