論文の概要: An Empirical Study on Prompt Compression for Large Language Models
- arxiv url: http://arxiv.org/abs/2505.00019v1
- Date: Thu, 24 Apr 2025 14:15:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:55.096651
- Title: An Empirical Study on Prompt Compression for Large Language Models
- Title(参考訳): 大規模言語モデルのプロンプト圧縮に関する実証的研究
- Authors: Zheng Zhang, Jinyi Li, Yihuai Lan, Xiang Wang, Hao Wang,
- Abstract要約: 本稿では、生成性能、モデル幻覚、マルチモーダルタスクの有効性、単語の省略分析などの側面を包括的に分析する。
実験の結果, 高速圧縮がLLM性能に与える影響は, 短時間に比べて大きいことがわかった。
- 参考スコア(独自算出の注目度): 17.488377850354915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt engineering enables Large Language Models (LLMs) to perform a variety of tasks. However, lengthy prompts significantly increase computational complexity and economic costs. To address this issue, we study six prompt compression methods for LLMs, aiming to reduce prompt length while maintaining LLM response quality. In this paper, we present a comprehensive analysis covering aspects such as generation performance, model hallucinations, efficacy in multimodal tasks, word omission analysis, and more. We evaluate these methods across 13 datasets, including news, scientific articles, commonsense QA, math QA, long-context QA, and VQA datasets. Our experiments reveal that prompt compression has a greater impact on LLM performance in long contexts compared to short ones. In the Longbench evaluation, moderate compression even enhances LLM performance. Our code and data is available at https://github.com/3DAgentWorld/Toolkit-for-Prompt-Compression.
- Abstract(参考訳): Prompt Engineeringにより、LLM(Large Language Models)は様々なタスクを実行できる。
しかし、長いプロンプトは計算の複雑さと経済的コストを大幅に増大させる。
そこで本研究では, LLMの応答品質を維持しつつ, 応答長を短縮する6つの高速圧縮手法について検討する。
本稿では, 生成性能, モデル幻覚, マルチモーダルタスクの有効性, 単語の省略分析などの側面を包括的に分析する。
これらの手法は、ニュース、科学論文、コモンセンスQA、数学QA、長文QA、VQAデータセットを含む13のデータセットにわたって評価する。
実験の結果, 高速圧縮がLLM性能に与える影響は, 短時間に比べて大きいことがわかった。
ロングベンチ評価では、中程度の圧縮によりLLM性能が向上する。
私たちのコードとデータはhttps://github.com/3DAgentWorld/Toolkit-for-Prompt-Compressionで公開されています。
関連論文リスト
- LLMCBench: Benchmarking Large Language Model Compression for Efficient Deployment [36.958867918858296]
大規模言語モデル (LLM) は、その強力な知能を実証しているが、計算とストレージの需要が高いため、実用化は困難である。
本稿ではLLMCBench(Large Language Model Compression Benchmark)を提案する。
論文 参考訳(メタデータ) (2024-10-28T14:45:01Z) - Compressing LLMs: The Truth is Rarely Pure and Never Simple [90.05366363633568]
Knowledge-Intensive Compressed LLM BenchmarKは、圧縮された大言語モデルの評価プロトコルを再定義することを目的としている。
LLM-KICKは、現在のSoTA圧縮方式の多くの有利な利点と不運な点を明らかにしている。
LLM-KICKは、言語理解、推論、生成、テキスト内検索、テキスト内要約などのための圧縮LLMの能力に一様にアクセスできるように設計されている。
論文 参考訳(メタデータ) (2023-10-02T17:42:37Z) - LM-Infinite: Zero-Shot Extreme Length Generalization for Large Language Models [83.98062659664785]
大規模言語モデル(LLM)は通常、トランスフォーマーアーキテクチャの2次複雑さのために短いテキストセグメント(例:4Kトークン)でトレーニングする。
この研究は、この長大一般化失敗に寄与する3つの主要な要因を特定する。
本研究では,LLMの長期処理能力を高めるための簡易かつ効果的な手法であるLM-Infiniteを提案する。
論文 参考訳(メタデータ) (2023-08-30T16:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。