論文の概要: Compression Method Matters: Benchmark-Dependent Output Dynamics in LLM Prompt Compression
- arxiv url: http://arxiv.org/abs/2603.23527v1
- Date: Fri, 06 Mar 2026 22:39:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:13.016027
- Title: Compression Method Matters: Benchmark-Dependent Output Dynamics in LLM Prompt Compression
- Title(参考訳): 圧縮法:LLMプロンプト圧縮におけるベンチマーク依存出力ダイナミクス
- Authors: Warren Johnson,
- Abstract要約: 本稿では,アグレッシブ圧縮下でのベンチマーク依存出力ダイナミクスの再現と拡張について述べる。
我々は、タスククリティカルなプロンプトセグメントが停止後に残るかどうかをキャプチャする構造的指標である命令生存確率(Psi)を定式化する。
クロスベンチマーク評価のための圧縮ロバストネス指数(CRI)を導入し、シングルベンチマーク評価が圧縮安全性と効率について誤解を招く結果をもたらすことを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt compression is often evaluated by input-token reduction, but its real deployment impact depends on how compression changes output length and total inference cost. We present a controlled replication and extension study of benchmark-dependent output dynamics under aggressive compression, covering 5,400 API calls across three benchmarks and multiple providers. To explain conflicting prior observations, we formalize instruction survival probability (Psi), a structural metric that captures whether task-critical prompt segments remain after truncation. Results show a strong benchmark effect: under r=0.3, DeepSeek exhibits severe output expansion on MBPP (56x, Psi approx 0.15) but substantially lower expansion on HumanEval (5x, Psi approx 0.72), while GPT-4o-mini is comparatively stable across benchmarks. This reconciles the apparent discrepancy between previously reported extreme explosion and lower replication effects by identifying prompt structure, not provider identity alone, as the primary moderator. We introduce the Compression Robustness Index (CRI) for cross-benchmark evaluation and show that single-benchmark assessments can produce misleading conclusions about compression safety and efficiency. To contextualize energy claims, we incorporate companion direct NVML measurements from rented RunPod GPUs and show that token savings can overstate joule savings. These findings motivate benchmark-diverse testing and structure-aware compression policies for reliable, energy-conscious LLM deployment.
- Abstract(参考訳): プロンプト圧縮はインプット・トーケン・リダクションによって評価されることが多いが、実際の展開の影響は、圧縮が出力長と総推論コストをどのように変えるかに依存する。
本稿では,3つのベンチマークおよび複数のプロバイダにわたる5,400のAPIコールをカバーする,アグレッシブな圧縮条件下でのベンチマーク依存出力ダイナミクスのレプリケーションと拡張について検討する。
先行観測の矛盾を説明するために,タスククリティカルなプロンプトセグメントが停止後に残るかどうかを検知する構造的指標である命令生存確率(Psi)を定式化する。
r=0.3 では、DeepSeek は MBPP (56x, Psi approx 0.15) に対して強い出力拡張を示すが、HumanEval (5x, Psi approx 0.72) では著しく低い拡張を示す。
これにより、前述した極端な爆発と低い複製効果の明らかな相違は、プロバイダのアイデンティティのみではなく、プロンプト構造を一次モデレーターとして特定することで解決される。
クロスベンチマーク評価のための圧縮ロバストネス指数(CRI)を導入し、シングルベンチマーク評価が圧縮安全性と効率について誤解を招く結果をもたらすことを示す。
エネルギー要求を文脈的に評価するために、レンタルされたRunPod GPUのNVMLと組み合わせて計測し、トークンの保存がジュールセーブをオーバーステートできることを示す。
これらの知見は, 信頼性, エネルギー性に配慮したLCMデプロイメントのための, ベンチマーク多変量試験と構造対応圧縮ポリシを動機付けている。
関連論文リスト
- EchoKV: Efficient KV Cache Compression via Similarity-Based Reconstruction [55.026048429595384]
EchoKVは、標準と圧縮された推論間のオンデマンド移行を可能にする柔軟なKVキャッシュ圧縮スキームである。
高速で低コストなトレーニングを可能にする2段階の微調整戦略を導入する。
論文 参考訳(メタデータ) (2026-03-24T07:58:42Z) - Are We Using the Right Benchmark: An Evaluation Framework for Visual Token Compression Methods [54.4711434793961]
単純な画像ダウンサンプリングは、複数の広く使用されているベンチマークにおいて、多くの高度な圧縮方法より一貫して優れていることを示す。
これらの結果に触発され,既存のベンチマークを識別するデータフィルタリング機構を組み込んだ評価フレームワークであるVTC-Benchを導入する。
論文 参考訳(メタデータ) (2025-10-08T15:44:28Z) - The Pitfalls of KV Cache Compression [52.196873305708955]
圧縮により、特定の命令がより高速に劣化することを示します。
本稿では, 圧縮法, 命令順序, KV消去バイアスなど, 即時漏洩に果たすいくつかの要因について述べる。
論文 参考訳(メタデータ) (2025-09-30T19:55:26Z) - Can LLMs Maintain Fundamental Abilities under KV Cache Compression? [29.510433427184385]
各種基本言語モデルにおけるKVキャッシュ圧縮の効果を評価するためのベンチマークKVFundaBenchを提案する。
ショットレベルのセマンティックコヒーレンスを維持しつつ、プリフィルとデコードフェーズを処理する新しい圧縮手法ShotKVを提案する。
論文 参考訳(メタデータ) (2025-02-04T02:23:06Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - UNComp: Can Matrix Entropy Uncover Sparsity? -- A Compressor Design from an Uncertainty-Aware Perspective [85.08718140718707]
UNCompは不確実性を認識したフレームワークで、適応圧縮に使用できる空間パターンを明らかにする。
スパーシティパターンを詳細に分析する不確実性に注目して、UNCompはKVキャッシュサイズを4.74%に削減し、6%のプリフィルスピードアップを実現し、スループットを6.4倍改善した。
論文 参考訳(メタデータ) (2024-10-04T02:32:36Z) - Perception Compressor: A Training-Free Prompt Compression Framework in Long Context Scenarios [17.720102137585503]
Perceptionは、大規模な言語モデルのためのトレーニングフリーのプロンプト圧縮フレームワークである。
これには、指導的質問と指示を利用して、最も関連するデモンストレーションを検索する知覚検索機能が含まれる。
長いコンテキスト、ベンチマーク、iSie、LongBench、MuSiQueに関する広範な実験を行います。
論文 参考訳(メタデータ) (2024-09-28T07:13:33Z) - Do Compressed LLMs Forget Knowledge? An Experimental Study with
Practical Implications [63.29358103217275]
大規模言語モデル(LLM)は、特に知識集約的なタスクにおいて、パフォーマンスを低下させることが多い。
損傷の性質に関する2つの予想を提案する。1つは、圧縮後に忘れられた(または消された)知識である。
Inference-time Dynamic Prompting (IDP)と呼ばれる変種を導入し、推論オーバーヘッドを発生させることなく、迅速な多様性を効果的に向上させることができる。
論文 参考訳(メタデータ) (2023-10-02T03:12:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。