論文の概要: The Compression Paradox in LLM Inference: Provider-Dependent Energy Effects of Prompt Compression
- arxiv url: http://arxiv.org/abs/2603.23528v1
- Date: Fri, 06 Mar 2026 23:31:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:13.016873
- Title: The Compression Paradox in LLM Inference: Provider-Dependent Energy Effects of Prompt Compression
- Title(参考訳): LLM推論における圧縮パラドックス:プロンプト圧縮のプロバイダ依存エネルギー効果
- Authors: Warren Johnson,
- Abstract要約: 28,421件のAPI試験において,即時圧縮により推論エネルギー効率が向上するかどうかを検証した。
評価された設定では、モデル選択と出力長制御により、即時圧縮よりも一貫したエネルギー品質のトレードオフが得られる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid proliferation of Large Language Models has created an environmental paradox: the very technology that could help solve climate challenges is itself becoming a significant contributor to global carbon emissions. We test whether prompt compression improves inference energy efficiency in 28,421 successful API trials (28,428 planned) across three providers (OpenAI GPT-4o-mini, Anthropic Claude-3.5-Sonnet, and DeepSeek-Chat), five benchmarks (HumanEval, MBPP, GSM8K, MATH, MMLU), and four compression ratios (r in {1.0, 0.7, 0.5, 0.3}). Energy is estimated with a token-based proxy calibrated against local direct measurements, and quality is tracked with benchmark pass rates. Compression produced substantial quality loss (overall pass rate 26.0% at baseline vs. 1.5% at r=0.7) and strongly provider-dependent energy behavior. DeepSeek exhibited output expansion under compression (21 to 798 tokens at r=0.3), corresponding to energy increases up to +2,140%, while GPT-4o-mini showed mixed effects including a reduction at r=0.5. These results indicate that input-token reduction alone is not a reliable energy optimization strategy in production inference. For the evaluated settings, model selection and output-length control provided more consistent energy-quality tradeoffs than prompt compression.
- Abstract(参考訳): 大きな言語モデルの急速な普及は、環境パラドックスを生み出している。気候変動の課題を解決するための技術は、それ自体がグローバルな二酸化炭素排出量に重要な貢献者になりつつある。
提案手法は,3つのプロバイダ(OpenAI GPT-4o-mini, Anthropic Claude-3.5-Sonnet, DeepSeek-Chat),5つのベンチマーク(HumanEval, MBPP, GSM8K, MATH, MMLU),4つの圧縮比(r in {1.0, 0.7, 0.5, 0.3})を対象に,28,428件のAPI試験に成功した。
エネルギーは、局所的な直接測定に対して調整されたトークンベースのプロキシで推定され、品質はベンチマークパスレートで追跡される。
圧縮は、実質的な品質の損失(ベースラインでは26.0%、r=0.7では1.5%)と、プロバイダに依存したエネルギーの挙動を強く引き起こした。
DeepSeekは圧縮下での出力膨張(r=0.3の21~798トークン)を+2,140%まで増加させ、GPT-4o-miniはr=0.5の還元を含む混合効果を示した。
これらの結果から, インプット・トケン・リダクションだけでは, 生産推定における信頼性の高いエネルギー最適化戦略ではないことが示唆された。
評価された設定では、モデル選択と出力長制御により、即時圧縮よりも一貫したエネルギー品質のトレードオフが得られる。
関連論文リスト
- Compression Method Matters: Benchmark-Dependent Output Dynamics in LLM Prompt Compression [0.0]
本稿では,アグレッシブ圧縮下でのベンチマーク依存出力ダイナミクスの再現と拡張について述べる。
我々は、タスククリティカルなプロンプトセグメントが停止後に残るかどうかをキャプチャする構造的指標である命令生存確率(Psi)を定式化する。
クロスベンチマーク評価のための圧縮ロバストネス指数(CRI)を導入し、シングルベンチマーク評価が圧縮安全性と効率について誤解を招く結果をもたらすことを示す。
論文 参考訳(メタデータ) (2026-03-06T22:39:27Z) - Prompt Compression in Production Task Orchestration: A Pre-Registered Randomized Trial [0.05586191108738562]
即時圧縮の経済性は、入力トークンの削減だけでなく、圧縮が出力長をどのように変化させるかにも依存する。
実運用マルチエージェントタスクオーケストレーションにおける即時圧縮を予め登録した6腕ランダム化制御試行において,これを評価した。
論文 参考訳(メタデータ) (2026-03-06T21:47:34Z) - Towards Green AI: Decoding the Energy of LLM Inference in Software Development [46.879983975894135]
AI支援ツールはソフトウェア開発にますます統合されているが、大きな言語モデル(LLM)に依存しているため、相当な計算とエネルギーコストが伴う。
モデルが入力を処理して内部表現を構築した(1)プリフィルと,(2)デコードで格納された状態を用いて出力トークンを生成する(2)プリフィルとを区別し,LCM推定エネルギー消費の位相レベル解析を行う。
論文 参考訳(メタデータ) (2026-02-05T14:38:19Z) - Green MLOps: Closed-Loop, Energy-Aware Inference with NVIDIA Triton, FastAPI, and Bio-Inspired Thresholding [0.0]
バイオインスパイアされたフレームワークは、タンパク質の折りたたみエネルギー盆地をコストの展望にマッピングする。
電力対エネルギーのトレードオフが望ましい場合にのみ、要求が認められます。
結果は、バイオ物理エネルギーモデルとグリーンMLORTOpsを結びつけ、生産におけるクローズドループエネルギー認識推論の実践的で監査可能な基礎を提供する。
論文 参考訳(メタデータ) (2026-01-06T15:50:11Z) - The Environmental Impact of Ensemble Techniques in Recommender Systems [0.0]
推薦システムにおけるアンサンブル技術は10~30%の精度向上を実証しているが、その環境影響は未測定のままである。
この論文は、単一最適化モデルと比較してアンサンブル技術が環境に与える影響について考察する。
論文 参考訳(メタデータ) (2025-11-10T14:06:58Z) - EfficientLLM: Efficiency in Large Language Models [64.3537131208038]
大規模言語モデル(LLM)は大きな進歩を導いてきたが、その増加とコンテキストウィンドウは計算、エネルギー、金銭的コストを禁止している。
本稿では,新しいベンチマークであるEfficientLLMを紹介する。
論文 参考訳(メタデータ) (2025-05-20T02:27:08Z) - Breaking the Compression Ceiling: Data-Free Pipeline for Ultra-Efficient Delta Compression [57.71917274869577]
UltraDeltaはデータフリーのデルタ圧縮パイプラインで、超高圧縮と強力なパフォーマンスを実現する。
UltraDeltaは、冗長性を最小化し、情報を最大化し、層間、層内、大域的な寸法で性能を安定させるように設計されている。
論文 参考訳(メタデータ) (2025-05-19T10:37:22Z) - How Hungry is AI? Benchmarking Energy, Water, and Carbon Footprint of LLM Inference [0.0]
本稿では,商用データセンタにデプロイされる30の最先端モデルを対象とした,AI推論の環境フットプリントを定量化する,新たなインフラストラクチャ対応ベンチマークフレームワークを提案する。
以上の結果から,O3とDeepSeek-R1が最もエネルギー集約的なモデルとして出現し,GPT-4.1ナノの70倍以上のGPT-4.1ナノを消費し,Claude-3.7 Sonnetはエコ効率で最高であることがわかった。
AIは安価で速くなっているが、そのグローバルな採用はリソース消費を不均等にしている。
論文 参考訳(メタデータ) (2025-05-14T17:47:00Z) - xCOMET-lite: Bridging the Gap Between Efficiency and Quality in Learned MT Evaluation Metrics [69.14652127492438]
xCOMETのような最先端の機械翻訳評価指標は、人間の判断と高い相関性を得るが、大きなエンコーダに依存している。
我々は, 蒸留, 定量化, プルーニング技術を用いて, 効率的なxCOMET代替品を作成する。
量子化により,xCOMETは3倍の圧縮が可能であり,品質劣化は生じない。
論文 参考訳(メタデータ) (2024-06-20T17:58:34Z) - Towards Compact CNNs via Collaborative Compression [166.86915086497433]
チャネルプルーニングとテンソル分解を結合してCNNモデルを圧縮する協調圧縮方式を提案する。
52.9%のFLOPを削減し、ResNet-50で48.4%のパラメータを削除しました。
論文 参考訳(メタデータ) (2021-05-24T12:07:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。