論文の概要: ProCut: LLM Prompt Compression via Attribution Estimation
- arxiv url: http://arxiv.org/abs/2508.02053v1
- Date: Mon, 04 Aug 2025 04:44:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.176743
- Title: ProCut: LLM Prompt Compression via Attribution Estimation
- Title(参考訳): ProCut: LLM Prompt Compression by Attribution Estimation (英語)
- Authors: Zhentao Xu, Fengyi Li, Albert Chen, Xiaofeng Wang,
- Abstract要約: 属性推定(ProCut)によるPrompt圧縮について紹介する。
ProCutは柔軟性があり、LLMに依存しない、トレーニングなしのフレームワークで、帰属分析を通じてプロンプトを圧縮する。
ProCutは,タスク性能の維持や改善を図りながら,大幅なサイズ削減(運用時のトークンの78%削減)を実現している。
- 参考スコア(独自算出の注目度): 6.451103386643121
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In large-scale industrial LLM systems, prompt templates often expand to thousands of tokens as teams iteratively incorporate sections such as task instructions, few-shot examples, and heuristic rules to enhance robustness and coverage. This expansion leads to bloated prompts that are difficult to maintain and incur significant inference latency and serving costs. To address this, we introduce Prompt Compression via Attribution Estimation (ProCut), a flexible, LLM-agnostic, training-free framework that compresses prompts through attribution analysis. ProCut segments prompt templates into semantically meaningful units, quantifies their impact on task performance, and prunes low-utility components. Through extensive experiments on five public benchmark datasets and real-world industrial prompts, we show that ProCut achieves substantial prompt size reductions (78% fewer tokens in production) while maintaining or even slightly improving task performance (up to 62% better than alternative methods). We further introduce an LLM-driven attribution estimator that reduces compression latency by over 50%, and demonstrate that ProCut integrates seamlessly with existing prompt-optimization frameworks to produce concise, high-performing prompts.
- Abstract(参考訳): 大規模産業用LLMシステムでは、プロンプトテンプレートは、タスク命令、少数ショット例、堅牢性とカバレッジを高めるヒューリスティックルールなどのセクションを反復的に組み込むため、数千のトークンに拡張されることが多い。
この拡張は、メンテナンスが困難で、大きな推論遅延とサービスコストを発生させる、肥大化したプロンプトにつながります。
そこで本研究では,Prompt Compression via Attribution Estimation (ProCut)を紹介した。
ProCutセグメントはテンプレートを意味のあるユニットにプロンプトし、タスクパフォーマンスへの影響を定量化し、低ユーティリティコンポーネントを創出する。
5つの公開ベンチマークデータセットと実世界の産業的プロンプトに関する広範な実験を通して、ProCutは、タスクパフォーマンス(代替手法よりも最大62%向上)を維持しながら、相当に迅速なサイズ削減(本番でのトークンの78%削減)を実現していることを示す。
さらに、圧縮遅延を50%以上削減するLCM駆動の属性推定器を導入し、ProCutが既存のプロンプト最適化フレームワークとシームレスに統合し、簡潔で高性能なプロンプトを生成することを示した。
関連論文リスト
- Efficient and Effective Prompt Tuning via Prompt Decomposition and Compressed Outer Product [8.014705094248589]
低パラメータプロンプトチューニング法は、PT法とLoRA法で性能と効率を向上する。
6つのアーキテクチャと8つのデータセットにわたる実験により、LAMPはパフォーマンスと効率において、最先端のPTベースのメソッドとLoRAベースのメソッドより優れていることが示された。
論文 参考訳(メタデータ) (2025-02-16T05:50:12Z) - Self-Supervised Prompt Optimization [16.06653117043314]
十分に設計されたプロンプトは、Large Language Model(LLM)推論能力の強化に不可欠である。
既存のプロンプト最適化手法は、地上の真実や人間による外部参照に大きく依存している。
本稿では,閉じたタスクとオープンなタスクの両方に効果的なプロンプトを発見する費用効率のよいフレームワークであるセルフ・スーパービジョン・プロンプト・最適化(SPO)を提案する。
論文 参考訳(メタデータ) (2025-02-07T17:45:16Z) - FlexiGPT: Pruning and Extending Large Language Models with Low-Rank Weight Sharing [59.12511498024836]
本稿では,重み付けスコアに基づいてモデルブロックを選択的にプルーする大規模言語モデル(LLM)をプルーする手法を提案する。
重み共有機構を用いて各刈り込みブロックを置換する原理的計量を提案する。
経験的評価は、既存の方法よりも大幅にパフォーマンスが向上したことを示している。
論文 参考訳(メタデータ) (2025-01-24T18:46:37Z) - TrimLLM: Progressive Layer Dropping for Domain-Specific LLMs [11.615399679746675]
ドメイン固有のユースケースにおけるローカルデプロイメントのための大規模言語モデル(LLM)の専門化は、強力なパフォーマンスを実現する上で必要である。
我々は,現代のLLMで経験的に観察し,検証した層ワイド特殊化現象に基づいてTrimLLMを開発した。
特定のドメインにおけるLLMの能力を維持し、ハードウェアやディープラーニングフレームワークに関係なく、推論スピードアップが達成できることを示す。
論文 参考訳(メタデータ) (2024-12-15T16:47:16Z) - Efficient Inference for Large Language Model-based Generative Recommendation [78.38878421030522]
LLM(Large Language Model)ベースの生成レコメンデーションは目覚ましい成功を収めた。
ジェネレーティブレコメンデーションにSD(Speculative Decoding)を適用すると、トップKアイテムを生成する必要があるため、ユニークな課題が提示される。
我々は,厳密なトップK検証の下でトップKアライメントを最適化する AtSpeed-S というアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-07T16:23:36Z) - QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。
我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。
様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文 参考訳(メタデータ) (2024-08-20T03:06:48Z) - LiveMind: Low-latency Large Language Models with Simultaneous Inference [9.795240210326346]
大規模言語モデル(LLM)推論のための新しい低レイテンシ推論フレームワークであるLiveMindを紹介する。
計算処理を入力フェーズに再配置することで、レイテンシを大幅に削減できる。
このフレームワークは、モデルに対するストリーミングインプットの可視性を管理し、不完全なユーザインプットから推論したり、追加コンテンツを待つことができる。
論文 参考訳(メタデータ) (2024-06-20T13:52:30Z) - On the Worst Prompt Performance of Large Language Models [93.13542053835542]
大規模言語モデル(LLM)の性能は,プロンプトの表現に非常に敏感である。
セマンティックに等価なケースレベルのクエリで構成される新しいベンチマークであるRobustAlpacaEvalを紹介する。
RobustAlpacaEvalとChatGPT、およびLlama、Mistral、Gemmaファミリーの6つのオープンソースLLMによる実験により、モデル性能のかなりのばらつきが明らかになった。
論文 参考訳(メタデータ) (2024-06-08T13:40:38Z) - Compressing LLMs: The Truth is Rarely Pure and Never Simple [90.05366363633568]
Knowledge-Intensive Compressed LLM BenchmarKは、圧縮された大言語モデルの評価プロトコルを再定義することを目的としている。
LLM-KICKは、現在のSoTA圧縮方式の多くの有利な利点と不運な点を明らかにしている。
LLM-KICKは、言語理解、推論、生成、テキスト内検索、テキスト内要約などのための圧縮LLMの能力に一様にアクセスできるように設計されている。
論文 参考訳(メタデータ) (2023-10-02T17:42:37Z) - Do Compressed LLMs Forget Knowledge? An Experimental Study with
Practical Implications [63.29358103217275]
大規模言語モデル(LLM)は、特に知識集約的なタスクにおいて、パフォーマンスを低下させることが多い。
損傷の性質に関する2つの予想を提案する。1つは、圧縮後に忘れられた(または消された)知識である。
Inference-time Dynamic Prompting (IDP)と呼ばれる変種を導入し、推論オーバーヘッドを発生させることなく、迅速な多様性を効果的に向上させることができる。
論文 参考訳(メタデータ) (2023-10-02T03:12:06Z) - Compress, Then Prompt: Improving Accuracy-Efficiency Trade-off of LLM
Inference with Transferable Prompt [96.24800696597707]
圧縮モデルにより,このトレードオフを最適化する新たな視点を導入する。
本稿では,圧縮されたモデルを学習プロセスに公開するソフトプロンプト学習法を提案する。
我々のソフトプロンプト戦略は8x圧縮LLaMA-7Bモデルの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-05-17T20:45:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。