論文の概要: CompactPrompt: A Unified Pipeline for Prompt Data Compression in LLM Workflows
- arxiv url: http://arxiv.org/abs/2510.18043v1
- Date: Mon, 20 Oct 2025 19:31:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.539918
- Title: CompactPrompt: A Unified Pipeline for Prompt Data Compression in LLM Workflows
- Title(参考訳): CompactPrompt: LLMワークフローにおけるプロンプトデータ圧縮のための統一パイプライン
- Authors: Joong Ho Choi, Jiayang Zhao, Jeel Shah, Ritvika Sonawane, Vedant Singh, Avani Appalla, Will Flanagan, Filipe Condessa,
- Abstract要約: 大規模言語モデル(LLM)は強力な推論と生成能力を提供するが、かなりのランタイムコストを発生させる。
我々は,高速なプロンプト圧縮と軽量なファイルレベルのデータ圧縮を融合したエンドツーエンドパイプラインであるCompactPromptを紹介する。
- 参考スコア(独自算出の注目度): 0.9275065651255189
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large Language Models (LLMs) deliver powerful reasoning and generation capabilities but incur substantial run-time costs when operating in agentic workflows that chain together lengthy prompts and process rich data streams. We introduce CompactPrompt, an end-to-end pipeline that merges hard prompt compression with lightweight file-level data compression. CompactPrompt first prunes low-information tokens from prompts using self-information scoring and dependency-based phrase grouping. In parallel, it applies n-gram abbreviation to recurrent textual patterns in attached documents and uniform quantization to numerical columns, yielding compact yet semantically faithful representations. Integrated into standard LLM agents, CompactPrompt reduces total token usage and inference cost by up to 60% on benchmark dataset like TAT-QA and FinQA, while preserving output quality (Results in less than 5% accuracy drop for Claude-3.5-Sonnet, and GPT-4.1-Mini) CompactPrompt helps visualize real-time compression decisions and quantify cost-performance trade-offs, laying the groundwork for leaner generative AI pipelines.
- Abstract(参考訳): 大きな言語モデル(LLM)は強力な推論と生成機能を提供しますが、長いプロンプトをまとめてリッチなデータストリームを処理するエージェントワークフローで運用する場合、かなりの実行時間コストがかかります。
我々は,高速なプロンプト圧縮と軽量なファイルレベルのデータ圧縮を融合したエンドツーエンドパイプラインであるCompactPromptを紹介する。
CompactPromptはまず、自己情報スコアリングと依存性ベースのフレーズグループ化を使用して、プロンプトから低情報トークンを抽出する。
平行して、添付文書の反復的なテクスチャパターンにn-gramの略を適用し、数値列に均一な量子化を行い、コンパクトだが意味的に忠実な表現をもたらす。
標準的なLCMエージェントに統合されたCompactPromptは、TAT-QAやFinQAといったベンチマークデータセットの総トークン使用量と推論コストを最大60%削減すると同時に、出力品質(Claude-3.5-SonnetとGPT-4.1-Miniの5%未満の精度低下の結果)を保ちながら、リアルタイム圧縮の決定を可視化し、コストパフォーマンスのトレードオフを定量化するのに役立つ。
関連論文リスト
- CompLLM: Compression for Long Context Q&A [47.90063873976842]
そこで本研究では,実用的デプロイメント用に設計されたソフト圧縮技術であるCompLLMを紹介する。
CompLLMはコンテキストを水平に処理する代わりにセグメントに分割し、それぞれを独立して圧縮する。
実験の結果,2倍圧縮速度でコンテクスト長のCompLLMでは,TTFT(Time To First Token)を最大4倍高速化し,KVキャッシュサイズを50%削減できることがわかった。
論文 参考訳(メタデータ) (2025-09-23T16:49:43Z) - Task-agnostic Prompt Compression with Context-aware Sentence Embedding and Reward-guided Task Descriptor [16.830389144259584]
Task-Agnostic Prompt Compression (TPC)は、入力質問やテンプレートを必要とせずにタスクやドメイン間の圧縮を一般化する新しいフレームワークである。
TPCは、コンテキストとクエリペアのキュレートされたデータセットに基づいてトレーニングされたタスク記述子を使用して、コンテキスト関連タスク記述を生成する。
我々は,LongBenchおよびZeroSCROLLSベンチマークにおいて,既存の最先端手法よりも優れた3つのモデルサイズ(Base, Large, Huge)を導入する。
論文 参考訳(メタデータ) (2025-02-19T02:16:29Z) - ICPC: In-context Prompt Compression with Faster Inference [0.0]
I CPC(In-context Prompt Compression)は,新規かつスケーラブルなプロンプト圧縮手法であり,プロンプト長を適応的に削減する。
I CPCの鍵となる考え方は、エンコーダを用いてプロンプトに現れる各単語の確率を計算し、情報関数を介して各単語が持つ情報を計算することである。
実験により、I CPCは、異なるカテゴリの長いテキストを効果的に圧縮し、異なるタイプのNLPタスクにおいてより優れた性能と速度を実現することができることを示した。
論文 参考訳(メタデータ) (2025-01-03T03:46:51Z) - BRIEF: Bridging Retrieval and Inference for Multi-hop Reasoning via Compression [91.23933111083389]
Retrieval-augmented Generation (RAG)は、外部知識を統合することで、大きな言語モデル(LLM)を補完することができる。
本稿では,クエリ対応マルチホップ推論を行う軽量なアプローチであるBRIEFを提案する。
オープンソースモデルで構築した合成データに基づいて,BRIEFはより簡潔な要約を生成する。
論文 参考訳(メタデータ) (2024-10-20T04:24:16Z) - Lightweight Correlation-Aware Table Compression [58.50312417249682]
$texttVirtual$は、既存のオープンフォーマットとシームレスに統合されるフレームワークである。
data-govデータセットの実験によると、$texttVirtual$はApache Parquetと比較してファイルサイズを最大40%削減する。
論文 参考訳(メタデータ) (2024-10-17T22:28:07Z) - LLMLingua-2: Data Distillation for Efficient and Faithful Task-Agnostic Prompt Compression [43.048684907893104]
本稿では, タスク非依存のプロンプト圧縮に着目し, 一般化性と効率性の向上を図る。
我々は,プロンプト圧縮をトークン分類問題として定式化し,圧縮されたプロンプトが元のプロンプトに忠実であることを保証する。
提案手法は, XLM-RoBERTa-large や mBERT などの小型モデルを用いて圧縮目標を明示的に学習することにより,低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-03-19T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。