論文の概要: Cmprsr: Abstractive Token-Level Question-Agnostic Prompt Compressor
- arxiv url: http://arxiv.org/abs/2511.12281v1
- Date: Sat, 15 Nov 2025 16:28:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.80004
- Title: Cmprsr: Abstractive Token-Level Question-Agnostic Prompt Compressor
- Title(参考訳): Cmprsr: 抽象的なToken-Level Question-Agnostic Prompt Compressor
- Authors: Ivan Zakazov, Alexander Sharipov, Berke Argin, Oussama Gabouj, Kamel Charaf, Alexi Semiz, Lorenzo Drudi, Nicolas Baldwin, Robert West,
- Abstract要約: LLM-as-a-compressorベンチマークは25のオープンソースモデルとクローズドソースモデルにまたがる。
我々は,テキストグラデーションに基づく圧縮メタプロンプト最適化により,最高のバニラ圧縮器の性能を向上させる。
得られたモデルをCmprsrと呼び、抽出圧縮とバニラ抽象圧縮の両方よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 36.57824786347272
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motivated by the high costs of using black-box Large Language Models (LLMs), we introduce a novel prompt compression paradigm, under which we use smaller LLMs to compress inputs for the larger ones. We present the first comprehensive LLM-as-a-compressor benchmark spanning 25 open- and closed-source models, which reveals significant disparity in models' compression ability in terms of (i) preserving semantically important information (ii) following the user-provided compression rate (CR). We further improve the performance of gpt-4.1-mini, the best overall vanilla compressor, with Textgrad-based compression meta-prompt optimization. We also identify the most promising open-source vanilla LLM - Qwen3-4B - and post-train it with a combination of supervised fine-tuning (SFT) and Group Relative Policy Optimization (GRPO), pursuing the dual objective of CR adherence and maximizing the downstream task performance. We call the resulting model Cmprsr and demonstrate its superiority over both extractive and vanilla abstractive compression across the entire range of compression rates on lengthy inputs from MeetingBank and LongBench as well as short prompts from GSM8k. The latter highlights Cmprsr's generalizability across varying input lengths and domains. Moreover, Cmprsr closely follows the requested compression rate, offering fine control over the cost-quality trade-off.
- Abstract(参考訳): ブラックボックス大言語モデル (LLM) の高コスト化により,我々は,より小さな LLM を用いてより大規模な言語に対する入力を圧縮する,新しいプロンプト圧縮パラダイムを導入する。
25個のオープンソースモデルとクローズドソースモデルにまたがる最初の総合的なLCM-as-a-compressorベンチマークを示す。
一 意味的に重要な情報を保存すること
(ii) ユーザ提供圧縮率(CR)に従う。
テキストグラデーションに基づく圧縮メタプロンプト最適化により,バニラ圧縮機として最高のgpt-4.1-miniの性能をさらに向上する。
また、最も有望なオープンソースバニラLLM - Qwen3-4B を特定し、教師付き微調整(SFT)とグループ相対ポリシー最適化(GRPO)を組み合わせた後トレーニングを行い、CR付着の二重目的を追求し、下流タスク性能を最大化する。
得られたモデル Cmprsr を,FundBank および LongBench からの長文入力に対する圧縮速度と GSM8k からのショートプロンプトに対して,抽出圧縮とバニラ抽象圧縮の両方よりも優れていることを示す。
後者は Cmprsr の様々な入力長と領域にわたる一般化性を強調している。
さらに、Cmprsrは要求された圧縮率に密接に従い、コスト品質のトレードオフをきめ細かな制御を提供する。
関連論文リスト
- VisionSelector: End-to-End Learnable Visual Token Compression for Efficient Multimodal LLMs [82.72388893596555]
MLLM(Multimodal Large Language Models)は、計算とメモリのボトルネックに遭遇する。
従来のトークン圧縮技術は、重要な情報を破棄するリスクを負うルールによって制約されることが多い。
我々は,トークン圧縮をエンドツーエンドの学習可能な決定プロセスに再構成する軽量なプラグアンドプレイフレームワークとして,トークン圧縮を再構成する。
論文 参考訳(メタデータ) (2025-10-18T17:54:18Z) - Compressing Many-Shots in In-Context Learning [61.231471139896506]
マルチショットプロンプトを圧縮することにより,ICL推論のメモリと計算効率を向上させる手法を提案する。
まず,既存のプロンプト圧縮手法がマルチショット圧縮には有効でないことを示す。
本稿では,レイヤワイド圧縮手法であるMemComを提案する。
論文 参考訳(メタデータ) (2025-10-17T16:57:42Z) - Large Language Models for Lossless Image Compression: Next-Pixel Prediction in Language Space is All You Need [53.584140947828004]
前例のないインテリジェンスを持つ言語大モデル(LLM)は、様々なデータモダリティのための汎用ロスレス圧縮機である。
P$2$-LLMは,様々な入念な洞察と方法論を統合した次世代の予測型LLMである。
ベンチマークデータセットの実験では、P$2$-LLMがSOTAの古典的および学習的コーデックに勝ることを示した。
論文 参考訳(メタデータ) (2024-11-19T12:15:40Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - Retaining Key Information under High Compression Ratios: Query-Guided Compressor for LLMs [35.91962517513945]
圧縮比が増加するにつれて従来の手法の性能は劇的に低下し、時にはクローズドブックレベルにまで低下する。
本稿では、クエリを利用してコンテキスト圧縮プロセスをガイドするQuery-Guided (QGC)を紹介する。
提案したQGCの有効性を,NaturalQuestions,TriviaQA,HotpotQAデータセットを含む質問応答タスクで検証する。
論文 参考訳(メタデータ) (2024-06-04T14:53:24Z) - LLMLingua-2: Data Distillation for Efficient and Faithful Task-Agnostic Prompt Compression [43.048684907893104]
本稿では, タスク非依存のプロンプト圧縮に着目し, 一般化性と効率性の向上を図る。
我々は,プロンプト圧縮をトークン分類問題として定式化し,圧縮されたプロンプトが元のプロンプトに忠実であることを保証する。
提案手法は, XLM-RoBERTa-large や mBERT などの小型モデルを用いて圧縮目標を明示的に学習することにより,低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-03-19T17:59:56Z) - Long Context Compression with Activation Beacon [22.054232261437186]
Activation Beaconは、トランスフォーマーベースのLLM用のプラグインモジュールである。
長いコンテキストの効率的な、効率的、柔軟な圧縮をターゲットとしている。
推論時間の2倍の高速化と、KVキャッシュのメモリコストの8倍の削減を実現している。
論文 参考訳(メタデータ) (2024-01-07T11:57:40Z) - GAN Slimming: All-in-One GAN Compression by A Unified Optimization
Framework [94.26938614206689]
本稿では,GANスライミング(GAN Slimming)と呼ばれる,GAN圧縮のための複数の圧縮手段を組み合わせた最初の統一最適化フレームワークを提案する。
我々はGSを用いて、最先端のトランスファーネットワークであるCartoonGANを最大47倍圧縮し、視覚的品質を最小限に抑える。
論文 参考訳(メタデータ) (2020-08-25T14:39:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。