論文の概要: PoC: Performance-oriented Context Compression for Large Language Models via Performance Prediction
- arxiv url: http://arxiv.org/abs/2603.19733v1
- Date: Fri, 20 Mar 2026 08:18:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 19:48:39.04953
- Title: PoC: Performance-oriented Context Compression for Large Language Models via Performance Prediction
- Title(参考訳): PoC: パフォーマンス予測による大規模言語モデルのパフォーマンス指向コンテキスト圧縮
- Authors: Runsong Zhao, Shilei Liu, Jiwei Tang, Langming Liu, Haibin Chen, Weidong Zhang, Yujin Yuan, Tong Xiao, Jingbo Zhu, Wenbo Su, Bo Zheng,
- Abstract要約: パフォーマンス指向コンテキスト圧縮(PoC)へのパラダイムシフトを導入する。
PoCは、最も攻撃的な圧縮比を自動的に見つけるために、軽量なパフォーマンス予測器を使用している。
我々の研究は、より信頼性が高く、効率的で、パフォーマンスに配慮した大規模言語モデルのためのコンテキスト圧縮の展開の道を開いた。
- 参考スコア(独自算出の注目度): 40.705016911274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While context compression can mitigate the growing inference costs of Large Language Models (LLMs) by shortening contexts, existing methods that specify a target compression ratio or length suffer from unpredictable performance degradation, hindering their reliable deployment. We introduce a paradigm shift to Performance-oriented Context Compression (PoC), where developers specify an acceptable performance floor instead of a compression ratio. PoC employs a lightweight performance predictor to automatically find the most aggressive compression ratio that satisfies this constraint before steering an off-the-shelf compressor. We design and compare two predictor variants: a simple context-agnostic predictor and a more sophisticated context-aware one that considers the input's inherent compressibility. On both question-answering and summarization benchmarks, the context-aware predictor consistently achieves lower performance prediction error than the context-agnostic predictor, while the resulting context-aware PoC attains a superior overall performance. Our work paves the way for a more reliable, efficient, and performance-aware deployment of context compression for LLMs.
- Abstract(参考訳): コンテキスト圧縮は、コンテキスト短縮によるLarge Language Models(LLMs)の増大する推論コストを軽減することができるが、対象の圧縮率や長さを指定する既存の方法は予測不可能なパフォーマンス劣化に悩まされ、信頼性の高いデプロイメントを妨げている。
本稿では,パフォーマンス指向のコンテキスト圧縮(PoC)へのパラダイムシフトを紹介する。
PoCは軽量な性能予測器を使用して、既製の圧縮機を操縦する前に、この制約を満たす最も攻撃的な圧縮比を自動的に見つける。
我々は、単純な文脈に依存しない予測器と、入力の固有の圧縮性を考えるより洗練された文脈を意識した予測器を設計し比較する。
問合せと要約のベンチマークでは、コンテキスト認識予測器はコンテキスト認識予測器よりも低い性能予測誤差を一貫して達成し、結果のコンテキスト認識PoCは全体的な性能を向上する。
我々の研究は、LLMのコンテキスト圧縮をより信頼性が高く、効率的で、パフォーマンスに配慮したデプロイの道を開いた。
関連論文リスト
- Arbitrary Ratio Feature Compression via Next Token Prediction [52.10426317889982]
Arbitrary Ratio Feature Compression (ARFC)フレームワークは、任意の圧縮比を単一のモデルでサポートする。
ARCは、次の回帰予測によって圧縮を行う自動回帰モデルである。
MoSモジュールは複数の圧縮結果を利用して圧縮トークンを洗練する。
ERGCは、圧縮中の意味的および構造的関係を維持するために、トレーニングプロセスに統合される。
論文 参考訳(メタデータ) (2026-02-12T02:38:57Z) - Towards Efficient Large Language Reasoning Models via Extreme-Ratio Chain-of-Thought Compression [55.63153956934198]
Chain-of-Thought (CoT)推論はLarge Language Models (LLMs)の推論能力をうまく向上させる
既存のCoT圧縮法は、しばしば高い圧縮比で論理的忠実度が著しく低下する。
本稿では,Extra-CoTと呼ばれる新しいEXTreme-RAtio Chain-of-Thought Compressionフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-09T06:57:15Z) - AttnComp: Attention-Guided Adaptive Context Compression for Retrieval-Augmented Generation [27.480791258325066]
我々は適応的で効率的でコンテキスト対応の圧縮フレームワークであるAttnCompを紹介した。
AttnCompは最小限の文書を保持するためにトップP圧縮アルゴリズムを使用している。
圧縮に加えて、AttnCompは、検索したコンテンツの全体的な関連性を評価することで、応答の信頼性を推定する。
論文 参考訳(メタデータ) (2025-09-22T08:18:50Z) - Lag-Relative Sparse Attention In Long Context Training [8.365610885641276]
本稿では,LagKV圧縮法で固定されたLag-Relative Sparse Attention(LRSA)を長期学習後に提案する。
本手法はチャンク・バイ・チャンク・プリフィルを行い, 固定サイズのラグウィンドウにおいて, 最上位のキー値ペアを選択する。
論文 参考訳(メタデータ) (2025-06-13T06:49:53Z) - Long Context In-Context Compression by Getting to the Gist of Gisting [50.24627831994713]
GistPoolは、デコーダ変換器にアーキテクチャ変更を加えることなく、コンテクスト内で圧縮する方法である。
圧縮速度が最小でも性能が大幅に低下し, より長いコンテキストで試行錯誤することを示す。
GistPoolは、gistingの単純さを保ちながら、長いコンテキスト圧縮タスクのパフォーマンスを大幅に向上させる。
論文 参考訳(メタデータ) (2025-04-11T19:23:31Z) - Choose Your Model Size: Any Compression of Large Language Models Without Re-Computation [10.376875638696504]
本研究は, 圧縮性能トレードオフを決定するアルゴリズム手法であるACIP (Any Compression via Iterative Pruning) を提案する。
線形層をSVDで再パラメータ化し,その特異値をスペーサ性誘導ペナルティで反復的にプルーする。
本稿では,ACIPが共通量子化に基づく圧縮手法をシームレスに補完することを示す。
論文 参考訳(メタデータ) (2025-02-03T18:40:58Z) - Ranking LLMs by compression [13.801767671391604]
圧縮の先駆けとして5つの大きな言語モデルを使用し、課題のある自然言語処理タスクのパフォーマンスを比較します。
実験の結果,圧縮比とモデル性能は正の相関関係にあることが明らかとなった。
論文 参考訳(メタデータ) (2024-06-20T10:23:38Z) - Learning Accurate Performance Predictors for Ultrafast Automated Model
Compression [86.22294249097203]
フレキシブルネットワーク展開のための超高速自動モデル圧縮フレームワークSeerNetを提案する。
本手法は,探索コストを大幅に削減した競合精度・複雑度トレードオフを実現する。
論文 参考訳(メタデータ) (2023-04-13T10:52:49Z) - What do Compressed Large Language Models Forget? Robustness Challenges
in Model Compression [68.82486784654817]
本稿では,知識蒸留とプルーニングを含む2つの一般的なモデル圧縮手法について検討する。
本研究では, 圧縮モデルが, 対向テストセット上のPLMモデルよりもはるかに頑健であることを示す。
サンプル不確実性に基づくモデル圧縮の正規化戦略を開発する。
論文 参考訳(メタデータ) (2021-10-16T00:20:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。