論文の概要: DSPC: Dual-Stage Progressive Compression Framework for Efficient Long-Context Reasoning
- arxiv url: http://arxiv.org/abs/2509.13723v1
- Date: Wed, 17 Sep 2025 06:18:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.736662
- Title: DSPC: Dual-Stage Progressive Compression Framework for Efficient Long-Context Reasoning
- Title(参考訳): DSPC: 効率的なロングコンテキスト推論のためのデュアルステージプログレッシブ圧縮フレームワーク
- Authors: Yaxin Gao, Yao Lu, Zongfei Zhang, Jiaqi Nie, Shanqing Yu, Qi Xuan,
- Abstract要約: デュアルステージ進行圧縮(Dual-Stage Progressive Compression,DSPC)と呼ばれる2段階の訓練不要圧縮手法を提案する。
粗粒度段階において、意味関連文フィルタリングは、TF-IDFに基づく意味値の低い文を除去する。
粒度の細かい段階では、注意貢献、モデル間損失差、位置重要度を用いてトークンの重要性を評価する。
例えば、LongbenchデータセットのFewShotタスクでは、DSPCは3倍少ないトークンを使用して49.17のパフォーマンスを実現し、最先端のベースラインであるLongLLMLinguaよりも優れています。
- 参考スコア(独自算出の注目度): 9.521911534712164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have achieved remarkable success in many natural language processing (NLP) tasks. To achieve more accurate output, the prompts used to drive LLMs have become increasingly longer, which incurs higher computational costs. To address this prompt inflation problem, prompt compression has been proposed. However, most existing methods require training a small auxiliary model for compression, incurring a significant amount of additional computation. To avoid this, we propose a two-stage, training-free approach, called Dual-Stage Progressive Compression (DSPC). In the coarse-grained stage, semantic-related sentence filtering removes sentences with low semantic value based on TF-IDF. In the fine-grained stage, token importance is assessed using attention contribution, cross-model loss difference, and positional importance, enabling the pruning of low-utility tokens while preserving semantics. We validate DSPC on LLaMA-3.1-8B-Instruct and GPT-3.5-Turbo under a constrained token budget and observe consistent improvements. For instance, in the FewShot task of the Longbench dataset, DSPC achieves a performance of 49.17 by using only 3x fewer tokens, outperforming the best state-of-the-art baseline LongLLMLingua by 7.76.
- Abstract(参考訳): 大規模言語モデル(LLM)は多くの自然言語処理(NLP)タスクにおいて顕著な成功を収めた。
より正確な出力を達成するために、LSMを駆動するプロンプトはますます長くなり、計算コストが増大している。
この急激なインフレーション問題に対処するために、即時圧縮が提案されている。
しかし、既存のほとんどの手法では、圧縮のための小さな補助モデルを訓練する必要がある。
そこで本稿では,Dual-Stage Progressive Compression (DSPC) と呼ばれる2段階の学習不要な手法を提案する。
粗粒度段階において、意味関連文フィルタリングは、TF-IDFに基づく意味値の低い文を除去する。
粒度の細かい段階では、トークンの重要度は、注意貢献、クロスモデル損失差、位置重要度を用いて評価され、セマンティクスを保ちながら、低ユーティリティトークンのプルーニングを可能にする。
LLaMA-3.1-8B-インストラクトとGPT-3.5-TurboのDSPCを制約付きトークン予算で検証し、一貫した改善を観察する。
例えば、LongbenchデータセットのFewShotタスクでは、DSPCは3倍のトークンしか使用せず、最先端のベースラインであるLongLLMLinguaの7.76倍のパフォーマンスを達成している。
関連論文リスト
- Step-3 is Large yet Affordable: Model-system Co-design for Cost-effective Decoding [144.70522923640095]
大規模言語モデル(LLM)はデコード時にハードウェア効率が低下する。
本稿では,デコードコストの最小化に最適化されたハードウェア対応モデルシステムであるStep-3を紹介する。
Step-3はDeepSeek-V3やQwen3 MoE 235Bのようなモデルと比較して、理論的デコードコストを大幅に削減する。
論文 参考訳(メタデータ) (2025-07-25T16:53:13Z) - R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [60.37610817226533]
CoT推論(Chain-of-Thought reasoning)は、推論中の中間推論をステップバイステップで促進する。
CoTは、長いトークンシーケンスに対する自己回帰復号化に依存するため、かなりの計算オーバーヘッドを導入している。
本稿では,CoT推論を高速化するトークンレベルの信頼度に基づくハイブリッドデコーディングフレームワークであるR-Stitchを提案する。
論文 参考訳(メタデータ) (2025-07-23T08:14:36Z) - Lag-Relative Sparse Attention In Long Context Training [8.365610885641276]
本稿では,LagKV圧縮法で固定されたLag-Relative Sparse Attention(LRSA)を長期学習後に提案する。
本手法はチャンク・バイ・チャンク・プリフィルを行い, 固定サイズのラグウィンドウにおいて, 最上位のキー値ペアを選択する。
論文 参考訳(メタデータ) (2025-06-13T06:49:53Z) - Efficient and Effective Prompt Tuning via Prompt Decomposition and Compressed Outer Product [8.014705094248589]
低パラメータプロンプトチューニング法は、PT法とLoRA法で性能と効率を向上する。
6つのアーキテクチャと8つのデータセットにわたる実験により、LAMPはパフォーマンスと効率において、最先端のPTベースのメソッドとLoRAベースのメソッドより優れていることが示された。
論文 参考訳(メタデータ) (2025-02-16T05:50:12Z) - Inference Optimal VLMs Need Fewer Visual Tokens and More Parameters [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
推論コストを削減するために、LLM(Large Language Models)を縮小するか、イメージを表すのに必要な入力トークンの数を削減できる。
高速圧縮に適したトークン圧縮アルゴリズムを設計する第一歩を踏み出す。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z) - A Training-free Sub-quadratic Cost Transformer Model Serving Framework With Hierarchically Pruned Attention [43.211427581302715]
大規模言語モデルにおける文脈長を増大させるため,HiP(Hierarchically Pruned Attention)を提案する。
HiPは注意機構の時間的複雑さを$O(T log T)$に減らし、空間的複雑さを$O(T)$に減らし、$T$はシーケンス長である。
HiPは, 劣化を最小限に抑えつつ, プリフィルとデコードの両方のレイテンシとメモリ使用率を著しく低減することを示す。
論文 参考訳(メタデータ) (2024-06-14T08:32:45Z) - LLMLingua: Compressing Prompts for Accelerated Inference of Large
Language Models [22.06402870816756]
大きな言語モデル(LLM)は、その驚くべき能力のために様々なアプリケーションに適用されている。
本稿では,意味的整合性を維持するための予算制御を伴う粗大なプロンプト圧縮手法であるLLMLinguaを提案する。
提案手法により,最先端性能が得られ,最大20倍圧縮が可能であり,性能損失が少ないことを示す。
論文 参考訳(メタデータ) (2023-10-09T14:10:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。