論文の概要: DSPC: Dual-Stage Progressive Compression Framework for Efficient Long-Context Reasoning
- arxiv url: http://arxiv.org/abs/2509.13723v2
- Date: Thu, 18 Sep 2025 04:29:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 13:12:58.949901
- Title: DSPC: Dual-Stage Progressive Compression Framework for Efficient Long-Context Reasoning
- Title(参考訳): DSPC: 効率的なロングコンテキスト推論のためのデュアルステージプログレッシブ圧縮フレームワーク
- Authors: Yaxin Gao, Yao Lu, Zongfei Zhang, Jiaqi Nie, Shanqing Yu, Qi Xuan,
- Abstract要約: デュアルステージ進行圧縮(Dual-Stage Progressive Compression,DSPC)と呼ばれる2段階の訓練不要圧縮手法を提案する。
粗粒度段階において、意味関連文フィルタリングは、TF-IDFに基づく意味値の低い文を除去する。
粒度の細かい段階では、注意貢献、モデル間損失差、位置重要度を用いてトークンの重要性を評価する。
例えば、LongbenchデータセットのFewShotタスクでは、DSPCは3倍少ないトークンを使用して49.17のパフォーマンスを実現し、最先端のベースラインであるLongLLMLinguaよりも優れています。
- 参考スコア(独自算出の注目度): 9.521911534712164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have achieved remarkable success in many natural language processing (NLP) tasks. To achieve more accurate output, the prompts used to drive LLMs have become increasingly longer, which incurs higher computational costs. To address this prompt inflation problem, prompt compression has been proposed. However, most existing methods require training a small auxiliary model for compression, incurring a significant amount of additional computation. To avoid this, we propose a two-stage, training-free approach, called Dual-Stage Progressive Compression (DSPC). In the coarse-grained stage, semantic-related sentence filtering removes sentences with low semantic value based on TF-IDF. In the fine-grained stage, token importance is assessed using attention contribution, cross-model loss difference, and positional importance, enabling the pruning of low-utility tokens while preserving semantics. We validate DSPC on LLaMA-3.1-8B-Instruct and GPT-3.5-Turbo under a constrained token budget and observe consistent improvements. For instance, in the FewShot task of the Longbench dataset, DSPC achieves a performance of 49.17 by using only 3x fewer tokens, outperforming the best state-of-the-art baseline LongLLMLingua by 7.76.
- Abstract(参考訳): 大規模言語モデル(LLM)は多くの自然言語処理(NLP)タスクにおいて顕著な成功を収めた。
より正確な出力を達成するために、LSMを駆動するプロンプトはますます長くなり、計算コストが増大している。
この急激なインフレーション問題に対処するために、即時圧縮が提案されている。
しかし、既存のほとんどの手法では、圧縮のための小さな補助モデルを訓練する必要がある。
そこで本稿では,Dual-Stage Progressive Compression (DSPC) と呼ばれる2段階の学習不要な手法を提案する。
粗粒度段階において、意味関連文フィルタリングは、TF-IDFに基づく意味値の低い文を除去する。
粒度の細かい段階では、トークンの重要度は、注意貢献、クロスモデル損失差、位置重要度を用いて評価され、セマンティクスを保ちながら、低ユーティリティトークンのプルーニングを可能にする。
LLaMA-3.1-8B-インストラクトとGPT-3.5-TurboのDSPCを制約付きトークン予算で検証し、一貫した改善を観察する。
例えば、LongbenchデータセットのFewShotタスクでは、DSPCは3倍のトークンしか使用せず、最先端のベースラインであるLongLLMLinguaの7.76倍のパフォーマンスを達成している。
関連論文リスト
- Beyond Scattered Acceptance: Fast and Coherent Inference for DLMs via Longest Stable Prefixes [10.877713536966601]
Longestahead Prefix(LSP)スケジューラは、モノリシックプレフィックスの吸収に基づく、トレーニング不要でモデルに依存しない推論パラダイムである。
LSPは1つのフォワードパスを介してトークンの安定性を評価し、安定な予測の連続した左整列ブロックを動的に識別する。
原子のコミットメントの前に、言語や構造的受容の境界を画定する。
論文 参考訳(メタデータ) (2026-03-05T18:25:26Z) - Towards Efficient Large Language Reasoning Models via Extreme-Ratio Chain-of-Thought Compression [55.63153956934198]
Chain-of-Thought (CoT)推論はLarge Language Models (LLMs)の推論能力をうまく向上させる
既存のCoT圧縮法は、しばしば高い圧縮比で論理的忠実度が著しく低下する。
本稿では,Extra-CoTと呼ばれる新しいEXTreme-RAtio Chain-of-Thought Compressionフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-09T06:57:15Z) - Behavior-Equivalent Token: Single-Token Replacement for Long Prompts in LLMs [55.827877498548965]
単一プロンプト固有の振る舞い等価トークン([BE])を学習する軽量なトレーニングフレームワークを提案する。
フレームワークはまず[BE]に、元のシステムプロンプトの自然言語内容を再構成してエンコードし、その後、プロンプトの下流の振る舞いをこの単一のトークンに蒸留するように訓練する。
3つのデータセットに対する実証的な評価は、1つの[BE]トークンが3000倍の高速化を実現し、元のシステムの下流性能の約98%を維持していることを示している。
論文 参考訳(メタデータ) (2025-11-28T15:22:52Z) - TokenSqueeze: Performance-Preserving Compression for Reasoning LLMs [57.217593337454026]
TokenSqueezeは、パフォーマンスを保ち、自己生成データにのみ依存しながら推論パスを凝縮する新しいLong2Shortメソッドである。
TokenSqueeze は MATH500 ベンチマークの精度を維持しながらトークンの使用量を削減できることを示す。
論文 参考訳(メタデータ) (2025-11-17T10:38:56Z) - Step-3 is Large yet Affordable: Model-system Co-design for Cost-effective Decoding [144.70522923640095]
大規模言語モデル(LLM)はデコード時にハードウェア効率が低下する。
本稿では,デコードコストの最小化に最適化されたハードウェア対応モデルシステムであるStep-3を紹介する。
Step-3はDeepSeek-V3やQwen3 MoE 235Bのようなモデルと比較して、理論的デコードコストを大幅に削減する。
論文 参考訳(メタデータ) (2025-07-25T16:53:13Z) - R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [60.37610817226533]
CoT推論(Chain-of-Thought reasoning)は、推論中の中間推論をステップバイステップで促進する。
CoTは、長いトークンシーケンスに対する自己回帰復号化に依存するため、かなりの計算オーバーヘッドを導入している。
本稿では,CoT推論を高速化するトークンレベルの信頼度に基づくハイブリッドデコーディングフレームワークであるR-Stitchを提案する。
論文 参考訳(メタデータ) (2025-07-23T08:14:36Z) - Lag-Relative Sparse Attention In Long Context Training [8.365610885641276]
本稿では,LagKV圧縮法で固定されたLag-Relative Sparse Attention(LRSA)を長期学習後に提案する。
本手法はチャンク・バイ・チャンク・プリフィルを行い, 固定サイズのラグウィンドウにおいて, 最上位のキー値ペアを選択する。
論文 参考訳(メタデータ) (2025-06-13T06:49:53Z) - Efficient and Effective Prompt Tuning via Prompt Decomposition and Compressed Outer Product [8.014705094248589]
低パラメータプロンプトチューニング法は、PT法とLoRA法で性能と効率を向上する。
6つのアーキテクチャと8つのデータセットにわたる実験により、LAMPはパフォーマンスと効率において、最先端のPTベースのメソッドとLoRAベースのメソッドより優れていることが示された。
論文 参考訳(メタデータ) (2025-02-16T05:50:12Z) - Inference Optimal VLMs Need Fewer Visual Tokens and More Parameters [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
推論コストを削減するために、LLM(Large Language Models)を縮小するか、イメージを表すのに必要な入力トークンの数を削減できる。
高速圧縮に適したトークン圧縮アルゴリズムを設計する第一歩を踏み出す。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z) - A Training-free Sub-quadratic Cost Transformer Model Serving Framework With Hierarchically Pruned Attention [43.211427581302715]
大規模言語モデルにおける文脈長を増大させるため,HiP(Hierarchically Pruned Attention)を提案する。
HiPは注意機構の時間的複雑さを$O(T log T)$に減らし、空間的複雑さを$O(T)$に減らし、$T$はシーケンス長である。
HiPは, 劣化を最小限に抑えつつ, プリフィルとデコードの両方のレイテンシとメモリ使用率を著しく低減することを示す。
論文 参考訳(メタデータ) (2024-06-14T08:32:45Z) - LLMLingua: Compressing Prompts for Accelerated Inference of Large
Language Models [22.06402870816756]
大きな言語モデル(LLM)は、その驚くべき能力のために様々なアプリケーションに適用されている。
本稿では,意味的整合性を維持するための予算制御を伴う粗大なプロンプト圧縮手法であるLLMLinguaを提案する。
提案手法により,最先端性能が得られ,最大20倍圧縮が可能であり,性能損失が少ないことを示す。
論文 参考訳(メタデータ) (2023-10-09T14:10:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。