論文の概要: BEAVER: A Training-Free Hierarchical Prompt Compression Method via Structure-Aware Page Selection
- arxiv url: http://arxiv.org/abs/2603.19635v1
- Date: Fri, 20 Mar 2026 04:35:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 19:48:38.996343
- Title: BEAVER: A Training-Free Hierarchical Prompt Compression Method via Structure-Aware Page Selection
- Title(参考訳): BEAVER: 構造認識ページ選択によるトレーニング不要階層型プロンプト圧縮手法
- Authors: Zhengpei Hu, Kai Li, Dapeng Fu, Chang Zeng, Yue Li, Yuanhao Tang, Jianqiang Huang,
- Abstract要約: 既存の圧縮手法は、攻撃的なトークンプルーニングによる訓練コストや意味的な断片化に悩まされることが多い。
線形トークン除去から構造対応階層選択へ圧縮を移行する新しいトレーニングフリーフレームワークBEAVERを提案する。
BEAVERがLongLLMLinguaのような最先端(SOTA)メソッドに匹敵するパフォーマンスを実現することを示す。
- 参考スコア(独自算出の注目度): 21.177715869071793
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The exponential expansion of context windows in LLMs has unlocked capabilities for long-document understanding but introduced severe bottlenecks in inference latency and information utilization. Existing compression methods often suffer from high training costs or semantic fragmentation due to aggressive token pruning. In this paper, we propose BEAVER, a novel training-free framework that shifts compression from linear token removal to structure-aware hierarchical selection. BEAVER maximizes hardware parallelism by mapping variable-length contexts into dense page-level tensors via dual-path pooling, and preserves discourse integrity through a hybrid planner combining semantic and lexical dual-branch selection with sentence smoothing. Extensive evaluations on four long-context benchmarks demonstrate that BEAVER achieves comparable performance to state-of-the-art (SOTA) methods like LongLLMLingua. Notably, on the RULER benchmark, BEAVER maintains high fidelity in multi-needle retrieval where baselines deteriorate. Regarding efficiency, BEAVER reduces latency by 26.4x on 128k contexts, offering a scalable solution for high-throughput applications. Our code is available at https://cslikai.cn/BEAVER/.
- Abstract(参考訳): LLMにおけるコンテキストウィンドウの指数関数的拡張により、長期文書理解の能力は解放されたが、推論遅延と情報利用の重大なボトルネックが導入された。
既存の圧縮手法は、攻撃的なトークンプルーニングによる訓練コストや意味的な断片化に悩まされることが多い。
本稿では,線形トークン除去から構造を考慮した階層選択へ圧縮を移行させる新しいトレーニングフリーフレームワークBEAVERを提案する。
BEAVERは、変数長コンテキストを2つのパスプーリングによって高密度ページレベルテンソルにマッピングすることでハードウェアの並列性を最大化し、セマンティックと語彙の二重ブランチ選択を文の平滑化と組み合わせたハイブリッドプランナーを通して、談話の整合性を維持する。
BEAVERは、LongLLMLinguaのような最先端(SOTA)メソッドに匹敵するパフォーマンスを達成している。
特に、RULERベンチマークでは、BEAVERはベースラインが劣化したマルチニードル検索において、高い忠実性を維持している。
効率性に関して、BEAVERは128kコンテキストでのレイテンシを26.4倍削減し、高スループットアプリケーションのためのスケーラブルなソリューションを提供する。
私たちのコードはhttps://cslikai.cn/BEAVER/で利用可能です。
関連論文リスト
- Stacked from One: Multi-Scale Self-Injection for Context Window Extension [69.24689919827817]
Modelnameは、多粒度コンテキスト圧縮とクエリ対応情報取得に基づく新しいフレームワークである。
modelnameachievesパフォーマンスは、強いベースラインと同等か、優れている。
論文 参考訳(メタデータ) (2026-03-05T03:16:16Z) - Training-free Context-adaptive Attention for Efficient Long Context Modeling [57.703159205740185]
トレーニングフリーコンテキスト適応注意(TCA-Attention)は、学習不要なスパースアテンション機構であり、効率的な長文推論のための情報トークンのみに選択的に参画する。
TCA-Attentionは2.8$times$のスピードアップを実現し、128Kのコンテキスト長でKVキャッシュを61%削減し、フルアテンションに匹敵するパフォーマンスを維持している。
論文 参考訳(メタデータ) (2025-12-10T01:54:57Z) - CLaRa: Bridging Retrieval and Generation with Continuous Latent Reasoning [34.38636514331703]
CLaRaは、埋め込みベースの圧縮と共同最適化を共有連続空間で実行する統合フレームワークである。
実験により、CLaRaは、しばしばテキストベースの微調整ベースラインを超える、最先端の圧縮と性能の再ランクを達成することが示された。
論文 参考訳(メタデータ) (2025-11-24T00:11:14Z) - Rethinking Autoregressive Models for Lossless Image Compression via Hierarchical Parallelism and Progressive Adaptation [75.58269386927076]
自己回帰(AR)モデルは、しばしば計算コストの禁止のために非現実的に除外される。
この研究は、階層的並列性とプログレッシブ適応に基づくフレームワークを導入して、このパラダイムを再考する。
各種データセット(自然,衛星,医療)の実験により,本手法が新たな最先端圧縮を実現することを確認した。
論文 参考訳(メタデータ) (2025-11-14T06:27:58Z) - UniGist: Towards General and Hardware-aligned Sequence-level Long Context Compression [86.33995240043936]
UniGistは、大規模言語モデルのためのシーケンスレベルのロングコンテキスト圧縮フレームワークである。
生のトークンを特別な圧縮トークン(gist)に微粒な方法で置き換えることで、コンテキスト情報を効率的に保存する。
提案手法は,圧縮トークンの実際の除去を可能にすることで,フレキシブルな推論もサポートしている。
論文 参考訳(メタデータ) (2025-09-19T08:47:37Z) - Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。
既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。
単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文 参考訳(メタデータ) (2025-05-28T14:03:02Z) - TreeKV: Smooth Key-Value Cache Compression with Tree Structures [19.06842704338332]
TreeKVは、スムーズなキャッシュ圧縮のためにツリー構造を利用するトレーニング不要の手法である。
PG19とOpenWebText2の言語モデリングタスクのベースラインモデルを一貫して上回っている。
論文 参考訳(メタデータ) (2025-01-09T06:00:27Z) - LLMLingua: Compressing Prompts for Accelerated Inference of Large
Language Models [22.06402870816756]
大きな言語モデル(LLM)は、その驚くべき能力のために様々なアプリケーションに適用されている。
本稿では,意味的整合性を維持するための予算制御を伴う粗大なプロンプト圧縮手法であるLLMLinguaを提案する。
提案手法により,最先端性能が得られ,最大20倍圧縮が可能であり,性能損失が少ないことを示す。
論文 参考訳(メタデータ) (2023-10-09T14:10:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。