論文の概要: POP: Prefill-Only Pruning for Efficient Large Model Inference
- arxiv url: http://arxiv.org/abs/2602.03295v1
- Date: Tue, 03 Feb 2026 09:22:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.354046
- Title: POP: Prefill-Only Pruning for Efficient Large Model Inference
- Title(参考訳): POP: 効率的な大規模モデル推論のためのプリフィルオンリープルーニング
- Authors: Junhui He, Zhihui Fu, Jun Wang, Qingan Li,
- Abstract要約: 大規模言語モデル (LLM) と視覚言語モデル (VLM) は目覚ましい能力を示している。
既存の構造化プルーニング法はハードウェア効率が良いが、しばしばかなりの精度の劣化に悩まされる。
この失敗は、プリフィルとデコードステージの間の非対称的な役割を無視する、ステージに依存しないプルーニングアプローチに起因している、と我々は主張する。
- 参考スコア(独自算出の注目度): 5.743318651374061
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) and Vision-Language Models (VLMs) have demonstrated remarkable capabilities. However, their deployment is hindered by significant computational costs. Existing structured pruning methods, while hardware-efficient, often suffer from significant accuracy degradation. In this paper, we argue that this failure stems from a stage-agnostic pruning approach that overlooks the asymmetric roles between the prefill and decode stages. By introducing a virtual gate mechanism, our importance analysis reveals that deep layers are critical for next-token prediction (decode) but largely redundant for context encoding (prefill). Leveraging this insight, we propose Prefill-Only Pruning (POP), a stage-aware inference strategy that safely omits deep layers during the computationally intensive prefill stage while retaining the full model for the sensitive decode stage. To enable the transition between stages, we introduce independent Key-Value (KV) projections to maintain cache integrity, and a boundary handling strategy to ensure the accuracy of the first generated token. Extensive experiments on Llama-3.1, Qwen3-VL, and Gemma-3 across diverse modalities demonstrate that POP achieves up to 1.37$\times$ speedup in prefill latency with minimal performance loss, effectively overcoming the accuracy-efficiency trade-off limitations of existing structured pruning methods.
- Abstract(参考訳): 大規模言語モデル (LLM) と視覚言語モデル (VLM) は目覚ましい能力を示している。
しかし、それらの展開は計算コストの増大によって妨げられている。
既存の構造化プルーニング法はハードウェア効率が良いが、しばしばかなりの精度の劣化に悩まされる。
本稿では, プリフィルとデコードの間の非対称的な役割を無視する, ステージに依存しないプルーニング手法に起因していると論じる。
仮想ゲート機構を導入することで、深層層は次のトーン予測(デコード)には重要であるが、コンテキストエンコーディング(プリフィル)にはほとんど冗長であることが判明した。
この知見を生かしたPOP(Prefill-Only Pruning)は、計算集約的なプリフィル段階において深層を安全に省略し、センシティブなデコード段階のモデルを完全に保持するステージ認識型推論戦略である。
ステージ間の遷移を可能にするため、キャッシュの整合性を維持するために独立キーバリュー(KV)プロジェクションを導入し、最初に生成されたトークンの精度を確保するために境界ハンドリング戦略を導入する。
Llama-3.1, Qwen3-VL, Gemma-3の多種多様性に対する大規模な実験により、POPはプリフィル遅延の最大1.37$\times$スピードアップを最小性能損失で達成し、既存の構造化プルーニング手法の精度と効率のトレードオフの限界を克服することを示した。
関連論文リスト
- Up to 36x Speedup: Mask-based Parallel Inference Paradigm for Key Information Extraction in MLLMs [22.76757502541604]
鍵情報抽出のための並列推論パラダイムPIPについて紹介する。
提案手法は,すべての目標値のプレースホルダーとして "[mask]" トークンを用いることで問題を修正し,単一のフォワードパスで同時生成を可能にする。
実験の結果,従来の自己回帰ベースモデルと比較して,PIPモデルでは性能劣化が無視できる5-36倍の高速化を実現していることがわかった。
論文 参考訳(メタデータ) (2026-01-27T13:45:30Z) - Fast KVzip: Efficient and Accurate LLM Inference with Gated KV Eviction [50.99402504483692]
凍結重み付き言語モデルのための新しいゲーティングベースのKVキャッシュ消去手法を提案する。
私たちのアプローチは、プリフィルとデコードの両方の段階にシームレスに統合されます。
実験の結果,KVキャッシュの最大70%を除去しながら,ほぼ無作為な性能を維持していることがわかった。
論文 参考訳(メタデータ) (2026-01-25T03:07:54Z) - Smooth Operator: Smooth Verifiable Reward Activates Spatial Reasoning Ability of Vision-Language Model [18.526821056010384]
視覚言語モデル(VLM)は、3次元シーン理解のための正確な数値予測を実現する上で重要なボトルネックに直面している。
伝統的な強化学習アプローチは、主に相対的なランクに基づいており、しばしば深刻な報酬の分散と勾配不安定に悩まされる。
本稿では,Smooth Numerical Reward Activation (SNRA)演算子とAbsolute-Preserving GRPOフレームワークを紹介する。
論文 参考訳(メタデータ) (2026-01-12T16:26:42Z) - Training-free Context-adaptive Attention for Efficient Long Context Modeling [57.703159205740185]
トレーニングフリーコンテキスト適応注意(TCA-Attention)は、学習不要なスパースアテンション機構であり、効率的な長文推論のための情報トークンのみに選択的に参画する。
TCA-Attentionは2.8$times$のスピードアップを実現し、128Kのコンテキスト長でKVキャッシュを61%削減し、フルアテンションに匹敵するパフォーマンスを維持している。
論文 参考訳(メタデータ) (2025-12-10T01:54:57Z) - SpecAttn: Speculating Sparse Attention [1.6921396880325779]
SpecAttnは、投機的復号化技術とシームレスに統合する、新しいトレーニング不要のアプローチである。
私たちの重要な洞察は、投機的復号中にドラフトモデルによって既に計算されている注意重みを利用して、ターゲットモデルの重要なトークンを特定することです。
SpecAttnは、PG-19データセットのパープレキシティをわずか15.29%増加させ、キー値キャッシュアクセスを75%以上削減する。
論文 参考訳(メタデータ) (2025-10-31T17:12:34Z) - READER: Retrieval-Assisted Drafter for Efficient LLM Inference [0.0386965802948046]
自己回帰言語モデルはトークンシーケンスよりも分解された確率をインスタンス化するが、その厳密なシーケンシャルなデコーディングプロセスは、遅延推論に固有の低いバウンドを課す。
このボトルネックは、大規模生成モデルのスケーラブルなデプロイにおける中心的な障害として現れています。
本稿では,補助的ドラフトモデルのトレーニングを回避した投機的復号化フレームワークREADERを提案する。
論文 参考訳(メタデータ) (2025-08-12T16:47:48Z) - PrefixKV: Adaptive Prefix KV Cache is What Vision Instruction-Following Models Need for Efficient Generation [97.41972925670508]
大規模視覚言語モデル(LVLM)は、推論中に重要な計算とメモリオーバーヘッドを引き起こす。
ここでは、PrefixKVについて述べる。ここでは、Prefixは、元のシーケンスの位置ではなく、重要度に基づいて、上位ランクのKVを意味する。
本手法は他の手法と比較して最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-12-04T15:48:59Z) - ALOcc: Adaptive Lifting-Based 3D Semantic Occupancy and Cost Volume-Based Flow Predictions [91.55655961014027]
シーン理解には3次元セマンティック占有とフロー予測が不可欠である。
本稿では,3つの改善点を目標とした視覚ベースのフレームワークを提案する。
我々の純粋な畳み込みアーキテクチャは、セマンティック占有率とジョイントセマンティックフロー予測の両方のために、複数のベンチマーク上で新しいSOTA性能を確立する。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - ZipVL: Efficient Large Vision-Language Models with Dynamic Token Sparsification [29.163757099307553]
大規模視覚言語モデル(LVLM)の効率は、プリフィルフェーズにおける注意機構の計算ボトルネックによって制約される。
本稿では,重要なトークンの動的比割り当て戦略を通じて,LVLM向けに設計された効率的な推論フレームワークZipVLを提案する。
論文 参考訳(メタデータ) (2024-10-11T07:24:21Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - BERT Loses Patience: Fast and Robust Inference with Early Exit [91.26199404912019]
本稿では,事前学習した言語モデルの効率性と堅牢性を向上させるためのプラグイン・アンド・プレイ手法として,Patience-based Early Exitを提案する。
提案手法では,モデルを少ないレイヤで予測できるため,推論効率が向上する。
論文 参考訳(メタデータ) (2020-06-07T13:38:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。