論文の概要: POP: Online Structural Pruning Enables Efficient Inference of Large Foundation Models
- arxiv url: http://arxiv.org/abs/2602.06822v1
- Date: Fri, 06 Feb 2026 16:07:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.472045
- Title: POP: Online Structural Pruning Enables Efficient Inference of Large Foundation Models
- Title(参考訳): POP: 大規模基盤モデルの効率的な推論を可能にするオンライン構造解析
- Authors: Yi Chen, Wonjin Shin, Shuhong Liu, Tho Mai, Jeongmo Lee, Chuanbo Hua, Kun Wang, Jun Liu, Joo-Young Kim,
- Abstract要約: POP(Partition-guided Online Pruning)は、計算オーバーヘッドを最小限に抑えた効率的なオンライン構造解析フレームワークである。
POPは、オフラインキャリブレーション、リトレーニング、学習予測など、事前処理を必要としない軽量なプラグアンドプレイ方式である。
- 参考スコア(独自算出の注目度): 12.10403234534641
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large foundation models (LFMs) achieve strong performance through scaling, yet current structural pruning methods derive fixed pruning decisions during inference, overlooking sparsity patterns that emerge in the autoregressive token generation. In this paper, we propose POP (Partition-guided Online Pruning), an efficient online structural pruning framework that enables context-conditioned dynamic pruning with minimal computational overhead. POP partitions model channels into retained, candidate, and pruned regions, where prefilling defines a coarse pruning partition, and the decoding stage generates a fine-grained mask within the candidate region, avoiding full-channel re-evaluation. The coarse pruning partition preserves consistently important weights, while the fine-grained masking provides context-conditioned variation during decoding. Moreover, POP is a lightweight, plug-and-play method that requires no preprocessing, including offline calibration, retraining, or learning predictors. Extensive evaluations across diverse LFMs, including large language models (LLMs), mixture-of-experts models (MoEs), and vision-language models (VLMs), demonstrate that POP consistently delivers higher accuracy than existing pruning approaches while incurring smaller computational overhead and minimizing inference latency.
- Abstract(参考訳): 大規模ファンデーションモデル(LFM)は、スケーリングを通じて強力なパフォーマンスを達成するが、現在の構造的プルーニング手法は、自動回帰トークン生成で現れるスパーシティパターンを見越して、推論中に固定されたプルーニング決定を導出する。
本稿では,POP(Partition-guided Online Pruning)を提案する。POP(Partition-guided Online Pruning)は,コンテクスト条件の動的プルーニングを最小限の計算オーバーヘッドで実現する,効率的なオンライン構造化プルーニングフレームワークである。
POPは、モデルチャネルを、粗いプルーニングパーティションを定義した保持領域、候補領域、プルーニング領域に分割し、デコードステージは候補領域内のきめ細かいマスクを生成し、フルチャネルの再評価を回避する。
粗いプルーニングパーティションは一貫して重要な重みを保ち、きめ細かいマスキングはデコード中にコンテキスト条件のバリエーションを提供する。
さらにPOPは、オフラインキャリブレーション、リトレーニング、学習予測など、前処理を必要としない軽量なプラグアンドプレイ方式である。
大規模言語モデル(LLM)、Mix-of-expertsモデル(MoE)、VLM(Vision-Language Model)を含む多種多様なLFMの広範な評価は、POPが計算オーバーヘッドを小さくし、推論レイテンシを最小化しつつ、既存のプルーニングアプローチよりも一貫して高い精度を提供することを示した。
関連論文リスト
- POP: Prefill-Only Pruning for Efficient Large Model Inference [5.743318651374061]
大規模言語モデル (LLM) と視覚言語モデル (VLM) は目覚ましい能力を示している。
既存の構造化プルーニング法はハードウェア効率が良いが、しばしばかなりの精度の劣化に悩まされる。
この失敗は、プリフィルとデコードステージの間の非対称的な役割を無視する、ステージに依存しないプルーニングアプローチに起因している、と我々は主張する。
論文 参考訳(メタデータ) (2026-02-03T09:22:26Z) - Towards Efficient General Feature Prediction in Masked Skeleton Modeling [59.46799426434277]
マスクスケルトンモデリングのための新しい汎用特徴予測フレームワーク(GFP)を提案する。
我々の重要な革新は、局所的な動きパターンからグローバルな意味表現にまたがる、従来の低レベルな再構築を高レベルな特徴予測に置き換えることです。
論文 参考訳(メタデータ) (2025-09-03T18:05:02Z) - Sample-aware Adaptive Structured Pruning for Large Language Models [14.605017410864583]
本研究では,大規模言語モデル(LLM)のためのサンプル対応型構造化プルーニングフレームワークであるAdaPrunerを紹介する。
特に、AdaPrunerは構造化プルーニング解空間を構築して、LLMから冗長パラメータを効果的に除去する。
20%のプルーニング比で、AdaPrunerでプルーニングされたモデルは、未プルーニングモデルのパフォーマンスの97%を維持している。
論文 参考訳(メタデータ) (2025-03-08T12:00:21Z) - PIP: Perturbation-based Iterative Pruning for Large Language Models [15.00536465178398]
PIP (Perturbation-based Iterative Pruning) は,大規模言語モデルを最適化する新しい二重ビュー構造化プルーニング手法である。
勾配差の計算により、PIPはこれらの2つの見解の区別に苦慮している人たちを反復的に引き起こす。
実験の結果,PIPは元のモデルの精度の85%以上を維持しつつ,パラメータ数を約20%削減できることがわかった。
論文 参考訳(メタデータ) (2025-01-25T17:10:50Z) - Instruction-Following Pruning for Large Language Models [58.329978053711024]
我々は、モデルに対する固定的なプルーニングマスクを決定する従来の静的プルーニングアプローチを超えて移動する。
本手法では,プルーニングマスクは入力依存型であり,ユーザ命令に記述された情報に基づいて動的に適応する。
我々の手法は「命令追従プルーニング」と呼ばれ、ユーザ命令を入力とし、与えられたタスクに対して最も関連性の高いモデルパラメータを動的に選択するスパースマスク予測器を導入している。
論文 参考訳(メタデータ) (2025-01-03T20:19:14Z) - QPruner: Probabilistic Decision Quantization for Structured Pruning in Large Language Models [3.093903491123962]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクを大幅に進歩させた。
構造化プルーニングはモデルサイズの削減に有効な手法であるが、しばしば精度を著しく低下させる。
我々は、微調整と推論の両方でメモリ消費を減らすために、構造化プルーニングフレームワークに量子化を導入する。
モデルサイズの削減に構造化プルーニングを用いた新しいフレームワークQPrunerを提案する。
論文 参考訳(メタデータ) (2024-12-16T10:14:01Z) - DRPruning: Efficient Large Language Model Pruning through Distributionally Robust Optimization [59.96455188197593]
大きな言語モデル(LLM)は素晴らしい結果をもたらすが、モデルのサイズと計算コストの増加による課題に直面している。
DRPruningは、トレーニング中にデータ分散を動的に調整し、不均一なマルチタスクデータ間でのバランス性能を回復する手法である。
単言語および多言語設定の実験では、DRPランニングはプルーニングと継続トレーニングの両方において同様の大きさのモデルを上回ることが示されている。
論文 参考訳(メタデータ) (2024-11-21T12:02:39Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
本研究では,プルーンドモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する最適化に基づく構造的プルーニングを提案する。
我々は、基底となるベルヌーイ分布をサンプルのバイナリ・プルーニングマスクに学習することでこれを実現する。
LLaMA, LLaMA-2, LLaMA-3, Vicuna, Mistral モデルによる実験により, 本手法の有効性と有効性を示すことができた。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。