論文の概要: IntraSlice: Towards High-Performance Structural Pruning with Block-Intra PCA for LLMs
- arxiv url: http://arxiv.org/abs/2602.01975v1
- Date: Mon, 02 Feb 2026 11:28:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.105954
- Title: IntraSlice: Towards High-Performance Structural Pruning with Block-Intra PCA for LLMs
- Title(参考訳): イントラスライス:LLM用ブロックイントラPCAによる高性能構造解析
- Authors: Meng Li, Peisong Wang, Yuantian Shao, Qinghao Hu, Hongjian Fang, Yifan Zhang, Zhihui Wei, Jian Cheng,
- Abstract要約: 大きな言語モデル(LLM)は、さまざまなタスクにわたって強力なパフォーマンスを実現しますが、その巨大なサイズのため、デプロイメントの課題に直面します。
近年,PCAをベースとしたプルーニング手法では,キーアクティベーションコンポーネントの保持によりこの問題が緩和されている。
ブロックワイドモジュールイントラPCA圧縮プルーニングを適用するフレームワークであるIntraSliceを提案する。
- 参考スコア(独自算出の注目度): 37.1665041786606
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) achieve strong performance across diverse tasks but face deployment challenges due to their massive size. Structured pruning offers acceleration benefits but leads to significant performance degradation. Recent PCA-based pruning methods have alleviated this issue by retaining key activation components, but are only applied between modules in order to fuse the transformation matrix, which introduces extra parameters and severely disrupts activation distributions due to residual connections. To address these issues, we propose IntraSlice, a framework that applies block-wise module-intra PCA compression pruning. By leveraging the structural characteristics of Transformer modules, we design an approximate PCA method whose transformation matrices can be fully fused into the model without additional parameters. We also introduce a PCA-based global pruning ratio estimator that further considers the distribution of compressed activations, building on conventional module importance. We validate our method on Llama2, Llama3, and Phi series across various language benchmarks. Experimental results demonstrate that our approach achieves superior compression performance compared to recent baselines at the same compression ratio or inference speed.
- Abstract(参考訳): 大きな言語モデル(LLM)は、さまざまなタスクにわたって強力なパフォーマンスを実現しますが、その巨大なサイズのため、デプロイメントの課題に直面します。
構造化プルーニングは加速効果を提供するが、性能が著しく低下する。
近年のPCAベースのプルーニング法では, キーアクティベーション成分の保持によりこの問題が緩和されているが, 変換行列を融合するためにモジュール間でのみ適用され, 余剰パラメータを導入し, 残余接続による活性化分布を著しく破壊する。
これらの問題に対処するため,ブロックワイドモジュールイントラPCA圧縮プルーニングを適用したIntraSliceを提案する。
トランスフォーマーモジュールの構造特性を活用することで、変換行列を追加パラメータなしでモデルに完全に融合させることができる近似PCA法を設計する。
また,PCAを用いたグローバルプルーニング比推定器を導入し,圧縮されたアクティベーションの分布を従来のモジュールの重要性に基づいて検討した。
我々は,Llama2,Llama3,Phiシリーズを言語ベンチマークで検証した。
実験結果から, 提案手法は, 圧縮比や推論速度が同じである最近のベースラインと比較して, 圧縮性能が優れていることが示された。
関連論文リスト
- RPCANet++: Deep Interpretable Robust PCA for Sparse Object Segmentation [51.37553739930992]
RPCANet++は、RPCAの解釈可能性と効率的なディープアーキテクチャを融合したスパースオブジェクトセグメンテーションフレームワークである。
我々のアプローチは、緩やかなRPCAモデルを背景近似モジュール(BAM)、対象抽出モジュール(OEM)、画像復元モジュール(IRM)からなる構造化ネットワークに展開する。
さまざまなデータセットの実験では、RPCANet++がさまざまなイメージングシナリオの下で最先端のパフォーマンスを達成することが示されている。
論文 参考訳(メタデータ) (2025-08-06T08:19:37Z) - Constrained Edge AI Deployment: Fine-Tuning vs Distillation for LLM Compression [1.85373927927491]
現代のモデルは、エッジデプロイメントの厳密な計算、メモリ、接続制約を満たすために、構造化プルーニングと再トレーニングの組み合わせによって圧縮されることが多い。
我々の焦点は最大圧縮を達成することではなく、再学習損失関数の影響を分離することである。
エッジネットワークに典型的な断続的あるいは否定的な接続シナリオに適したコモンセンスQAのOLMo2-7B-SFTモデル上で両方のパイプラインを評価する。
論文 参考訳(メタデータ) (2025-05-13T19:06:32Z) - Adaptive Pruning of Pretrained Transformer via Differential Inclusions [48.47890215458465]
現在の圧縮アルゴリズムは一定の圧縮比でプルーーン変換器であり、各比に対して独自のプルーニングプロセスを必要とする。
本研究では,マスクパラメータの差分包摂性に基づいて,事前学習した変圧器を1つのプルーニング段階内において任意の所望の比率でプルーニングすることを提案する。
このダイナミクスは、ネットワーク構造を識別するサポートセットを持つマスクパラメータの全体正規化ソリューションパスを生成することができる。
論文 参考訳(メタデータ) (2025-01-06T06:34:52Z) - FuseGPT: Learnable Layers Fusion of Generative Pre-trained Transformers [30.88764351013966]
GPT(Generative Pre-trained Transformer)は、様々な領域で顕著な性能を示す。
近年の研究では、トランスブロック内の冗長性を観察し、重要でないブロックの構造化プルーニングによる圧縮法を開発した。
FuseGPTは,プルーンドトランスフォーマーブロックをリサイクルし,モデルの性能を回復する新しい手法である。
論文 参考訳(メタデータ) (2024-11-21T09:49:28Z) - MoDeGPT: Modular Decomposition for Large Language Model Compression [59.361006801465344]
本稿では,新しい構造化圧縮フレームワークである textbfModular bfDecomposition (MoDeGPT) を紹介する。
MoDeGPTはTransformerブロックを行列対からなるモジュールに分割し、隠れた次元を減らす。
本実験では, 後方伝播を伴わないMoDeGPTが, 従来の圧縮手法と一致するか, あるいは超えていることを示す。
論文 参考訳(メタデータ) (2024-08-19T01:30:14Z) - Pruning Large Language Models to Intra-module Low-rank Architecture with Transitional Activations [21.229296254354878]
本稿では,タスクに依存しない構造化プルーニング手法と,コンパクトなTransformerアーキテクチャ設計を提案する。
提案手法はTransActと呼ばれ,MHA(Multi-head attention)およびMLP(Multi-layer perceptron)モジュール内の遷移活性化を低減する。
その結果, 効率と性能の両面から, 高い圧縮率で提案手法の最適性を検証することができた。
論文 参考訳(メタデータ) (2024-07-08T07:45:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。