論文の概要: FLAT-LLM: Fine-grained Low-rank Activation Space Transformation for Large Language Model Compression
- arxiv url: http://arxiv.org/abs/2505.23966v1
- Date: Thu, 29 May 2025 19:42:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.643464
- Title: FLAT-LLM: Fine-grained Low-rank Activation Space Transformation for Large Language Model Compression
- Title(参考訳): FLAT-LLM:大規模言語モデル圧縮のための微粒化低ランク活性化空間変換
- Authors: Jiayi Tian, Ryan Solgi, Jinming Lu, Yifan Yang, Hai Li, Zheng Zhang,
- Abstract要約: FLAT-LLMは、アクティベーション空間の微細な低ランク変換に基づく、トレーニング不要な構造圧縮手法である。
回復微調整なしで効率よく効果的な重量圧縮を実現し、数分でキャリブレーションを完了できる。
- 参考スコア(独自算出の注目度): 15.784158079414235
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have enabled remarkable progress in natural language processing, yet their high computational and memory demands pose challenges for deployment in resource-constrained environments. Although recent low-rank decomposition methods offer a promising path for structural compression, they often suffer from accuracy degradation, expensive calibration procedures, and result in inefficient model architectures that hinder real-world inference speedups. In this paper, we propose FLAT-LLM, a fast and accurate, training-free structural compression method based on fine-grained low-rank transformations in the activation space. Specifically, we reduce the hidden dimension by transforming the weights using truncated eigenvectors computed via head-wise Principal Component Analysis (PCA), and employ an importance-based metric to adaptively allocate ranks across decoders. FLAT-LLM achieves efficient and effective weight compression without recovery fine-tuning, which could complete the calibration within a few minutes. Evaluated across 4 models and 11 datasets, FLAT-LLM outperforms structural pruning baselines in generalization and downstream performance, while delivering inference speedups over decomposition-based methods.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語処理において顕著な進歩を実現しているが、その高い計算量とメモリ要求は、リソースに制約のある環境での展開に困難をもたらす。
最近の低ランク分解法は、構造的圧縮に有望な経路を提供するが、しばしば精度の低下、高価な校正手順に悩まされ、現実の推論のスピードアップを妨げる非効率なモデルアーキテクチャをもたらす。
本稿では,アクティベーション空間における微粒化低ランク変換に基づく高速かつ高精度な学習不要な構造圧縮手法FLAT-LLMを提案する。
具体的には,頭部主成分分析 (PCA) を用いて計算した重みを重み付けした固有ベクトルを用いて変換することにより,重み付け次元を小さくし,重み付け基準を用いてデコーダ間のランクを適応的に割り当てる。
FLAT-LLMは、リカバリ微調整なしで効率よく効果的な重量圧縮を実現し、数分でキャリブレーションを完了できる。
4つのモデルと11のデータセットで評価され、FLAT-LLMは、一般化と下流のパフォーマンスにおいて構造的プルーニングベースラインよりも優れ、分解ベースのメソッドよりも推論スピードアップを提供する。
関連論文リスト
- EoRA: Training-free Compensation for Compressed LLM with Eigenspace Low-Rank Approximation [84.70637613266835]
モデル圧縮問題をカスタマイズした補償問題に再構成する。
トレーニング不要な固有空間低ランク近似(EoRA)を提案する。
EoRAは、勾配ベースのトレーニングを必要とせずに、圧縮誘起エラーを直接最小化する。
論文 参考訳(メタデータ) (2024-10-28T17:59:03Z) - Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。
軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。
ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文 参考訳(メタデータ) (2024-09-25T21:32:12Z) - MoDeGPT: Modular Decomposition for Large Language Model Compression [59.361006801465344]
本稿では,新しい構造化圧縮フレームワークである textbfModular bfDecomposition (MoDeGPT) を紹介する。
MoDeGPTはTransformerブロックを行列対からなるモジュールに分割し、隠れた次元を減らす。
本実験では, 後方伝播を伴わないMoDeGPTが, 従来の圧縮手法と一致するか, あるいは超えていることを示す。
論文 参考訳(メタデータ) (2024-08-19T01:30:14Z) - QET: Enhancing Quantized LLM Parameters and KV cache Compression through Element Substitution and Residual Clustering [5.363038867793461]
量子化前後の行列間の距離を最小化するために、量子化誤差最小化問題を定式化する。
行列量子化は、Large Language Models (LLM) 重み量子化、ベクトルデータベース、KVキャッシュ量子化、グラフ圧縮、画像圧縮など、様々なアプリケーションにおいて重要である。
行列要素の局所順序性を利用してQEM問題に対処する量子エンタングルメントツリー(QET)を提案する。
論文 参考訳(メタデータ) (2024-07-04T05:13:58Z) - Rethinking Compression: Reduced Order Modelling of Latent Features in
Large Language Models [9.91972450276408]
本稿では,Large Language Models (LLMs) のパラメトリックおよび実用的な圧縮に対して,低次モデリングに基づく革新的なアプローチを提案する。
本手法は, 行列分解を利用したモデル圧縮の顕著な進歩を示し, 最先端の構造化プルーニング法よりも優れた有効性を示した。
論文 参考訳(メタデータ) (2023-12-12T07:56:57Z) - COST-EFF: Collaborative Optimization of Spatial and Temporal Efficiency
with Slenderized Multi-exit Language Models [16.586312156966635]
トランスフォーマーベースの事前訓練言語モデル(PLM)は、高い能力にもかかわらず過度のオーバーヘッドに悩まされている。
既存の静的圧縮モデルは、入力インスタンス間の様々な複雑さに気づいていない。
静的モデル圧縮と動的推論アクセラレーションを統合したPLMの協調最適化を提案する。
論文 参考訳(メタデータ) (2022-10-27T15:06:40Z) - Efficient Micro-Structured Weight Unification and Pruning for Neural
Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。
既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。
ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文 参考訳(メタデータ) (2021-06-15T17:22:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。