論文の概要: IMPACT: Importance-Aware Activation Space Reconstruction
- arxiv url: http://arxiv.org/abs/2507.03828v1
- Date: Fri, 04 Jul 2025 22:26:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.890429
- Title: IMPACT: Importance-Aware Activation Space Reconstruction
- Title(参考訳): IMPACT: 重要度に配慮した活性化空間再構築
- Authors: Md Mokarram Chowdhury, Daniel Agyei Asante, Ernie Chang, Yang Li,
- Abstract要約: 大規模言語モデル(LLM)は、多くのドメインにわたって高いパフォーマンスを達成するが、リソース制約のある設定では、そのサイズのためデプロイが困難である。
本稿では, モデル圧縮決定とモデル動作への影響を関連付ける, 重要度に配慮したアクティベーション再構築のためのフレームワークであるIMPACTを提案する。
多様なモデルやタスクにわたる実験により、IMPACTは最先端のベースラインに匹敵する精度で最大48.6%のモデルサイズ縮小を達成した。
- 参考スコア(独自算出の注目度): 5.487612141214714
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) achieve strong performance across many domains but are difficult to deploy in resource-constrained settings due to their size. Low-rank weight matrix compression is a popular strategy for reducing model size, typically by minimizing weight reconstruction error under the assumption that weights are low-rank. However, this assumption often does not hold in LLMs. Instead, LLM activations exhibit stronger low-rank structure-prompting a shift toward minimizing activation reconstruction error. We show that this shift alone is insufficient: activation dimensions contribute unequally to model performance, and uniform reconstruction can harm performance. We propose IMPACT, a principled framework for importance-aware activation reconstruction that links model compression decisions to their impact on model behavior. IMPACT formulates an optimization problem that considers both activation structure and gradient sensitivity, and derives a closed-form solution where the optimal reconstruction bases are the eigenvectors of an importance-weighted activation covariance matrix. This enables low-rank approximations explicitly optimized to preserve accuracy. Experiments across diverse models and tasks show that IMPACT achieves up to 48.6% greater model size reduction with accuracy comparable to state-of-the-art baselines.
- Abstract(参考訳): 大規模言語モデル(LLM)は、多くのドメインで高いパフォーマンスを達成するが、リソース制約のある設定では、そのサイズのためデプロイが困難である。
低ランク行列圧縮はモデルサイズを減らすための一般的な戦略であり、重みが低ランクであるという仮定の下での重み再構成誤差を最小化する。
しかし、この仮定は LLM では成り立たないことが多い。
代わりに、LDM活性化はより強力な低ランク構造を示し、活性化再構成誤差の最小化に向けてシフトを加速させる。
アクティベーション次元はモデルの性能に等しく寄与し、一様再構成は性能に悪影響を及ぼす。
本稿では, モデル圧縮決定とモデル動作への影響を関連付ける, 重要度に配慮したアクティベーション再構築のためのフレームワークであるIMPACTを提案する。
IMPACTは、アクティベーション構造と勾配感度の両方を考慮する最適化問題を定式化し、最適再構成基が重要重み付きアクティベーション共分散行列の固有ベクトルである閉形式解を導出する。
これにより、精度を維持するために明示的に最適化された低ランク近似が可能になる。
多様なモデルやタスクにわたる実験により、IMPACTは最先端のベースラインに匹敵する精度で最大48.6%のモデルサイズ縮小を達成した。
関連論文リスト
- FLAT-LLM: Fine-grained Low-rank Activation Space Transformation for Large Language Model Compression [15.784158079414235]
FLAT-LLMは、アクティベーション空間の微細な低ランク変換に基づく、トレーニング不要な構造圧縮手法である。
回復微調整なしで効率よく効果的な重量圧縮を実現し、数分でキャリブレーションを完了できる。
論文 参考訳(メタデータ) (2025-05-29T19:42:35Z) - Weight Spectra Induced Efficient Model Adaptation [54.8615621415845]
微調整された大規模な基礎モデルは、計算コストを禁ずる。
微調整が最上位特異値を大きく増幅する一方で,残りはほとんど無傷であることを示す。
本稿では,トップ特異方向の学習可能な再スケーリングを利用する新しい手法を提案する。
論文 参考訳(メタデータ) (2025-05-29T05:03:29Z) - LatentLLM: Attention-Aware Joint Tensor Compression [50.33925662486034]
大規模言語モデル(LLM)と大規模マルチモーダルモデル(LMM)は膨大な計算量とメモリ資源を必要とする。
本稿では,LLM/LMMを低次元潜在構造に変換するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-23T22:39:54Z) - Model Hemorrhage and the Robustness Limits of Large Language Models [119.46442117681147]
大規模言語モデル(LLM)は、自然言語処理タスク全体で強力なパフォーマンスを示すが、デプロイメント用に修正された場合、大幅なパフォーマンス低下を経験する。
この現象をモデル出血(パラメータ変更とアーキテクチャ変更によるパフォーマンス低下)と定義する。
論文 参考訳(メタデータ) (2025-03-31T10:16:03Z) - CURing Large Models: Compression via CUR Decomposition [1.1510009152620668]
本稿では,CUR行列分解に基づく新しいモデル圧縮手法であるCURingを紹介する。
情報的行と列を識別および保持することにより、CURingはパフォーマンス損失を最小限に抑えてモデルサイズを大幅に削減する。
例えば、Llama3.1-8Bのパラメータをわずか129秒で7.32B (-9%)に削減する。
論文 参考訳(メタデータ) (2025-01-08T01:11:17Z) - DoTA: Weight-Decomposed Tensor Adaptation for Large Language Models [33.4538652558253]
低ランク適応(LoRA)は、低ランク行列による更新を近似することにより、微調整された大言語モデル(LLM)の計算とメモリ要求を減らす。
本稿では,事前学習した重みの行列積演算子(MPO)分解を利用した重み分解適応(DoTA)を提案する。
また、4ビット量子化用に設計されたDoTAの量子化バージョンであるQDoTAを紹介する。
論文 参考訳(メタデータ) (2024-12-30T12:00:47Z) - From Low Rank Gradient Subspace Stabilization to Low-Rank Weights: Observations, Theories, and Applications [85.17672240603011]
大規模言語モデルにおける重み行列の非一様低ランク特性について検討する。
WeLore(Weight Low-Rank Projection)は、重み圧縮とメモリ効率の微調整を一体化したものである。
論文 参考訳(メタデータ) (2024-07-15T21:05:20Z) - Pruning Large Language Models to Intra-module Low-rank Architecture with Transitional Activations [21.229296254354878]
本稿では,タスクに依存しない構造化プルーニング手法と,コンパクトなTransformerアーキテクチャ設計を提案する。
提案手法はTransActと呼ばれ,MHA(Multi-head attention)およびMLP(Multi-layer perceptron)モジュール内の遷移活性化を低減する。
その結果, 効率と性能の両面から, 高い圧縮率で提案手法の最適性を検証することができた。
論文 参考訳(メタデータ) (2024-07-08T07:45:38Z) - Data-free Weight Compress and Denoise for Large Language Models [96.68582094536032]
パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。
キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
論文 参考訳(メタデータ) (2024-02-26T05:51:47Z) - Language model compression with weighted low-rank factorization [73.61874728240568]
本稿では,モデル予測に影響を及ぼすパラメータの重要性を評価するために,フィッシャー情報を紹介する。
結果のタスク精度は、元のモデルの性能にかなり近いことがわかった。
提案手法は,タスク固有のモデルを直接圧縮し,他のコンパクトモデル戦略よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-06-30T21:57:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。