論文の概要: Activation-Informed Pareto-Guided Low-Rank Compression for Efficient LLM/VLM
- arxiv url: http://arxiv.org/abs/2510.05544v1
- Date: Tue, 07 Oct 2025 03:07:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.082048
- Title: Activation-Informed Pareto-Guided Low-Rank Compression for Efficient LLM/VLM
- Title(参考訳): 効率的なLDM/VLMのための活性化インフォームパレート誘導低域圧縮
- Authors: Ryan Solgi, Parsa Madinei, Jiayi Tian, Rupak Swaminathan, Jing Liu, Nathan Susanj, Zheng Zhang,
- Abstract要約: 大規模言語モデル (LLM) と視覚言語モデル (VLM) は最先端のパフォーマンスを達成しているが、それらは展開において重要なメモリとコンピューティングの課題を課している。
この課題に対処する新しい低ランク圧縮フレームワークを提案する。
- 参考スコア(独自算出の注目度): 11.762499172999886
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLM) and vision-language models (VLM) have achieved state-of-the-art performance, but they impose significant memory and computing challenges in deployment. We present a novel low-rank compression framework to address this challenge. First, we upper bound the change of network loss via layer-wise activation-based compression errors, filling a theoretical gap in the literature. We then formulate low-rank model compression as a bi-objective optimization and prove that a single uniform tolerance yields surrogate Pareto-optimal heterogeneous ranks. Based on our theoretical insights, we propose Pareto-Guided Singular Value Decomposition (PGSVD), a zero-shot pipeline that improves activation-aware compression via Pareto-guided rank selection and alternating least-squares implementation. We apply PGSVD to both LLM and VLM, showing better accuracy at the same compression levels and inference speedup.
- Abstract(参考訳): 大規模言語モデル (LLM) と視覚言語モデル (VLM) は最先端のパフォーマンスを達成しているが、それらは展開において重要なメモリとコンピューティングの課題を課している。
この課題に対処する新しい低ランク圧縮フレームワークを提案する。
まず、レイヤワイドアクティベーションに基づく圧縮誤差によるネットワーク損失の変化を上限として、文献の理論的ギャップを埋める。
次に、二目的最適化として低ランクモデル圧縮を定式化し、単一の一様寛容がパレート最適不均一ランクを得ることを示す。
理論的な知見に基づき、パレート誘導階数選択と最小二乗実装の交互化によるアクティベーション認識圧縮を改善するゼロショットパイプラインであるパレート誘導特異値分解(PGSVD)を提案する。
PGSVDをLLMとVLMの両方に適用し、同じ圧縮レベルでの精度と推論の高速化を示す。
関連論文リスト
- Semantic Retention and Extreme Compression in LLMs: Can We Have Both? [0.0]
LLM(Large Language Model)デプロイメントでは,効率的なモデル圧縮技術の必要性が高まっている。
我々は, プルーニングと量子化を戦略的に組み合わせることで, 高い性能・圧縮比が得られることを示す。
本稿では,モデル圧縮と意味保存のトレードオフを定量化する新しい指標であるセマンティック保持圧縮率(SrCr)を紹介する。
論文 参考訳(メタデータ) (2025-05-12T07:23:19Z) - Choose Your Model Size: Any Compression by a Single Gradient Descent [9.074689052563878]
イテレーティブ・プルーニング(ACIP)による圧縮について紹介する。
ACIPは、単一の勾配降下ランから圧縮性能トレードオフを決定するアルゴリズム的なアプローチである。
本稿では,ACIPが共通量子化に基づく圧縮手法をシームレスに補完することを示す。
論文 参考訳(メタデータ) (2025-02-03T18:40:58Z) - CALLIC: Content Adaptive Learning for Lossless Image Compression [64.47244912937204]
CALLICは、学習したロスレス画像圧縮のための新しい最先端(SOTA)を設定する。
本稿では,畳み込みゲーティング操作を利用したコンテンツ認識型自己回帰自己保持機構を提案する。
エンコーディング中、低ランク行列を用いて深度の畳み込みを含む事前学習層を分解し、レート誘導プログレッシブファインタニング(RPFT)による画像検査にインクリメンタルウェイトを適応させる。
推定エントロピーにより下位順にソートされたパッチを徐々に増加させたRPFTファインチューン,学習過程の最適化,適応時間の短縮を実現した。
論文 参考訳(メタデータ) (2024-12-23T10:41:18Z) - Pushing the Limits of Large Language Model Quantization via the Linearity Theorem [71.3332971315821]
本稿では,階層的$ell$再構成誤差と量子化によるモデルパープレキシティ増加との直接的な関係を確立する「線形定理」を提案する。
この知見は,(1)アダマール回転とHIGGSと呼ばれるMSE最適格子を用いた単純なデータフリーLCM量子化法,(2)非一様層ごとの量子化レベルを求める問題に対する最適解の2つの新しい応用を可能にする。
論文 参考訳(メタデータ) (2024-11-26T15:35:44Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - ASVD: Activation-aware Singular Value Decomposition for Compressing Large Language Models [49.970828419830355]
大規模言語モデル(LLM)のための新しい訓練後圧縮パラダイムを提案する。
我々は、アクティベーション対応特異値分解(ASVD)と呼ばれるトレーニング不要の手法を提案する。
論文 参考訳(メタデータ) (2023-12-10T08:41:24Z) - Lightweight Attribute Localizing Models for Pedestrian Attribute Recognition [13.480231032159834]
本稿では,圧縮モデルの勾配方向が元のモデルと密接に一致していることを保証するため,低ランク層の最適ランクを決定する新しい手法を提案する。
これは、圧縮されたモデルはフルモデルの更新方向を効果的に保存し、歩行者属性認識タスクのより効率的な圧縮を可能にすることを意味する。
論文 参考訳(メタデータ) (2023-06-16T13:07:13Z) - Compression of Generative Pre-trained Language Models via Quantization [62.80110048377957]
従来の量子化手法は, テクスモジニアス単語の埋め込みによって生成タスクに失敗することがわかった。
本稿では,区別可能な単語埋め込みを学習するためのトークンレベルのコントラスト蒸留法と,異なるモジュールに対して量子化器を適応させるモジュールワイドダイナミックスケーリングを提案する。
論文 参考訳(メタデータ) (2022-03-21T02:11:35Z) - Linear Convergent Decentralized Optimization with Compression [50.44269451541387]
圧縮を伴う既存の分散アルゴリズムは主にDGD型アルゴリズムの圧縮に焦点を当てている。
原始双対アルゴリズムによって動機付けられた本論文は、最初のアンダーラインLinunderlineEAr収束を提案する。
underline Decentralized with compression, LEAD。
論文 参考訳(メタデータ) (2020-07-01T04:35:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。