論文の概要: PRAC: Principal-Random Subspace for LLM Activation Compression and Memory-Efficient Training
- arxiv url: http://arxiv.org/abs/2602.23111v1
- Date: Thu, 26 Feb 2026 15:23:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.748461
- Title: PRAC: Principal-Random Subspace for LLM Activation Compression and Memory-Efficient Training
- Title(参考訳): PRAC: LLM Activation Compression と Memory-Efficient Training のための主領域部分空間
- Authors: Yanyi Li, Yimu Zhang, Cong Fang,
- Abstract要約: LLM Activation Compression (PRAC) のためのプライマリランサム部分空間を提案する。
PRACはアクティベーションを2つのコンポーネントに分解する: SVDで取得した主部分空間は支配的な情報を保持するために、そして直交補体からサンプリングされたランダム部分空間は尾部を近似する。
事前トレーニングおよび微調整タスクの実験により、PRACは、無視できる性能劣化と最小計算コストで最大36%のメモリ削減を達成した。
- 参考スコア(独自算出の注目度): 5.275001711555517
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Activations have become the primary memory bottleneck in large-batch LLM training. However, existing compression methods fail to exploit the spectral structure of activations, resulting in slow convergence or limited compression. To address this, we bridge the relationship between the algorithm's fast convergence and the requirements for subspace projection, and show that an effective compression should yield an unbiased estimate of the original activation with low variance. We propose Principal-Random Subspace for LLM Activation Compression (PRAC), which novelly decomposes activations into two components: a principal subspace captured via SVD to retain dominant information, and a random subspace sampled from the orthogonal complement to approximate the tail. By introducing a precise scaling factor, we prove that PRAC yields an unbiased gradient estimator with minimum variance under certain conditions. Extensive experiments on pre-training and fine-tuning tasks demonstrate that PRAC achieves up to 36% total memory reduction with negligible performance degradation and minimal computational cost.
- Abstract(参考訳): 大規模なLDMトレーニングでは、アクティベーションが主要なメモリボトルネックとなっている。
しかし、既存の圧縮法では、アクティベーションのスペクトル構造を利用することができず、収束が遅く、圧縮が制限される。
これを解決するために,アルゴリズムの高速収束と部分空間射影要件の関係を橋渡しし,実効圧縮が低分散で元のアクティベーションの偏りのない推定値を与えることを示す。
本稿では, LLM Activation Compression (PRAC) のためのプライマリ・ランサム・サブスペースを提案する。
正確なスケーリング係数を導入することで、PRACが一定の条件下で最小分散の非バイアス勾配推定器を生成することを証明できる。
事前学習および微調整タスクに関する大規模な実験により、PRACは、無視できる性能劣化と最小計算コストで最大36%のメモリ削減を達成した。
関連論文リスト
- Gradually Compacting Large Language Models for Reasoning Like a Boiling Frog [72.4168434368873]
大きな言語モデル(LLM)は印象的な推論能力を示しているが、その相当なサイズは、しばしばかなりの計算資源を必要とする。
圧縮過程を細かな繰り返しに分割する段階的圧縮法を提案する。
この「沸騰するカエル」効果の反復的なアプローチは、急激な性能損失を伴わずに、モデルを段階的に圧縮することができる。
論文 参考訳(メタデータ) (2026-02-04T06:56:52Z) - LANCE: Low Rank Activation Compression for Efficient On-Device Continual Learning [9.009523608709117]
オンデバイス学習は、リソース制約のある環境におけるパーソナライズ、プライバシ、長期適応に不可欠である。
既存のアクティベーション圧縮手法は、このコストを削減するが、繰り返し低ランクの分解に依存し、計算オーバーヘッドを発生させる。
アクティベーションプロジェクションのための再利用可能な低ランク部分空間を得るために,一ショット高次特異値分解(SVD)を行うフレームワークであるLANCEを提案する。
論文 参考訳(メタデータ) (2025-09-25T21:33:40Z) - TeZO: Empowering the Low-Rankness on the Temporal Dimension in the Zeroth-Order Optimization for Fine-tuning LLMs [58.19080159470868]
モデルと時間次元の両方にわたって低ランク度をキャプチャする新しい低ランクZO推定器TeZOを提案する。
具体的には、時間次元に沿ったZO摂動を3次元テンソルとして表現し、Canonical Polyadic Decomposition (CPD)を用いて各低ランク2次元行列を抽出する。
論文 参考訳(メタデータ) (2025-01-31T11:34:03Z) - EoRA: Fine-tuning-free Compensation for Compressed LLM with Eigenspace Low-Rank Approximation [84.70637613266835]
EoRAは、圧縮されたLarge Language Modelを低ランク行列で拡張する微調整不要な手法である。
EoRAは、圧縮LDMの精度を回復するために、トレーニングなしの低ランク法よりも一貫して優れている。
論文 参考訳(メタデータ) (2024-10-28T17:59:03Z) - Enhancing Zeroth-order Fine-tuning for Language Models with Low-rank Structures [21.18741772731095]
ゼロ階数(ZO)アルゴリズムは、関数値の有限差を用いて勾配を近似することで、有望な代替手段を提供する。
既存のZO法は、LLM微調整で一般的な低ランク勾配構造を捉えるのに苦労し、準最適性能をもたらす。
本稿では,LLMにおけるこの構造を効果的に捕捉する低ランクZOアルゴリズム(LOZO)を提案する。
論文 参考訳(メタデータ) (2024-10-10T08:10:53Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - STBLLM: Breaking the 1-Bit Barrier with Structured Binary LLMs [28.70239743254508]
LLM圧縮のための最初の構造双対化法を1ビット未満の精度で提案する。
バイナライズされたLLMの重みは、性能劣化を伴わずにランダムに反転することができる。
本手法は他の圧縮バイナライズ手法よりも優れた性能を示しながら,メモリ要求を大幅に低減する。
論文 参考訳(メタデータ) (2024-08-03T15:07:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。