論文の概要: Activation Compression in LLMs: Theoretical Analysis and Efficient Algorithm
- arxiv url: http://arxiv.org/abs/2605.01255v1
- Date: Sat, 02 May 2026 05:27:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.669569
- Title: Activation Compression in LLMs: Theoretical Analysis and Efficient Algorithm
- Title(参考訳): LLMにおける活性化圧縮:理論解析と効率的なアルゴリズム
- Authors: Wen-Da Wei, Han-Bin Fang, Yang-Di Liu, Jiang-Xin Shi, James Kwok, Yu-Feng Li,
- Abstract要約: 本稿では, アクティベーション圧縮が非バイアスである場合, グラデーション演算子に対して安全であることを示す理論的枠組みを開発する。
余分な計算や追加の勾配誤差を伴わずに、低ランクな活性化因子を再利用して線形層勾配を圧縮する活性化段階の共圧縮法を提案する。
- 参考スコア(独自算出の注目度): 14.047719477464854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training large language models (LLMs) is highly memory-intensive, as training must store not only weights and optimizer states but also intermediate activations for backpropagation. While existing memory-efficient methods largely focus on gradients and optimizer states, activation compression is less well established due to the lack of LLM-tailored theory and guarantees. In this work, we develop a theoretical framework showing that activation compression is safe for linear operators when activation compression is unbiased, but problematic for nonlinear ones. We further derive gradient variance bound and establish convergence guarantees for applying activation compression to all linear operators under the standard $L$-smoothness assumption, showing that it does not change the convergence rate. Guided by the theory, we propose an activation-gradient co-compression method that reuses low-rank activation factors to compress linear-layer gradients without extra computation or additional gradient error. We conduct extensive experiments on Qwen and LLaMA models using a pretraining benchmark and multiple fine-tuning benchmarks to validate our theory and demonstrate competitive performance of our method in both accuracy and compression efficiency. We provide our code in the supplementary material for reproducibility.
- Abstract(参考訳): 大規模言語モデル(LLM)のトレーニングは、重み付けと最適化状態だけでなく、バックプロパゲーションのための中間的アクティベーションを記憶しなければならないため、メモリ集約性が高い。
既存のメモリ効率の手法は主に勾配とオプティマイザ状態に重点を置いているが、LCMに適した理論と保証がないため、アクティベーション圧縮は十分に確立されていない。
本研究では, 線形演算子に対して, アクティベーション圧縮が不偏でも非線形圧縮が問題となる場合に, アクティベーション圧縮が安全であることを示す理論的枠組みを開発する。
さらに勾配分散を導出し、標準の$L$-smoothness仮定の下ですべての線型作用素に活性化圧縮を適用するための収束保証を確立し、収束率を変えないことを示す。
提案手法は,低ランク活性化因子を再利用し,余分な計算や追加の勾配誤差を伴わずに線形層勾配を圧縮する活性化段階の共圧縮法である。
我々は、事前学習ベンチマークと複数の微調整ベンチマークを用いて、QwenとLLaMAモデルに関する広範な実験を行い、その理論を検証し、精度と圧縮効率の両面で本手法の競合性能を実証した。
再現性のための補足資料にコードを提供します。
関連論文リスト
- PRAC: Principal-Random Subspace for LLM Activation Compression and Memory-Efficient Training [5.275001711555517]
LLM Activation Compression (PRAC) のためのプライマリランサム部分空間を提案する。
PRACはアクティベーションを2つのコンポーネントに分解する: SVDで取得した主部分空間は支配的な情報を保持するために、そして直交補体からサンプリングされたランダム部分空間は尾部を近似する。
事前トレーニングおよび微調整タスクの実験により、PRACは、無視できる性能劣化と最小計算コストで最大36%のメモリ削減を達成した。
論文 参考訳(メタデータ) (2026-02-26T15:23:34Z) - Towards Efficient Large Language Reasoning Models via Extreme-Ratio Chain-of-Thought Compression [55.63153956934198]
Chain-of-Thought (CoT)推論はLarge Language Models (LLMs)の推論能力をうまく向上させる
既存のCoT圧縮法は、しばしば高い圧縮比で論理的忠実度が著しく低下する。
本稿では,Extra-CoTと呼ばれる新しいEXTreme-RAtio Chain-of-Thought Compressionフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-09T06:57:15Z) - ODELoRA: Training Low-Rank Adaptation by Solving Ordinary Differential Equations [54.886931928255564]
低ランク適応(LoRA)は、深層移動学習においてパラメータ効率の高い微調整法として広く採用されている。
常微分方程式(ODE)の形でLoRA因子行列に対する新しい連続時間最適化ダイナミクスを提案する。
ODELoRAは,問題次元の異なるスケールのディープニューラルネットワークのトレーニングに不可欠な特性である,安定した特徴学習を実現する。
論文 参考訳(メタデータ) (2026-02-07T10:19:36Z) - Gradually Compacting Large Language Models for Reasoning Like a Boiling Frog [72.4168434368873]
大きな言語モデル(LLM)は印象的な推論能力を示しているが、その相当なサイズは、しばしばかなりの計算資源を必要とする。
圧縮過程を細かな繰り返しに分割する段階的圧縮法を提案する。
この「沸騰するカエル」効果の反復的なアプローチは、急激な性能損失を伴わずに、モデルを段階的に圧縮することができる。
論文 参考訳(メタデータ) (2026-02-04T06:56:52Z) - Rethinking Autoregressive Models for Lossless Image Compression via Hierarchical Parallelism and Progressive Adaptation [75.58269386927076]
自己回帰(AR)モデルは、しばしば計算コストの禁止のために非現実的に除外される。
この研究は、階層的並列性とプログレッシブ適応に基づくフレームワークを導入して、このパラダイムを再考する。
各種データセット(自然,衛星,医療)の実験により,本手法が新たな最先端圧縮を実現することを確認した。
論文 参考訳(メタデータ) (2025-11-14T06:27:58Z) - Activation-Informed Pareto-Guided Low-Rank Compression for Efficient LLM/VLM [11.762499172999886]
大規模言語モデル (LLM) と視覚言語モデル (VLM) は最先端のパフォーマンスを達成しているが、それらは展開において重要なメモリとコンピューティングの課題を課している。
この課題に対処する新しい低ランク圧縮フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-07T03:07:47Z) - Adacc: An Adaptive Framework Unifying Compression and Activation Recomputation for LLM Training [40.371351103295765]
大きな言語モデル(LLM)のトレーニングは、GPUメモリの制限によって制限されることが多い。
Adaccはアクティベーション再計算とデータ圧縮を統合する最初の適応型メモリ最適化フレームワークである。
Adaccは、最先端のフレームワークと比較して、トレーニングのスループットを1.01倍から1.37倍改善している。
論文 参考訳(メタデータ) (2025-08-01T17:39:25Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - A Theoretical Explanation of Activation Sparsity through Flat Minima and
Adversarial Robustness [29.87592869483743]
ブロック内でのアクティベーション間隔の最近の経験的観察は、自由な計算コストを大幅に削減する機会を提供する。
本稿では、活性化空間の1つの源としての空間性の概念とそれに基づく理論的説明を提案する。
論文 参考訳(メタデータ) (2023-09-06T13:48:40Z) - Low-Rank Prune-And-Factorize for Language Model Compression [18.088550230146247]
マトリックスの分解は、中程度から高い圧縮速度で良好な性能を維持することができない。
スパシティ対応SVDとミックスランクファインチューニングの2つの手法を提案する。
論文 参考訳(メタデータ) (2023-06-25T07:38:43Z) - Linear Convergent Decentralized Optimization with Compression [50.44269451541387]
圧縮を伴う既存の分散アルゴリズムは主にDGD型アルゴリズムの圧縮に焦点を当てている。
原始双対アルゴリズムによって動機付けられた本論文は、最初のアンダーラインLinunderlineEAr収束を提案する。
underline Decentralized with compression, LEAD。
論文 参考訳(メタデータ) (2020-07-01T04:35:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。