論文の概要: Why Smaller Is Slower? Dimensional Misalignment in Compressed LLMs
- arxiv url: http://arxiv.org/abs/2604.09595v1
- Date: Thu, 05 Mar 2026 14:50:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.527659
- Title: Why Smaller Is Slower? Dimensional Misalignment in Compressed LLMs
- Title(参考訳): なぜより小さくなったのか?圧縮LDMの次元的相違
- Authors: Jihao Xin, Tian Lyu, Qilong Pan, Kesen Wang, Marco Canini,
- Abstract要約: トレーニング後の圧縮は、GPU性能を低下させる不規則なテンソル次元を生成する。
フレームワーク,ライブラリ,ハードウェアの3レベルにおいて,根本原因のフルスタック解析を行う。
我々は,任意の次元低減圧縮機をラップする新しい圧縮パラダイムである textbfGAC (GPU-Aligned Compression) を提案する。
- 参考スコア(独自算出の注目度): 3.0950443638122613
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Post-training compression reduces LLM parameter counts but often produces irregular tensor dimensions that degrade GPU performance -- a phenomenon we call \emph{dimensional misalignment}. We present a full-stack analysis tracing root causes at three levels: framework, library, and hardware. The key insight is that model inference becomes slower because the resulting dimensions are unfriendly with the GPU execution stack. For example, compressing Llama-3-8B with activation-aware singular value decomposition (ASVD) has 15\% fewer parameters yet runs no faster than the uncompressed baseline, because 95\% of its dimensions are misaligned. We propose \textbf{GAC} (GPU-Aligned Compression), a new compression paradigm that wraps any dimension-reducing compressor and re-selects hardware-aligned dimensions via multi-choice knapsack optimization under the same parameter budget. We evaluate GAC on Llama-3-8B with ASVD and LLM-Pruner, achieving 100\% alignment and recovering up to 1.5$\times$ speedup while preserving model quality.
- Abstract(参考訳): トレーニング後の圧縮は、LLMパラメータ数を削減しますが、GPUのパフォーマンスを低下させる不規則なテンソル次元をしばしば生成します。
フレームワーク,ライブラリ,ハードウェアの3レベルにおいて,根本原因のフルスタック解析を行う。
重要な洞察は、結果の次元がGPU実行スタックと親和性がないため、モデル推論が遅くなることである。
例えば、アクティベーション対応特異値分解(ASVD)によるLlama-3-8B圧縮は、パラメータが15\%少ないが、95%の次元が不一致であるため、圧縮されていないベースラインよりも高速に実行される。
我々は,任意の次元還元圧縮機をラップし,同一パラメータ予算下でのマルチ選択knapsack最適化により,ハードウェアアラインメントの次元を再選択する新しい圧縮パラダイムである \textbf{GAC} (GPU-Aligned Compression) を提案する。
ASVD と LLM-Pruner による Llama-3-8B 上の GAC の評価を行い,100 % のアライメントを実現し,モデル品質を維持しながら1.5$\times$ の高速化を実現した。
関連論文リスト
- Prompt Compression in the Wild: Measuring Latency, Rate Adherence, and Quality for Faster LLM Inference [5.608398371429037]
LLMLinguaは、プロンプト長、圧縮比、ハードウェア容量がよく一致した場合、最大18%のエンドツーエンドのスピードアップを達成する。
効率的な圧縮は、ワークロードをデータセンターGPUからコモディティカードにオフロードするのに十分なメモリ使用量を削減できることを示す。
論文 参考訳(メタデータ) (2026-04-03T11:41:53Z) - Memory-Efficient Acceleration of Block Low-Rank Foundation Models on Resource Constrained GPUs [11.45717904490388]
トランスフォーマーベースの基盤モデルの最近の進歩は、多くのタスクのデフォルト選択となった。
その急速に成長するサイズは、単一のGPUに完全なモデルを適合させることがますます難しくなり、計算コストが禁じられる。
ブロック低ランク(BLR)圧縮技術は、重み行列のコンパクト表現を学習することでこの問題に対処する。
論文 参考訳(メタデータ) (2025-12-24T00:41:13Z) - 70% Size, 100% Accuracy: Lossless LLM Compression for Efficient GPU Inference via Dynamic-Length Float [52.079202872069835]
大規模言語モデル(LLM)や拡散モデル(DM)といった大規模AIモデルは急速に成長している。
圧縮フレームワークであるDynamic-Length Float (DFloat11) を導入し, LLM と DM サイズを30%削減した。
論文 参考訳(メタデータ) (2025-04-15T22:38:38Z) - EoRA: Fine-tuning-free Compensation for Compressed LLM with Eigenspace Low-Rank Approximation [84.70637613266835]
EoRAは、圧縮されたLarge Language Modelを低ランク行列で拡張する微調整不要な手法である。
EoRAは、圧縮LDMの精度を回復するために、トレーニングなしの低ランク法よりも一貫して優れている。
論文 参考訳(メタデータ) (2024-10-28T17:59:03Z) - Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。
分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。
SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文 参考訳(メタデータ) (2024-10-22T17:59:30Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - Accelerating Large Language Model Training with Hybrid GPU-based Compression [3.204387803072905]
MPIライブラリはメッセージサイズを大幅に削減し、相互接続帯域幅を活用することが証明されている。
分散大言語モデル(LLM)学習における圧縮支援型MPI集団の有効性について検討した。
論文 参考訳(メタデータ) (2024-09-04T04:05:30Z) - SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight
Compression [76.73007709690306]
Sparse-Quantized Representation (SpQR) は,新しい圧縮フォーマットと量子化技術である。
SpQRは、高精度なLLaMAとFalcon LLMのパープレキシティにおいて、1%未満の相対的精度の損失を達成している。
これにより、1台の24GBのコンシューマGPU上で33BパラメータのLSMを実行でき、15%のスピードアップでパフォーマンスの劣化は発生しない。
論文 参考訳(メタデータ) (2023-06-05T17:53:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。