論文の概要: Memory-Efficient Acceleration of Block Low-Rank Foundation Models on Resource Constrained GPUs
- arxiv url: http://arxiv.org/abs/2512.20861v1
- Date: Wed, 24 Dec 2025 00:41:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.642216
- Title: Memory-Efficient Acceleration of Block Low-Rank Foundation Models on Resource Constrained GPUs
- Title(参考訳): 資源拘束型GPUにおけるブロック低ランクファンデーションモデルのメモリ効率向上
- Authors: Pierre Abillama, Changwoo Lee, Juechu Dong, David Blaauw, Dennis Sylvester, Hun-Seok Kim,
- Abstract要約: トランスフォーマーベースの基盤モデルの最近の進歩は、多くのタスクのデフォルト選択となった。
その急速に成長するサイズは、単一のGPUに完全なモデルを適合させることがますます難しくなり、計算コストが禁じられる。
ブロック低ランク(BLR)圧縮技術は、重み行列のコンパクト表現を学習することでこの問題に対処する。
- 参考スコア(独自算出の注目度): 11.45717904490388
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in transformer-based foundation models have made them the default choice for many tasks, but their rapidly growing size makes fitting a full model on a single GPU increasingly difficult and their computational cost prohibitive. Block low-rank (BLR) compression techniques address this challenge by learning compact representations of weight matrices. While traditional low-rank (LR) methods often incur sharp accuracy drops, BLR approaches such as Monarch and BLAST can better capture the underlying structure, thus preserving accuracy while reducing computations and memory footprints. In this work, we use roofline analysis to show that, although BLR methods achieve theoretical savings and practical speedups for single-token inference, multi-token inference often becomes memory-bound in practice, increasing latency despite compiler-level optimizations in PyTorch. To address this, we introduce custom Triton kernels with partial fusion and memory layout optimizations for both Monarch and BLAST. On memory-constrained NVIDIA GPUs such as Jetson Orin Nano and A40, our kernels deliver up to $3.76\times$ speedups and $3\times$ model size compression over PyTorch dense baselines using CUDA backend and compiler-level optimizations, while supporting various models including Llama-7/1B, GPT2-S, DiT-XL/2, and ViT-B. Our code is available at https://github.com/pabillam/mem-efficient-blr .
- Abstract(参考訳): トランスフォーマーベースの基盤モデルの最近の進歩は、多くのタスクにおいてデフォルトの選択肢となっているが、その急速な成長により、単一のGPUに完全なモデルを適合させることがますます難しくなり、計算コストが禁じられている。
ブロック低ランク(BLR)圧縮技術は、重み行列のコンパクト表現を学習することでこの問題に対処する。
従来の低ランク(LR)手法は、しばしば鋭い精度低下を引き起こすが、MonarchやBLASTのようなBLRアプローチは、基礎となる構造をよりよく捉え、計算やメモリフットプリントを削減しながら精度を保つことができる。
そこで本研究では,BLR手法が理論的節約と実効的な高速化を実現しているにもかかわらず,マルチトークン推論は,PyTorchのコンパイラレベルの最適化に拘わらず,実際にメモリバウンドとなることが少なくないことを示す。
そこで我々は,Monarch と BLAST の双方に対して,部分融合とメモリレイアウトを最適化した独自の Triton カーネルを提案する。
Jetson Orin NanoやA40のようなメモリ制限されたNVIDIA GPUでは、我々のカーネルは、CUDAバックエンドとコンパイラレベルの最適化を使用して、PyTorch高密度ベースライン上でのモデルサイズ圧縮を3.76\times$で提供し、Llama-7/1B、GPT2-S、DiT-XL/2、ViT-Bといったさまざまなモデルをサポートする。
私たちのコードはhttps://github.com/pabillam/mem- efficient-blr で利用可能です。
関連論文リスト
- 70% Size, 100% Accuracy: Lossless LLM Compression for Efficient GPU Inference via Dynamic-Length Float [52.079202872069835]
大規模言語モデル(LLM)や拡散モデル(DM)といった大規模AIモデルは急速に成長している。
圧縮フレームワークであるDynamic-Length Float (DFloat11) を導入し, LLM と DM サイズを30%削減した。
論文 参考訳(メタデータ) (2025-04-15T22:38:38Z) - Pipette: Automatic Fine-grained Large Language Model Training Configurator for Real-World Clusters [5.190794062263327]
大規模言語モデル(LLM)の訓練は、膨大な計算能力とメモリ容量の要求のために困難であることが知られている。
本稿では,実世界のクラスタを対象としたLLM自動微粒化トレーニングであるPipetteを提案する。
論文 参考訳(メタデータ) (2024-05-28T11:59:44Z) - Flash-LLM: Enabling Cost-Effective and Highly-Efficient Large Generative
Model Inference with Unstructured Sparsity [12.663030430488922]
高速コア上での低コストかつ高効率な大規模生成モデル推論を実現するためのFlash-LLMを提案する。
SpMMカーネルレベルでは、Flash-LLMは最先端のライブラリであるSputnikとSparTAをそれぞれ平均2.9倍、1.5倍で上回っている。
論文 参考訳(メタデータ) (2023-09-19T03:20:02Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。