論文の概要: LLMQ: Efficient Lower-Precision Pretraining for Consumer GPUs
- arxiv url: http://arxiv.org/abs/2512.15306v1
- Date: Wed, 17 Dec 2025 10:51:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.945694
- Title: LLMQ: Efficient Lower-Precision Pretraining for Consumer GPUs
- Title(参考訳): LLMQ: コンシューマGPUのための効率的な低精度事前トレーニング
- Authors: Erik Schultheis, Dan Alistarh,
- Abstract要約: 本稿では,コモディティGPU上での3Bから32Bパラメータなど,中規模の言語モデルトレーニングのためのエンドツーエンド/C++実装を提案する。
これは、標準的な8ビットトレーニングパイプラインを実行し、追加のアルゴリズム近似なしで実行し、FLOP使用率を約50%維持する。
- 参考スコア(独自算出の注目度): 45.51664355320938
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present LLMQ, an end-to-end CUDA/C++ implementation for medium-sized language-model training, e.g. 3B to 32B parameters, on affordable, commodity GPUs. These devices are characterized by low memory availability and slow communication compared to datacentre-grade GPUs. Consequently, we showcase a range of optimizations that target these bottlenecks, including activation checkpointing, offloading, and copy-engine based collectives. LLMQ is able to train or fine-tune a 7B model on a single 16GB mid-range gaming card, or a 32B model on a workstation equipped with 4 RTX 4090s. This is achieved while executing a standard 8-bit training pipeline, without additional algorithmic approximations, and maintaining FLOP utilization of around 50%. The efficiency of LLMQ rivals that of production-scale systems on much more expensive cloud-grade GPUs.
- Abstract(参考訳): 本稿では,中規模言語モデルトレーニングのためのエンドツーエンドのCUDA/C++実装であるLLMQについて紹介する。
これらのデバイスは、データセントレグレードのGPUと比較して、メモリの可用性が低く、通信が遅いことが特徴である。
その結果、アクティベーションチェックポイント、オフロード、コピーエンジンベースの集合など、これらのボトルネックを対象とするさまざまな最適化について紹介する。
LLMQは、16GBのミドルレンジカードで7Bモデル、または4台のRTX 4090を搭載したワークステーションで32Bモデルを訓練または微調整することができる。
これは、標準的な8ビットトレーニングパイプラインを実行し、追加のアルゴリズム近似なしで実行し、FLOP使用率を約50%維持する。
LLMQの効率性は、より高価なクラウドグレードGPU上のプロダクションスケールのシステムに匹敵する。
関連論文リスト
- Can Large Language Models Predict Parallel Code Performance? [1.5221392705893568]
本稿では,Large Language Models (LLM) がハードウェアに依存しないGPU性能予測に代替的なアプローチを提供するかどうかを考察する。
LLMはRooflineモデルについて強く理解しており、明示的なプロファイリングデータを備えた場合、100%の分類精度を達成する。
以上の結果から,より優れたデータセットと迅速な戦略により,LLMはHPCルーフライン解析および性能ポータビリティのための実用的なツールとなる可能性が示唆された。
論文 参考訳(メタデータ) (2025-05-06T21:41:20Z) - Practical offloading for fine-tuning LLM on commodity GPU via learned sparse projectors [11.127604539303373]
微調整の大型言語モデル(LLM)は大きなメモリを必要とし、1つのGPUの容量を超えることが多い。
このメモリ課題の一般的な解決策は、計算とデータをGPUからCPUにオフロードすることだ。
本稿では,コモディティハードウェア上でのLLMの微調整を可能にするオフロードフレームワーク LSP-Offload を提案する。
論文 参考訳(メタデータ) (2024-06-14T16:59:11Z) - MEFT: Memory-Efficient Fine-Tuning through Sparse Adapter [40.616849959987555]
本稿では,大規模言語モデル (LLM) を大容量かつメモリ効率のよいアダプタで微調整する機構を提案する。
これは、LLMのFeed-Forward Networks(FFN)における固有のアクティベーション間隔を活用することで実現される。
我々は、不必要なCPU計算を緩和し、GPUとCPU間の通信量を削減するために、Mixture of Experts(MoE)のようなアーキテクチャを採用している。
論文 参考訳(メタデータ) (2024-06-07T14:49:22Z) - GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection [133.45193150403537]
LLM(Large Language Models)のトレーニングは、重み付けやGPU状態の増大によって、メモリ上の重大な問題が発生する。
本研究では,メモリ効率のトレーニング戦略としてグラディエント・ローランド・プロジェクション(GaLore)を提案する。
私たちの8ビットのGaLoreは、BF16ベースラインと比較して、メモリを82.5%、トレーニング総メモリを63.3%削減します。
論文 参考訳(メタデータ) (2024-03-06T07:29:57Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - Full Parameter Fine-tuning for Large Language Models with Limited Resources [55.794732214059806]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、トレーニングには大量のGPUリソースを必要としている。
我々は,メモリ使用量を削減するために,勾配とパラメータの更新を1ステップで融合する新しい計算,LOMO(LOw-Memory Optimization)を提案する。
論文 参考訳(メタデータ) (2023-06-16T11:37:15Z) - A TinyML Platform for On-Device Continual Learning with Quantized Latent
Replays [66.62377866022221]
Latent Replay-based Continual Learning (CL)技術は、原則としてオンライン、サーバレスの適応を可能にする。
10コアのFP32対応並列超低消費電力プロセッサをベースとした,エンドツーエンドCLのためのHW/SWプラットフォームを提案する。
これらの手法を組み合わせることで,64MB未満のメモリを用いて連続学習を実現することができることを示す。
論文 参考訳(メタデータ) (2021-10-20T11:01:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。