論文の概要: Profiling LoRA/QLoRA Fine-Tuning Efficiency on Consumer GPUs: An RTX 4060 Case Study
- arxiv url: http://arxiv.org/abs/2509.12229v1
- Date: Sun, 07 Sep 2025 21:41:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:52.626158
- Title: Profiling LoRA/QLoRA Fine-Tuning Efficiency on Consumer GPUs: An RTX 4060 Case Study
- Title(参考訳): 消費者向けGPUにおけるLoRA/QLoRAファインチューニング効率のプロファイリング:RTX 4060ケーススタディ
- Authors: MSR Avinash,
- Abstract要約: LoRA や QLoRA のようなパラメータ効率のよい手法で微調整された大規模言語モデルは、控えめなハードウェアの適応を可能にしている。
本稿では,1台のNVIDIA GTX 4060上でのQwen2.5-1.5B-Instructモデルを用いたLoRA/QLoRAファインチューニングの制御プロファイリングについて述べる。
その結果,bf16はfp16と比較して効率が低下するのに対し,ページドではスループットが25%向上した(628 tok/s,500 tok/s)。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning large language models (LLMs) with parameter-efficient techniques such as LoRA and QLoRA has enabled adaptation of foundation models on modest hardware. Yet the efficiency of such training on consumer-grade GPUs, especially under strict 8 GB VRAM limits, remains underexplored. We present a controlled profiling study of LoRA/QLoRA fine-tuning using the Qwen2.5-1.5B-Instruct model on a single NVIDIA RTX 4060. Across three representative configurations, we systematically vary batch size, sequence length, optimizer choice (AdamW vs. PagedAdamW), and precision (fp16 vs. bf16). We report throughput (tokens/s), time per 10k tokens, and VRAM footprint, alongside energy estimates derived from GPU board power limits. Our results show that paged optimizers improve throughput by up to 25% (628 tok/s vs. 500 tok/s baseline), while bf16 degrades efficiency relative to fp16. Despite 8 GB constraints, sequence lengths up to 2048 tokens were feasible using parameter-efficient strategies. To our knowledge, this is the first systematic case study of LLM fine- tuning efficiency on consumer GPUs, providing reproducible benchmarks and practical guidelines for resource-constrained researchers and practitioners.
- Abstract(参考訳): LoRA や QLoRA のようなパラメータ効率のよい手法を応用した細調整大型言語モデル (LLM) により,基礎モデルの標準ハードウェアへの適応が可能となった。
しかし、コンシューマグレードのGPU、特に厳格な8GB VRAM制限下でのトレーニングの効率は未定である。
本稿では,1台のNVIDIA RTX 4060上でのQwen2.5-1.5B-Instructモデルを用いたLoRA/QLoRAファインチューニングの制御プロファイリングについて述べる。
3つの代表的な構成で、バッチサイズ、シーケンス長、オプティマイザの選択(AdamW vs. PagedAdamW)、精度(fp16 vs. bf16)を体系的に変更します。
スループット(トークン/秒)、10kトークン当たりの時間、VRAMフットプリント、GPUボードの電力制限から得られたエネルギー推定を報告します。
その結果,ページ最適化器のスループットは最大25%向上し(628 tok/s対500 tok/s)、bf16ではfp16に対して効率が低下した。
8GBの制約にもかかわらず、最大2048個のトークンのシーケンス長はパラメータ効率の戦略で実現できた。
我々の知る限り、このケーススタディはLLMファインチューニング効率の一般向けGPUにおける最初のシステマティックケーススタディであり、再現可能なベンチマークとリソース制約のある研究者や実践者のための実践的ガイドラインを提供する。
関連論文リスト
- LoRA Fine-Tuning Without GPUs: A CPU-Efficient Meta-Generation Framework for LLMs [8.397730500554047]
Low-Rank Adapters (LoRA) は、パラメータ効率の更新を可能にすることで、Large Language Models (LLM) の微調整を変革した。
本稿では,限られた計算資源を持つユーザを対象としたLoRAファインタニング手法を提案する。
論文 参考訳(メタデータ) (2025-07-02T15:24:47Z) - EfficientLLM: Efficiency in Large Language Models [64.3537131208038]
大規模言語モデル(LLM)は大きな進歩を導いてきたが、その増加とコンテキストウィンドウは計算、エネルギー、金銭的コストを禁止している。
本稿では,新しいベンチマークであるEfficientLLMを紹介する。
論文 参考訳(メタデータ) (2025-05-20T02:27:08Z) - HeadInfer: Memory-Efficient LLM Inference by Head-wise Offloading [79.38548165722229]
HEADINFERはKVキャッシュをCPURAMにオフロードするが、GPU上のトランスフォーマー層のKVキャッシュを完全に保存する必要はない。
HEADINFERはメモリフットプリントを大幅に削減し,計算効率を向上することを示した。
論文 参考訳(メタデータ) (2025-02-18T06:26:05Z) - MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。
MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。
MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文 参考訳(メタデータ) (2024-11-18T01:06:12Z) - JORA: JAX Tensor-Parallel LoRA Library for Retrieval Augmented Fine-Tuning [16.86356520836045]
本稿では,Llama-2モデルのPEFT互換微調整のための新しいフレームワークについて紹介する。
我々のフレームワークは、JAXのジャスト・イン・タイム(JIT)コンパイルと、効率的なリソース管理のためにテンソルシャーディングを独自に利用しています。
実験では,Hugging Face/DeepSpeed実装を4GPUで実装するのに対して,GPUあたりのVRAMは半分以下であるのに対して,ランタイムでは12倍以上の改善が見られた。
論文 参考訳(メタデータ) (2024-03-17T23:02:04Z) - GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection [133.45193150403537]
LLM(Large Language Models)のトレーニングは、重み付けやGPU状態の増大によって、メモリ上の重大な問題が発生する。
本研究では,メモリ効率のトレーニング戦略としてグラディエント・ローランド・プロジェクション(GaLore)を提案する。
私たちの8ビットのGaLoreは、BF16ベースラインと比較して、メモリを82.5%、トレーニング総メモリを63.3%削減します。
論文 参考訳(メタデータ) (2024-03-06T07:29:57Z) - mLoRA: Fine-Tuning LoRA Adapters via Highly-Efficient Pipeline Parallelism in Multiple GPUs [5.735411578779657]
Low-Rank Adaptation (LoRA) はパラメータ効率のよい微調整法で、ベースLSMを複数の下流タスクに適応させるのに使われる。
LoRAプラットフォームにより、開発者は複数のモデルを微調整し、さまざまなドメイン固有のアプリケーションを同時に開発できる。
既存のモデル並列化スキームは、複数のLoRAタスクをトレーニングする際に、高い通信オーバーヘッドと非効率なGPU利用に悩まされる。
論文 参考訳(メタデータ) (2023-12-05T05:38:38Z) - QLoRA: Efficient Finetuning of Quantized LLMs [66.58009990713134]
我々は,48GBのGPU上で65Bパラメータモデルを微調整するのに十分なメモリ使用量を削減する,効率的な微調整手法QLoRAを提案する。
QLoRAは凍結した4ビット量子化事前学習言語モデルを通して低ランクアダプタ(LoRA)に逆伝搬する
最高のモデルファミリであるGuanacoは、Vicunaベンチマークでリリースされたすべてのモデルより優れています。
論文 参考訳(メタデータ) (2023-05-23T17:50:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。