論文の概要: ASPEN: High-Throughput LoRA Fine-Tuning of Large Language Models with a
Single GPU
- arxiv url: http://arxiv.org/abs/2312.02515v1
- Date: Tue, 5 Dec 2023 05:38:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 16:38:51.802521
- Title: ASPEN: High-Throughput LoRA Fine-Tuning of Large Language Models with a
Single GPU
- Title(参考訳): ASPEN: 単一GPUを用いた大規模言語モデルの高速LoRAファインチューニング
- Authors: Zhengmao Ye and Dengchun Li and Jingqi Tian and Tingfeng Lan and Jie
Zuo and Lei Duan and Hui Lu and Yexi Jiang and Jian Sha and Ke Zhang and
Mingjie Tang
- Abstract要約: 本稿では,変圧器をベースとした大規模言語モデル(LLM)を微調整するフレームワークであるASPENを紹介する。
ASPENは、LoRAメソッドを使用して、1つのGPU上で複数のジョブを効率的にトレーニングし、共有事前学習モデルと適応スケジューリングを活用する。
実験によると、NVIDIA A100 80GB GPU上で複数のLLaMA-7Bモデルをトレーニングする場合、ASPENはGPUメモリの53%を節約している。
- 参考スコア(独自算出の注目度): 4.198627205271621
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based large language models (LLMs) have demonstrated outstanding
performance across diverse domains, particularly when fine-turned for specific
domains. Recent studies suggest that the resources required for fine-tuning
LLMs can be economized through parameter-efficient methods such as Low-Rank
Adaptation (LoRA). While LoRA effectively reduces computational burdens and
resource demands, it currently supports only a single-job fine-tuning setup.
In this paper, we present ASPEN, a high-throughput framework for fine-tuning
LLMs. ASPEN efficiently trains multiple jobs on a single GPU using the LoRA
method, leveraging shared pre-trained model and adaptive scheduling. ASPEN is
compatible with transformer-based language models like LLaMA and ChatGLM, etc.
Experiments show that ASPEN saves 53% of GPU memory when training multiple
LLaMA-7B models on NVIDIA A100 80GB GPU and boosts training throughput by about
17% compared to existing methods when training with various pre-trained models
on different GPUs. The adaptive scheduling algorithm reduces turnaround time by
24%, end-to-end training latency by 12%, prioritizing jobs and preventing
out-of-memory issues.
- Abstract(参考訳): トランスフォーマティブベースの大規模言語モデル(llm)は、特に特定のドメインに対して微調整された場合に、さまざまなドメインにまたがる優れた性能を示している。
近年の研究では、Low-Rank Adaptation (LoRA) のようなパラメータ効率の高い手法により、微調整 LLM に必要な資源をエコノマイズすることができることが示唆されている。
LoRAは計算負荷とリソース要求を効果的に削減するが、現在は単一ジョブの微調整のみをサポートしている。
本稿では,微調整LDMのための高スループットフレームワークであるASPENについて述べる。
ASPENは、LoRAメソッドを使用して、1つのGPU上で複数のジョブを効率的にトレーニングし、共有事前学習モデルと適応スケジューリングを活用する。
ASPENはLLaMAやChatGLMといったトランスフォーマーベースの言語モデルと互換性がある。
実験によると、複数のllama-7bモデルをnvidia a100 80gb gpuでトレーニングする場合、aspenはgpuメモリの53%を節約し、トレーニングスループットを既存の方法に比べて約17%向上させる。
適応スケジューリングアルゴリズムは、ターンアラウンド時間を24%削減し、エンドツーエンドのトレーニング遅延を12%削減し、ジョブを優先順位付けし、メモリ外問題を防止する。
関連論文リスト
- Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - MixLoRA: Enhancing Large Language Models Fine-Tuning with LoRA based Mixture of Experts [2.197828671701335]
MixLoRAは、リソース効率の良いスパースMoEモデルの構築を目的とした革新的なアプローチである。
実験では、MixLoRAは、シングルタスクとマルチタスクの学習シナリオの両方で、すべての評価指標の可読性を達成する。
論文 参考訳(メタデータ) (2024-04-22T02:15:52Z) - Automated Federated Pipeline for Parameter-Efficient Fine-Tuning of Large Language Models [21.864109456867784]
多くの下流タスクでは、プライベートデータを使用して大きな言語モデル(LLM)を微調整する必要がある。
我々はFedPipeという自動フェデレーションパイプラインを提案し、最小のトレーニングコストでLLMを微調整する。
大規模な実験では、FedPipeがモデルのトレーニングを高速化し、最先端のベンチマークよりも高い精度を達成することが示されている。
論文 参考訳(メタデータ) (2024-04-09T16:50:30Z) - LISA: Layerwise Importance Sampling for Memory-Efficient Large Language Model Fine-Tuning [31.088229461632206]
微調整作業におけるローランド適応 (LoRA) の層間特性について検討し, 異なる層にまたがる重みノルムの非一般的な歪さを観察する。
私たちはLayerwise Importance Sampled AdamW (LISA)と名付けました。
論文 参考訳(メタデータ) (2024-03-26T17:55:02Z) - JORA: JAX Tensor-Parallel LoRA Library for Retrieval Augmented Fine-Tuning [16.86356520836045]
本稿では,Llama-2モデルのPEFT互換微調整のための新しいフレームワークについて紹介する。
我々のフレームワークは、JAXのジャスト・イン・タイム(JIT)コンパイルと、効率的なリソース管理のためにテンソルシャーディングを独自に利用しています。
実験では,Hugging Face/DeepSpeed実装を4GPUで実装するのに対して,GPUあたりのVRAMは半分以下であるのに対して,ランタイムでは12倍以上の改善が見られた。
論文 参考訳(メタデータ) (2024-03-17T23:02:04Z) - GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection [139.19973370560533]
LLM(Large Language Models)のトレーニングは、重み付けやGPU状態の増大によって、メモリ上の重大な問題が発生する。
本研究では,メモリ効率のトレーニング戦略としてグラディエント・ローランド・プロジェクション(GaLore)を提案する。
私たちの8ビットのGaLoreは、BF16ベースラインと比較して、メモリを82.5%、トレーニング総メモリを63.3%削減します。
論文 参考訳(メタデータ) (2024-03-06T07:29:57Z) - Time-, Memory- and Parameter-Efficient Visual Adaptation [75.28557015773217]
バックボーンを介して勾配をバックプロパゲートしない適応法を提案する。
凍結した、事前訓練されたバックボーンの機能を利用する軽量ネットワークを並列に設計することで、これを実現する。
論文 参考訳(メタデータ) (2024-02-05T10:55:47Z) - Chain of LoRA: Efficient Fine-tuning of Language Models via Residual
Learning [31.036465632204663]
本稿では,Frank-Wolfeアルゴリズムにインスパイアされた反復最適化フレームワークであるLoRAのChainを紹介する。
計算コストやメモリコストを増大させることなく,COLA が LoRA を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-01-08T14:26:49Z) - Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文 参考訳(メタデータ) (2023-10-13T07:38:52Z) - Cheap and Quick: Efficient Vision-Language Instruction Tuning for Large
Language Models [77.2078051555533]
大規模言語モデル(LLM)の有効なVL適応のための,新規で安価なソリューションを提案する。
画像エンコーダとLLMを接続するために大きなニューラルネットワークを使用する代わりに、MMAは軽量モジュール、すなわちアダプタを採用する。
MMAはまた、LLMがシングルモードとマルチモードの命令を自動シフトするのを助けるルーティングアルゴリズムも備えている。
論文 参考訳(メタデータ) (2023-05-24T11:06:15Z) - LoRA: Low-Rank Adaptation of Large Language Models [71.75808607987281]
Low-Rank Adaptation (LoRA)はトレーニング済みモデルの重みを凍結し、トレーニング可能な階数分解をTransformerアーキテクチャの各層に注入する。
GPT-3では、LoRAはトレーニング可能なパラメータの数を1万倍に減らし、計算ハードウェアの要求をフル微調整の3倍に削減できる。
論文 参考訳(メタデータ) (2021-06-17T17:37:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。