Fugu-MT 論文翻訳(概要): ASPEN: High-Throughput LoRA Fine-Tuning of Large Language Models with a Single GPU

論文の概要: ASPEN: High-Throughput LoRA Fine-Tuning of Large Language Models with a Single GPU

arxiv url: http://arxiv.org/abs/2312.02515v1
Date: Tue, 5 Dec 2023 05:38:38 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-06 16:38:51.802521
Title: ASPEN: High-Throughput LoRA Fine-Tuning of Large Language Models with a Single GPU
Title（参考訳）: ASPEN: 単一GPUを用いた大規模言語モデルの高速LoRAファインチューニング
Authors: Zhengmao Ye and Dengchun Li and Jingqi Tian and Tingfeng Lan and Jie Zuo and Lei Duan and Hui Lu and Yexi Jiang and Jian Sha and Ke Zhang and Mingjie Tang
Abstract要約: 本稿では,変圧器をベースとした大規模言語モデル(LLM)を微調整するフレームワークであるASPENを紹介する。 ASPENは、LoRAメソッドを使用して、1つのGPU上で複数のジョブを効率的にトレーニングし、共有事前学習モデルと適応スケジューリングを活用する。実験によると、NVIDIA A100 80GB GPU上で複数のLLaMA-7Bモデルをトレーニングする場合、ASPENはGPUメモリの53%を節約している。
参考スコア（独自算出の注目度）: 4.198627205271621
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Transformer-based large language models (LLMs) have demonstrated outstanding performance across diverse domains, particularly when fine-turned for specific domains. Recent studies suggest that the resources required for fine-tuning LLMs can be economized through parameter-efficient methods such as Low-Rank Adaptation (LoRA). While LoRA effectively reduces computational burdens and resource demands, it currently supports only a single-job fine-tuning setup. In this paper, we present ASPEN, a high-throughput framework for fine-tuning LLMs. ASPEN efficiently trains multiple jobs on a single GPU using the LoRA method, leveraging shared pre-trained model and adaptive scheduling. ASPEN is compatible with transformer-based language models like LLaMA and ChatGLM, etc. Experiments show that ASPEN saves 53% of GPU memory when training multiple LLaMA-7B models on NVIDIA A100 80GB GPU and boosts training throughput by about 17% compared to existing methods when training with various pre-trained models on different GPUs. The adaptive scheduling algorithm reduces turnaround time by 24%, end-to-end training latency by 12%, prioritizing jobs and preventing out-of-memory issues.
Abstract（参考訳）: トランスフォーマティブベースの大規模言語モデル(llm)は、特に特定のドメインに対して微調整された場合に、さまざまなドメインにまたがる優れた性能を示している。近年の研究では、Low-Rank Adaptation (LoRA) のようなパラメータ効率の高い手法により、微調整 LLM に必要な資源をエコノマイズすることができることが示唆されている。 LoRAは計算負荷とリソース要求を効果的に削減するが、現在は単一ジョブの微調整のみをサポートしている。本稿では,微調整LDMのための高スループットフレームワークであるASPENについて述べる。 ASPENは、LoRAメソッドを使用して、1つのGPU上で複数のジョブを効率的にトレーニングし、共有事前学習モデルと適応スケジューリングを活用する。 ASPENはLLaMAやChatGLMといったトランスフォーマーベースの言語モデルと互換性がある。実験によると、複数のllama-7bモデルをnvidia a100 80gb gpuでトレーニングする場合、aspenはgpuメモリの53%を節約し、トレーニングスループットを既存の方法に比べて約17%向上させる。適応スケジューリングアルゴリズムは、ターンアラウンド時間を24%削減し、エンドツーエンドのトレーニング遅延を12%削減し、ジョブを優先順位付けし、メモリ外問題を防止する。

関連論文リスト

LoRA Fine-Tuning Without GPUs: A CPU-Efficient Meta-Generation Framework for LLMs [8.397730500554047]
Low-Rank Adapters (LoRA) は、パラメータ効率の更新を可能にすることで、Large Language Models (LLM) の微調整を変革した。本稿では,限られた計算資源を持つユーザを対象としたLoRAファインタニング手法を提案する。
論文参考訳（メタデータ） (2025-07-02T15:24:47Z)
Drag-and-Drop LLMs: Zero-Shot Prompt-to-Weights [75.83625828306839]
textbfDrag-and-Drop LLMs (textitDnD)は、未ラベルのタスクプロンプトをLoRAの重み更新に直接マッピングすることで、タスク単位のトレーニングを廃止する。ライトウェイトテキストエンコーダは、各プロンプトバッチを条件埋め込みに蒸留し、カスケードされた超畳み込みデコーダによって全LORA行列に変換する。
論文参考訳（メタデータ） (2025-06-19T15:38:21Z)
Dynamic Low-Rank Sparse Adaptation for Large Language Models [54.1231638555233]
Low-rank Sparse Adaptation (LoSA)は、低ランク適応をsparse LLM sparsityにシームレスに統合する新しい手法である。 LoSAは、微調整中に対応するスパース重みに基づいてLoRA結果を動的に分散する。 LoSAは、追加の推論負荷を伴わずに、スパースLSMの有効性を数時間で効果的に向上させることができる。
論文参考訳（メタデータ） (2025-02-20T18:37:32Z)
Retrieval-Augmented Mixture of LoRA Experts for Uploadable Machine Learning [57.36978335727009]
Low-Rank Adaptation (LoRA)は、大規模言語モデル(LLM)を微調整する効率的な方法を提供する。本稿では,入力プロンプトに基づいて複数のLoRAを適応的に検索・構成するフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-24T05:24:41Z)
LoRA Land: 310 Fine-tuned LLMs that Rival GPT-4, A Technical Report [3.304521604464247]
ローランク適応(ローランク適応、LoRA)は、最も広く採用されている手法の一つである。大規模言語モデル(LLM)の効率的な微細チューニング(PEFT) 本研究の目的は,LoRAで微調整されたLLMを実世界の応用に適用し,学習の可能性を評価することである。
論文参考訳（メタデータ） (2024-04-29T04:01:45Z)
MixLoRA: Enhancing Large Language Models Fine-Tuning with LoRA-based Mixture of Experts [3.6301530893494127]
MixLoRAは、リソース効率の良いスパースMoEモデルを構築するためのアプローチである。評価の結果,MixLoRAはマルチタスク学習シナリオにおける最先端PEFT法と比較して約9%精度が向上していることがわかった。
論文参考訳（メタデータ） (2024-04-22T02:15:52Z)
Run LoRA Run: Faster and Lighter LoRA Implementations [50.347242693025336]
LoRAは、線形層に低ランクアダプタを導入することにより、ニューラルネットワーク内のトレーニング可能なパラメータの数を減らすテクニックである。本稿では,LoRAの効率的な実装のためのRunLoRAフレームワークを提案する。実験は、言語モデリングネットワーク上で最大28%のスピードアップを示す。
論文参考訳（メタデータ） (2023-12-06T10:54:34Z)
MultiLoRA: Democratizing LoRA for Better Multi-Task Learning [20.750808913757396]
LoRAは、特定のタスクにLLMを適用する際に、顕著なリソース効率と同等のパフォーマンスを達成する。 LoRAは少数のトップ特異ベクトルに支配され、微調整はより重要でないユニタリ変換の集合に分解される。我々は,LoRAで観測されるトップ特異ベクトルの優位性を低減し,マルチタスク適応性を向上するMultiLoRAを提案する。
論文参考訳（メタデータ） (2023-11-20T02:59:18Z)
S-LoRA: Serving Thousands of Concurrent LoRA Adapters [59.490751234925206]
パラメータ効率のよい微調整法であるLoRA(Lo-Rank Adaptation)は、ベースモデルを複数のタスクに適応させるためによく用いられる。本稿では,多数のLoRAアダプタのスケーラブルな提供を目的としたシステムであるS-LoRAを提案する。
論文参考訳（メタデータ） (2023-11-06T17:26:17Z)
NOLA: Compressing LoRA using Linear Combination of Random Basis [22.76088132446952]
我々は、ロラに存在するランク1の下界を克服するNOLAを導入する。 NOLAは、ランク1のLoRAと比較してパラメータ数がはるかに少ないLoRAモデルと同様に、最高の圧縮LoRAをアーカイブできる。
論文参考訳（メタデータ） (2023-10-04T03:30:24Z)
FusionAI: Decentralized Training and Deploying LLMs with Massive Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文参考訳（メタデータ） (2023-09-03T13:27:56Z)
CA-LoRA: Adapting Existing LoRA for Compressed LLMs to Enable Efficient Multi-Tasking on Personal Devices [78.16679232748196]
本稿では,Large Language Models (LLM) を他のタスクに転送するための圧縮対応 LoRA (CA-LoRA) フレームワークを提案する。実験の結果,CA-LoRAは圧縮LDMに適用したバニラロラ法よりも優れていた。 CA-LoRAのソースコードはhttps://github.com/thunlp/CA-LoRAで公開されている。
論文参考訳（メタデータ） (2023-07-15T04:37:11Z)
LoRA: Low-Rank Adaptation of Large Language Models [71.75808607987281]
Low-Rank Adaptation (LoRA)はトレーニング済みモデルの重みを凍結し、トレーニング可能な階数分解をTransformerアーキテクチャの各層に注入する。 GPT-3では、LoRAはトレーニング可能なパラメータの数を1万倍に減らし、計算ハードウェアの要求をフル微調整の3倍に削減できる。
論文参考訳（メタデータ） (2021-06-17T17:37:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。