論文の概要: tLoRA: Efficient Multi-LoRA Training with Elastic Shared Super-Models
- arxiv url: http://arxiv.org/abs/2602.07263v1
- Date: Fri, 06 Feb 2026 23:26:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.536548
- Title: tLoRA: Efficient Multi-LoRA Training with Elastic Shared Super-Models
- Title(参考訳): tLoRA: 弾性共有スーパーモデルによる効率的なマルチロラトレーニング
- Authors: Kevin Li, Dibyadeep Saha, Avni Kanodia, Fan Lai,
- Abstract要約: tLoRAは、複数のLoRAジョブの効率的なバッチトレーニングを可能にするフレームワークである。
実世界のクラスタトレースを用いた評価では、tLoRAはトレーニングを1.2-1.8x改善し、ジョブトレーニング完了時間を2.3--5.4x改善し、GPU利用率を37%改善している。
- 参考スコア(独自算出の注目度): 8.42285475305854
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Low-Rank Adaptation (LoRA) becomes the standard approach for efficiently fine-tuning large language models (LLMs), shared clusters increasingly execute many concurrent LoRA training jobs over the same frozen backbone. While recent advances enable batching (co-locating) multiple adapters during serving, efficient training-time co-location of heterogeneous LoRA adapters presents unique challenges. Jobs often differ in adapter rank, batch size, and resource allocation, and naïve batching can introduce synchronization stalls, communication overheads, and per-job slowdowns that are worse than executing independently. We introduce tLoRA, a framework that enables efficient batch training of multiple LoRA jobs. tLoRA fuses adapters that share the same base model into an elastic shared super-model, exploiting existing distributed training frameworks to derive parallelism plans that share resources effectively. At the kernel level, tLoRA employs a fused LoRA kernel that adaptively reconstructs low-rank computation tiles and schedules rank-aware nano-batches to maximize overlap between computation and communication across adapters. At the scheduling layer, tLoRA incorporates an online, residual-capacity-aware scheduler that adaptively groups jobs to maximize collective throughput. Evaluations using real-world cluster traces demonstrate that tLoRA improves training throughput by 1.2--1.8x, job training completion time by 2.3--5.4x, and GPU utilization by 37%.
- Abstract(参考訳): Low-Rank Adaptation (LoRA) が大規模言語モデル (LLM) を効率よく微調整する標準的なアプローチになるにつれて、共有クラスタは、同じ冷凍バックボーン上で多くの同時LoRAトレーニングジョブを実行するようになっている。
近年の進歩により、サービス中の複数のアダプタのバッチ化(コロケーション)が可能になったが、ヘテロジニアスなLoRAアダプタの効率的なトレーニングタイムのコロケーションは、ユニークな課題を呈している。
ジョブはアダプタのランク、バッチサイズ、リソース割り当てが異なることが多く、ネーブバッチは独立して実行するよりも悪い同期ストール、通信オーバーヘッド、ジョブごとのスローダウンを導入することができる。
複数のLoRAジョブの効率的なバッチトレーニングを可能にするフレームワークであるtLoRAを紹介する。
tLoRAは、同じベースモデルを共有するアダプタをエラスティックな共有スーパーモデルに融合し、既存の分散トレーニングフレームワークを活用して、リソースを効果的に共有する並列性プランを導出する。
カーネルレベルでは、tLoRAカーネルは低ランクの計算タイルを適応的に再構築し、ランク対応のナノバッチをスケジュールし、計算とアダプタ間の通信の重複を最大化する。
スケジューリング層では、tLoRAはオンラインの残容量対応スケジューラを組み込んで、ジョブを適応的にグループ化し、全体的なスループットを最大化する。
実世界のクラスタトレースを用いた評価では、tLoRAはトレーニングスループットを1.2-1.8x改善し、ジョブトレーニング完了時間を2.3--5.4x改善し、GPU利用率を37%向上している。
関連論文リスト
- RollArt: Scaling Agentic RL Training via Disaggregated Infrastructure [49.88201789074532]
エージェント強化学習(RL)は、大規模言語モデル(LLM)が自律的な意思決定と長期計画を行うことを可能にする。
分散インフラストラクチャ上でマルチタスクエージェントRLのスループットを最大化する分散システムであるRollArcを提案する。
論文 参考訳(メタデータ) (2025-12-27T11:14:23Z) - Serving Heterogeneous LoRA Adapters in Distributed LLM Inference Systems [11.584593298674688]
Low-Rank Adaptation (LoRA)は,大規模言語モデル(LLM)のパラメータ効率向上のためのデファクト手法となった。
プロダクションでは、LoRAベースのモデルが大規模に提供され、数百のアダプタがベースモデルを共有するマルチテナント環境を生成する。
作業負荷を考慮した動的アダプタ配置とルーティングフレームワークであるLoRAServeについて述べる。
論文 参考訳(メタデータ) (2025-11-28T05:04:02Z) - LoRA on the Go: Instance-level Dynamic LoRA Selection and Merging [9.68092924064735]
Low-Rank Adaptation (LoRA) は、大規模言語モデルを微調整するためのパラメータ効率の高いアプローチとして登場した。
LoGoはトレーニング不要のフレームワークで、追加の要件なしにインスタンスレベルでアダプタを動的に選択し、マージする。
LoGoはトレーニングベースのベースラインを3.6%まで上回り、他のタスクでは競争力を維持している。
論文 参考訳(メタデータ) (2025-11-10T14:13:10Z) - Each Rank Could be an Expert: Single-Ranked Mixture of Experts LoRA for Multi-Task Learning [53.053604713064544]
Low-Rank Adaptation (LoRA)は、その効率性とモジュール性から、大きな言語モデル(LLM)を特定のドメインに適用するために広く使われている。
最近の研究は、各LoRAモジュールを専門家として扱い、複数の特殊なLoRAモジュールによるタスク干渉を軽減することで、Mixture of Experts (MoE)を採用している。
効果はあるものの、これらの手法は個々のタスク内の知識を分離することが多く、関連するタスク間で共有された知識を完全に活用することができない。
各ランクをテキスト処理することでMoEをLoRAに埋め込むシングルランク専門家LoRA(textbfSMoRA)を提案する。
論文 参考訳(メタデータ) (2025-01-25T06:56:39Z) - MALoRA: Mixture of Asymmetric Low-Rank Adaptation for Enhanced Multi-Task Learning [29.957620178740186]
マルチタスクのシナリオでは、トレーニングの不均衡やシーソー効果といった課題が頻繁に現れます。
フレキシブルな微調整フレームワークとして非対称低ランク適応(MALoRA)の混合を提案する。
MALoRAはトレーニング可能なパラメータの数を30%から48%削減し、トレーニング速度を1.2倍にし、シングルタスクのLoRAモデルの計算効率に匹敵する。
論文 参考訳(メタデータ) (2024-10-30T07:53:52Z) - Retrieval-Augmented Mixture of LoRA Experts for Uploadable Machine Learning [57.36978335727009]
Low-Rank Adaptation (LoRA)は、大規模言語モデル(LLM)を微調整する効率的な方法を提供する。
本稿では,入力プロンプトに基づいて複数のLoRAを適応的に検索・構成するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-24T05:24:41Z) - LoraRetriever: Input-Aware LoRA Retrieval and Composition for Mixed
Tasks in the Wild [76.67343971195267]
Low-Rank Adaptation (LoRA)は、大規模言語モデル(LLM)を微調整するための効率的なソリューションを提供する。
LoraRetrieverは、入力プロンプトに従って複数のLoRAを適応的に検索して構成する検索テーマ構成フレームワークである。
実験結果から、LoraRetrieverは一貫してベースラインを上回っていることが示唆された。
論文 参考訳(メタデータ) (2024-02-15T15:02:46Z) - mLoRA: Fine-Tuning LoRA Adapters via Highly-Efficient Pipeline Parallelism in Multiple GPUs [5.735411578779657]
Low-Rank Adaptation (LoRA) はパラメータ効率のよい微調整法で、ベースLSMを複数の下流タスクに適応させるのに使われる。
LoRAプラットフォームにより、開発者は複数のモデルを微調整し、さまざまなドメイン固有のアプリケーションを同時に開発できる。
既存のモデル並列化スキームは、複数のLoRAタスクをトレーニングする際に、高い通信オーバーヘッドと非効率なGPU利用に悩まされる。
論文 参考訳(メタデータ) (2023-12-05T05:38:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。