論文の概要: ALTO: Adaptive LoRA Tuning and Orchestration for Heterogeneous LoRA Training Workloads
- arxiv url: http://arxiv.org/abs/2604.05426v2
- Date: Fri, 10 Apr 2026 07:32:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 13:51:27.650802
- Title: ALTO: Adaptive LoRA Tuning and Orchestration for Heterogeneous LoRA Training Workloads
- Title(参考訳): ALTO:不均一なLoRAトレーニングワークロードに対する適応的なLoRAチューニングとオーケストレーション
- Authors: Jingwei Zuo, Xinze Feng, Zien Liu, Kaijian Wang, Fanjiang Ye, Ye Cao, Zhuang Wang, Yuke Wang,
- Abstract要約: Low-Rank Adaptation (LoRA) は、現在、大規模言語モデルのパラメータ効率の高い微調整において支配的な手法である。
LoRAのパフォーマンスは構成の選択に非常に敏感であり、同時に多くのLoRAジョブが実行される。
効率的なクラスタ共有を実現しつつ,LoRAハイパーパラメータチューニングを高速化する,共同設計のトレーニングシステムであるALTOを提案する。
- 参考スコア(独自算出の注目度): 9.260490240412308
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Low-Rank Adaptation (LoRA) is now the dominant method for parameter-efficient fine-tuning of large language models, but achieving a high-quality adapter often requires systematic hyperparameter tuning because LoRA performance is highly sensitive to configuration choices. In practice, this leads to many concurrent LoRA jobs, often spanning heterogeneous tasks in multi-tenant environments. Existing systems largely handle these jobs independently, which both wastes computation on weak candidates and leaves GPUs underutilized. We present ALTO (Adaptive LoRA Tuning and Orchestration), a co-designed training system that accelerates LoRA hyperparameter tuning while enabling efficient cluster sharing across heterogeneous tasks. The central insight behind ALTO is that when multiple tuning jobs run concurrently over a shared frozen backbone, they expose optimization opportunities that single-job designs cannot exploit. Building on this, ALTO monitors loss trajectories to terminate unpromising configurations early, uses fused grouped GEMM together with a new rank-local adapter parallelism to co-locate surviving adapters and reclaim freed GPU capacity, and combines intra-task and inter-task scheduling to improve multi-task placement by leveraging the predictable duration of LoRA jobs. Extensive evaluation shows that ALTO achieves up to $13.8\times$ speedup over state-of-the-art without sacrificing adapter quality.
- Abstract(参考訳): Low-Rank Adaptation (LoRA) は現在、パラメータ効率の高い大規模言語モデルの微調整の主流となっているが、LoRAの性能は構成選択に非常に敏感であるため、高品質なアダプタを実現するには、しばしば体系的なハイパーパラメータチューニングが必要となる。
実際には、複数のマルチテナント環境での不均一なタスクにまたがる、並行的なLoRAジョブが多数存在する。
既存のシステムは、主にこれらのジョブを独立に処理し、弱い候補に対する計算を無駄にし、GPUを未使用にしておく。
異種タスク間の効率的なクラスタ共有を実現しつつ,LoRAハイパーパラメータチューニングを高速化する,共同設計のトレーニングシステムであるALTO(Adaptive LoRA Tuning and Orchestration)を提案する。
ALTOの背後にある中心的な洞察は、複数のチューニングジョブが共有されたフリーズバックボーン上で並列に実行されると、単一のジョブ設計では利用できない最適化の機会が露呈するということである。
これに基づいてALTOは、損失軌跡を監視して、未処理のコンフィギュレーションを早期に終了させ、融合されたGEMMと新しいランクローカルアダプタ並列性を使って、生き残ったアダプタを共同配置し、解放されたGPU容量を再利用し、タスク内とタスク間スケジューリングを組み合わせて、LoRAジョブの予測可能な時間を活用することで、マルチタスク配置を改善する。
広範囲な評価によると、ALTOはアダプタの品質を犠牲にすることなく、最先端技術よりも最大13.8\times$のスピードアップを実現している。
関連論文リスト
- tLoRA: Efficient Multi-LoRA Training with Elastic Shared Super-Models [8.42285475305854]
tLoRAは、複数のLoRAジョブの効率的なバッチトレーニングを可能にするフレームワークである。
実世界のクラスタトレースを用いた評価では、tLoRAはトレーニングを1.2-1.8x改善し、ジョブトレーニング完了時間を2.3--5.4x改善し、GPU利用率を37%改善している。
論文 参考訳(メタデータ) (2026-02-06T23:26:02Z) - Disentangling Task Conflicts in Multi-Task LoRA via Orthogonal Gradient Projection [4.664605519215656]
Low-Rank Adaptation (LoRA)と組み合わせたマルチタスク学習(MTL)が,大規模言語モデル(LLM)のパラメータ効率向上のための有望な方向として登場した。
複数のタスクにまたがる単一のアダプタを共有することで、ストレージオーバーヘッドを大幅に削減できる。
このアプローチは、個別タスクからの差分更新がシングルタスクの微調整と比較して個々のタスクのパフォーマンスを低下させるという、負の転送に悩まされる。
そこで我々は,LoRAの2部構造に適した勾配投影法であるOrtho-LoRAを提案する。
論文 参考訳(メタデータ) (2026-01-14T18:36:22Z) - Serving Heterogeneous LoRA Adapters in Distributed LLM Inference Systems [11.584593298674688]
Low-Rank Adaptation (LoRA)は,大規模言語モデル(LLM)のパラメータ効率向上のためのデファクト手法となった。
プロダクションでは、LoRAベースのモデルが大規模に提供され、数百のアダプタがベースモデルを共有するマルチテナント環境を生成する。
作業負荷を考慮した動的アダプタ配置とルーティングフレームワークであるLoRAServeについて述べる。
論文 参考訳(メタデータ) (2025-11-28T05:04:02Z) - ThanoRA: Task Heterogeneity-Aware Multi-Task Low-Rank Adaptation [96.86211867758652]
Low-Rank Adaptation (LoRA) は、基礎モデルの下流の微調整に広く採用されている。
タスク不均一性を考慮したマルチタスク低ランク適応フレームワークであるTanoRAを提案する。
論文 参考訳(メタデータ) (2025-05-24T11:01:45Z) - In-Context Meta LoRA Generation [61.690065588534296]
Low-rank Adaptation (LoRA) はタスク固有の微調整機能を示す。
In-Context Meta LoRA (ICM-LoRA) は,大規模言語モデルのタスク固有のカスタマイズを効率的に行う新しい手法である。
ICM-LoRAは、現在のパラメータ再構成法よりも正確なLoRAパラメータ再構成を可能にする。
論文 参考訳(メタデータ) (2025-01-29T13:12:01Z) - Replay-Free Continual Low-Rank Adaptation with Dynamic Memory [62.85596937435928]
我々は、事前学習された視覚変換器(ViT)が、時間とともに新しい下流タスクを逐次微調整できる連続学習を再考する。
近年の研究では、CL技術とパラメータ効率の良い微調整の交差が強調されている。
DualLoRA (Dual Low-Rank Adaptation) と呼ばれる新しいPEFT-CL法を提案する。
論文 参考訳(メタデータ) (2024-11-01T14:28:39Z) - MALoRA: Mixture of Asymmetric Low-Rank Adaptation for Enhanced Multi-Task Learning [29.957620178740186]
マルチタスクのシナリオでは、トレーニングの不均衡やシーソー効果といった課題が頻繁に現れます。
フレキシブルな微調整フレームワークとして非対称低ランク適応(MALoRA)の混合を提案する。
MALoRAはトレーニング可能なパラメータの数を30%から48%削減し、トレーニング速度を1.2倍にし、シングルタスクのLoRAモデルの計算効率に匹敵する。
論文 参考訳(メタデータ) (2024-10-30T07:53:52Z) - Retrieval-Augmented Mixture of LoRA Experts for Uploadable Machine Learning [57.36978335727009]
Low-Rank Adaptation (LoRA)は、大規模言語モデル(LLM)を微調整する効率的な方法を提供する。
本稿では,入力プロンプトに基づいて複数のLoRAを適応的に検索・構成するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-24T05:24:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。