論文の概要: MinT: Managed Infrastructure for Training and Serving Millions of LLMs
- arxiv url: http://arxiv.org/abs/2605.13779v1
- Date: Wed, 13 May 2026 16:59:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:28.194847
- Title: MinT: Managed Infrastructure for Training and Serving Millions of LLMs
- Title(参考訳): MinT: 数百万のLLMのトレーニングと実行のための管理インフラストラクチャ
- Authors: Mind Lab, :, Song Cao, Vic Cao, Andrew Chen, Kaijie Chen, Cleon Cheng, Steven Chiang, Kaixuan Fan, Hera Feng, Huan Feng, Arthur Fu, Jun Gao, Hongquan Gu, Aaron Guan, Nolan Ho, Mutian Hong, Hailee Hou, Peixuan Hua, Charles Huang, Miles Jiang, Nora Jiang, Yuyi Jiang, Qiuyu Jin, Fancy Kong, Andrew Lei, Kyrie Lei, Alexy Li, Lucian Li, Ray Li, Theo Li, Zhihui Li, Jiayi Lin, Kairus Liu, Kieran Liu, Logan Liu, Xiang Liu, Irvine Lu, Maeve Luo, Runze Lv, Pony Ma, Verity Niu, Anson Qiu, Vincent Wang, Rio Yang, Maxwell Yao, Carrie Ye, Regis Ye, Wenlin Ye, Josh Ying, Danney Zeng, Yuhan Zhan, Anya Zhang, Di Zhang, Ruijia Zhang, Sueky Zhang, Ya Zhang, Wei Zhao, Ada Zhou, Changhai Zhou, Yuhua Zhou, Xinyue Zhu, Murphy Zhuang,
- Abstract要約: MindLab Toolkit(MinT)は、ローランド適応(LoRA)ポストトレーニングとオンラインサービスのためのマネージドインフラストラクチャシステムである。
MinTは、少数の高価なベースモデルデプロイメントに対して、多くのトレーニング済みポリシーが生成される設定をターゲットにしている。
- 参考スコア(独自算出の注目度): 18.78941243766295
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present MindLab Toolkit (MinT), a managed infrastructure system for Low-Rank Adaptation (LoRA) post-training and online serving. MinT targets a setting where many trained policies are produced over a small number of expensive base-model deployments. Instead of materializing each policy as a merged full checkpoint, MinT keeps the base model resident and moves exported LoRA adapter revisions through rollout, update, export, evaluation, serving, and rollback, hiding distributed training, serving, scheduling, and data movement behind a service interface. MinT scales this path along three axes. Scale Up extends LoRA RL to frontier-scale dense and MoE architectures, including MLA and DSA attention paths, with training and serving validated beyond 1T total parameters. Scale Down moves only the exported LoRA adapter, which can be under 1% of base-model size in rank-1 settings; adapter-only handoff reduces the measured step by 18.3x on a 4B dense model and 2.85x on a 30B MoE, while concurrent multi-policy GRPO shortens wall time by 1.77x and 1.45x without raising peak memory. Scale Out separates durable policy addressability from CPU/GPU working sets: a tensor-parallel deployment supports 10^6-scale addressable catalogs (measured single-engine sweeps through 100K) and thousand-adapter active waves at cluster scale, with cold loading treated as scheduled service work and packed MoE LoRA tensors improving live engine loading by 8.5-8.7x. MinT thus manages million-scale LoRA policy catalogs while training and serving selected adapter revisions over shared 1T-class base models.
- Abstract(参考訳): 我々は、低ランク適応(LoRA)ポストトレーニングとオンラインサービスのための管理インフラであるMintLab Toolkit(MinT)を紹介する。
MinTは、少数の高価なベースモデルデプロイメントに対して、多くのトレーニング済みポリシーが生成される設定をターゲットにしている。
それぞれのポリシーを統合された完全なチェックポイントとして実現するのではなく、MinTはベースモデルを常駐させ、ロールアウト、更新、エクスポート、評価、サービス、ロールバック、分散トレーニング、サービス、スケジューリング、そしてサービスインターフェースの背後にあるデータ移動を通じて、輸出されたLoRAアダプタのリビジョンを移動させる。
MinTはこの経路を3つの軸に沿って拡大する。
Scale UpはLoRA RLを、MLAとDSAのアテンションパスを含むフロンティアスケールの高密度およびMoEアーキテクチャに拡張し、トレーニングと1Tの合計パラメータを超えて機能する。
Scale Downは輸出されたLoRAアダプタのみを動かし、これはランク1設定のベースモデルサイズの1%以下で、アダプタのみのハンドオフにより、4Bの高密度モデルでは18.3倍、30BのMoEでは2.85倍、同時にマルチポリティクスのGRPOはピークメモリを上昇させることなく壁時間を1.77倍と1.45倍に短縮する。
テンソルパラレルデプロイメントは10^6スケールのアドレス可能なカタログ(100Kで測定されたシングルエンジンスイープ)と数千アダプタのアクティブウェーブをクラスタスケールでサポートし、コールドローディングはスケジュールされたサービス作業として扱われ、MoE LoRAテンソルは8.5-8.7xのライブエンジンローディングを改善した。
これによりMinTは、100万規模のLoRAポリシーカタログを管理し、共有された1Tクラスのベースモデルに対して、選択されたアダプタリビジョンをトレーニングし提供する。
関連論文リスト
- tLoRA: Efficient Multi-LoRA Training with Elastic Shared Super-Models [8.42285475305854]
tLoRAは、複数のLoRAジョブの効率的なバッチトレーニングを可能にするフレームワークである。
実世界のクラスタトレースを用いた評価では、tLoRAはトレーニングを1.2-1.8x改善し、ジョブトレーニング完了時間を2.3--5.4x改善し、GPU利用率を37%改善している。
論文 参考訳(メタデータ) (2026-02-06T23:26:02Z) - Serving Heterogeneous LoRA Adapters in Distributed LLM Inference Systems [11.584593298674688]
Low-Rank Adaptation (LoRA)は,大規模言語モデル(LLM)のパラメータ効率向上のためのデファクト手法となった。
プロダクションでは、LoRAベースのモデルが大規模に提供され、数百のアダプタがベースモデルを共有するマルチテナント環境を生成する。
作業負荷を考慮した動的アダプタ配置とルーティングフレームワークであるLoRAServeについて述べる。
論文 参考訳(メタデータ) (2025-11-28T05:04:02Z) - GPT Carry-On: Training Foundation Model for Customization Could Be Simple, Scalable and Affordable [1.79487674052027]
既存の大規模言語基盤モデル(LLM)の利点をフル活用するためのフレームワークを提案する。
予め訓練されたLLMを最終層に埋め込んだ上で,トランスフォーマーブロックの追加ブランチをトレーニングし,その後,キャリーオンモジュールがベースモデルをマージして,カスタマイズされたLLMを構成する。
ベースモデルはパラメータを更新する必要がないため、推論ノード上でトレーニングジョブのほとんどの計算をアウトソースすることが可能です。
論文 参考訳(メタデータ) (2025-04-10T07:15:40Z) - LoRA Land: 310 Fine-tuned LLMs that Rival GPT-4, A Technical Report [3.304521604464247]
ローランク適応(ローランク適応、LoRA)は、最も広く採用されている手法の一つである。
大規模言語モデル(LLM)の効率的な微細チューニング(PEFT)
本研究の目的は,LoRAで微調整されたLLMを実世界の応用に適用し,学習の可能性を評価することである。
論文 参考訳(メタデータ) (2024-04-29T04:01:45Z) - S-LoRA: Serving Thousands of Concurrent LoRA Adapters [59.490751234925206]
パラメータ効率のよい微調整法であるLoRA(Lo-Rank Adaptation)は、ベースモデルを複数のタスクに適応させるためによく用いられる。
本稿では,多数のLoRAアダプタのスケーラブルな提供を目的としたシステムであるS-LoRAを提案する。
論文 参考訳(メタデータ) (2023-11-06T17:26:17Z) - CA-LoRA: Adapting Existing LoRA for Compressed LLMs to Enable Efficient Multi-Tasking on Personal Devices [78.16679232748196]
本稿では,Large Language Models (LLM) を他のタスクに転送するための圧縮対応 LoRA (CA-LoRA) フレームワークを提案する。
実験の結果,CA-LoRAは圧縮LDMに適用したバニラロラ法よりも優れていた。
CA-LoRAのソースコードはhttps://github.com/thunlp/CA-LoRAで公開されている。
論文 参考訳(メタデータ) (2023-07-15T04:37:11Z) - LoRAPrune: Structured Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning [56.88751562302793]
低ランク適応 (LoRA) が大型言語モデル (LLM) に登場した。
LoRAPruneは、高度にメモリ効率の良い正確な構造化プルーンドモデルを提供する新しいフレームワークである。
LoRAPruneはWikiText2では4.81、TBでは3.46、メモリ使用量は52.6%減少している。
論文 参考訳(メタデータ) (2023-05-28T15:15:48Z) - LoRA: Low-Rank Adaptation of Large Language Models [71.75808607987281]
Low-Rank Adaptation (LoRA)はトレーニング済みモデルの重みを凍結し、トレーニング可能な階数分解をTransformerアーキテクチャの各層に注入する。
GPT-3では、LoRAはトレーニング可能なパラメータの数を1万倍に減らし、計算ハードウェアの要求をフル微調整の3倍に削減できる。
論文 参考訳(メタデータ) (2021-06-17T17:37:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。