論文の概要: LeMix: Unified Scheduling for LLM Training and Inference on Multi-GPU Systems
- arxiv url: http://arxiv.org/abs/2507.21276v1
- Date: Mon, 28 Jul 2025 19:03:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:55.25012
- Title: LeMix: Unified Scheduling for LLM Training and Inference on Multi-GPU Systems
- Title(参考訳): LeMix:マルチGPUシステムにおけるLLMトレーニングと推論のための統一スケジューリング
- Authors: Yufei Li, Zexin Li, Yinglun Zhu, Cong Liu,
- Abstract要約: 本稿では,並列大規模言語モデル(LLM)の運用と訓練を共同で行うシステムであるLeMixを提案する。
LeMixはオフラインプロファイリング、実行予測機構、実行時スケジューリングを統合し、リソース割り当てを動的に適応させる。
評価の結果、LeMixはスループットを最大3.53倍改善し、推論損失を最大0.61倍削減し、応答時間SLOの最大2.12倍向上した。
- 参考スコア(独自算出の注目度): 20.108099254767613
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Modern deployment of large language models (LLMs) frequently involves both inference serving and continuous retraining to stay aligned with evolving data and user feedback. Common practices separate these workloads onto distinct servers in isolated phases, causing substantial inefficiencies (e.g., GPU idleness) and delayed adaptation to new data in distributed settings. Our empirical analysis reveals that these inefficiencies stem from dynamic request arrivals during serving and workload heterogeneity in pipeline-parallel training. To address these challenges, we propose LeMix, a system for co-locating and managing concurrent LLM serving and training workloads. LeMix integrates offline profiling, execution prediction mechanisms, and runtime scheduling to dynamically adapt resource allocation based on workload characteristics and system conditions. By understanding task-specific behaviors and co-execution interference across shared nodes, LeMix improves utilization and serving quality without compromising serving responsiveness. Our evaluation shows that LeMix improves throughput by up to 3.53x, reduces inference loss by up to 0.61x, and delivers up to 2.12x higher response time SLO attainment over traditional separate setups. To our knowledge, this is the first work to uncover and exploit the opportunities of joint LLM inference and training, paving the way for more resource-efficient deployment of LLMs in production environments.
- Abstract(参考訳): 大規模言語モデル(LLM)の現代的なデプロイは、進化するデータとユーザのフィードバックに一致させるために、推論サービスと継続的リトレーニングの両方を頻繁に含んでいる。
一般的なプラクティスでは、これらのワークロードを独立したフェーズで別々のサーバに分離することで、相当な非効率(GPUのアイドルネスなど)と、分散環境での新たなデータへの遅延が生じる。
これらの非効率性は、パイプライン並列トレーニングにおけるサービスとワークロードの不均一性の間の動的要求到着に起因する。
これらの課題に対処するために、並列LLMサービスとトレーニングワークロードの同時配置と管理を行うシステムであるLeMixを提案する。
LeMixはオフラインプロファイリング、実行予測機構、実行時スケジューリングを統合し、ワークロード特性とシステム条件に基づいてリソース割り当てを動的に適応させる。
タスク固有の振る舞いと共有ノード間の共実行干渉を理解することで、応答性を損なうことなく、利用とサービス品質を改善します。
評価の結果、LeMixはスループットを最大3.53倍改善し、推論損失を最大0.61倍削減し、従来の別々のセットアップよりも2.12倍高い応答時間SLOを実現する。
我々の知る限り、これは共同LLM推論とトレーニングの機会を発見し、活用する最初の取り組みであり、実運用環境におけるLLMのよりリソース効率の良い展開の道を開くものです。
関連論文リスト
- ElasticMM: Efficient Multimodal LLMs Serving with Elastic Multimodal Parallelism [9.93378263858092]
マルチモーダル大言語モデル(MLLM)は、特徴抽出器とプロジェクションモジュールを組み込むことで、画像、ビデオ、オーディオを扱う。
現在の密結合のサービスアーキテクチャは、混合要求タイプを区別するのに苦労しています。
資源の不均一性に弾力的に適応する新しいサービスパラダイムであるElastic Multimodal Parallelism (EMP)を提案する。
論文 参考訳(メタデータ) (2025-07-14T08:53:48Z) - PC-MoE: Memory-Efficient and Privacy-Preserving Collaborative Training for Mixture-of-Experts LLMs [56.04036826558497]
プライバシー保護型コラボレーション・オブ・エクササイズ(PC-MoE)を紹介する。
設計上、PC-MoEは分散計算の強みと強い機密性の保証を相乗的に組み合わせている。
完全に集中したモデルのパフォーマンスと収束率とほぼ一致(時には超える)し、70%近いピークのGPURAMの削減を享受し、再構築攻撃に対して完全に堅牢である。
論文 参考訳(メタデータ) (2025-06-03T15:00:18Z) - StreamRL: Scalable, Heterogeneous, and Elastic RL for LLMs with Disaggregated Stream Generation [55.75008325187133]
強化学習(RL)は,大規模言語モデル(LLM)の学習後のコアとなる。
StreamRLは、最初の原則から分離して、2種類のパフォーマンスボトルネックに対処するように設計されている。
実験により、StreamRLは既存の最先端システムと比較してスループットを最大2.66倍改善することが示された。
論文 参考訳(メタデータ) (2025-04-22T14:19:06Z) - LLM-Based Offline Learning for Embodied Agents via Consistency-Guided Reward Ensemble [4.41983632543407]
エージェント学習のための一貫性誘導型報酬アンサンブルフレームワーク(CoREN)を提案する。
このフレームワークは、トレーニングデータセットにおけるドメイン基底の報酬を導出するために、時間的に一貫した報酬の適応的なアンサンブルを使用する。
論文 参考訳(メタデータ) (2024-11-26T06:04:10Z) - Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - A Little Help Goes a Long Way: Efficient LLM Training by Leveraging Small LMs [74.35290684163718]
大規模言語モデル(LLM)開発における最大の課題は、その面倒な事前トレーニングコストである。
本稿では,小言語モデル(SLM)を活用して,LLMの事前学習効率と品質を改善するための有望なパラダイムについて検討する。
論文 参考訳(メタデータ) (2024-10-24T14:31:52Z) - Efficient Continual Pre-training by Mitigating the Stability Gap [68.49269649759005]
本研究では,Large Language Models (LLM) の継続事前学習における挙動について検討する。
固定された計算予算内でのLLM性能を向上させるための3つの効果的な戦略を提案する。
当社の戦略は,OpenLlama-3Bモデルの平均医療タスク性能を36.2%から40.7%に改善し,当初のトレーニング予算の40%に過ぎなかった。
論文 参考訳(メタデータ) (2024-06-21T02:28:37Z) - One QuantLLM for ALL: Fine-tuning Quantized LLMs Once for Efficient Deployments [43.107261545706415]
大規模言語モデル(LLM)は急速に進歩しているが、かなりのメモリ需要に直面している。
現在の方法では、量子化損失によるパフォーマンス劣化を軽減するために、通常、長いトレーニングが必要です。
我々は、一度限りのフレームワークを大規模言語モデルに拡張する最初の試みを行っている。
論文 参考訳(メタデータ) (2024-05-30T16:05:15Z) - Efficient Interactive LLM Serving with Proxy Model-based Sequence Length Prediction [8.705908108054878]
大型モデル(LLM)は、多くのドメインにわたるAIアプリケーションの新しい波を駆動している。
LLM出力シーケンス長の予測に光プロキシモデルを用いる投機的ショートストジョブファースト(SSJF)スケジューラを提案する。
論文 参考訳(メタデータ) (2024-04-12T14:46:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。