論文の概要: Semantic-Aware Scheduling for GPU Clusters with Large Language Models
- arxiv url: http://arxiv.org/abs/2510.03334v1
- Date: Thu, 02 Oct 2025 02:01:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:58.839164
- Title: Semantic-Aware Scheduling for GPU Clusters with Large Language Models
- Title(参考訳): 大規模言語モデルを用いたGPUクラスタのセマンティックアウェアスケジューリング
- Authors: Zerui Wang, Qinghao Hu, Ana Klimovic, Tianwei Zhang, Yonggang Wen, Peng Sun, Dahua Lin,
- Abstract要約: 我々は、スケジューラと管理するジョブ間のセマンティックギャップを橋渡しするフレームワークであるSchedMateを提案する。
SchedMateは見過ごされ、構造化されていないデータソース(ソースコード、ランタイムログ、履歴ジョブ)から深い洞察を抽出する。
我々は、SchedMateが平均ジョブ完了時間を最大1.91倍に短縮し、スケジューリング性能を大幅に向上させることを示す。
- 参考スコア(独自算出の注目度): 60.14838697778884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning (DL) schedulers are pivotal in optimizing resource allocation in GPU clusters, but operate with a critical limitation: they are largely blind to the semantic context of the jobs they manage. This forces them to rely on limited metadata, leading to high profiling overhead, unreliable duration estimation, inadequate failure handling, and poor observability. To this end, we propose SchedMate, a framework that bridges this semantic gap by systematically extracting deep insights from overlooked, unstructured data sources: source code, runtime logs, and historical jobs. SchedMate enhances existing schedulers non-intrusively through three LLM-based components. Our implementation integrates seamlessly with existing deep learning schedulers. Evaluations on a 128-GPU physical cluster and extensive simulations on production traces show SchedMate reduces average job completion times by up to 1.91x, substantially enhancing the scheduling performance, demonstrating the critical role of semantic-awareness in modern DL scheduling.
- Abstract(参考訳): ディープラーニング(DL)スケジューラは、GPUクラスタ内のリソース割り当てを最適化する上で重要であるが、クリティカルな制限で運用する。
これにより、制限されたメタデータに頼らざるを得なくなり、高いプロファイリングオーバーヘッド、信頼性の低い期間推定、不適切な障害処理、可観測性に欠ける。
そこで我々は,この意味的ギャップを埋めるフレームワークであるSchedMateを提案する。ソースコード,実行時ログ,履歴ジョブなど,見過ごされた非構造化データソースからの深い洞察を体系的に抽出する。
SchedMateは既存のスケジューラを3つのLCMベースのコンポーネントを通じて非侵襲的に拡張する。
実装は既存のディープラーニングスケジューラとシームレスに統合される。
128GPUの物理クラスタの評価と生産トレースの広範なシミュレーションにより、SchedMateは平均ジョブ完了時間を最大1.91倍に短縮し、スケジューリング性能を大幅に向上させ、現代のDLスケジューリングにおける意味認識の重要な役割を実証した。
関連論文リスト
- Beyond In-Context Learning: Aligning Long-form Generation of Large Language Models via Task-Inherent Attribute Guidelines [71.14354526117958]
In-context Learning (ICL) は、事前訓練された大規模言語モデル(LLM)の重要かつ完全には理解されていない能力である。
タスク言語とフォーマット特性をキャプチャする2つのガイドラインの並列ストリームを効率よく生成するLongGuideを提案する。
LongGuideはガイドラインの最良の組み合わせを自動的に選択し、ゼロショット設定と少数ショット設定の両方で、強力なオープンソースLLMとクローズドソースLLMの両方を5%以上改善する。
論文 参考訳(メタデータ) (2025-06-02T02:35:24Z) - Resource Heterogeneity-Aware and Utilization-Enhanced Scheduling for Deep Learning Clusters [26.874684454125152]
本稿では,資源利用を促進できる最適化フレームワークに基づくタスクレベルスケジューラHadarを提案する。
Hadarは、最先端のGavelと比較して、総時間の長さを1.20倍に加速する。
HadarEはDLモデルのトレーニングにおいてかなりのスピードアップを示しており、AmazonのAWS(あるいは当社のラボ)クラスタ上での合計期間を50%(または80%)短縮しています。
論文 参考訳(メタデータ) (2025-03-13T22:13:20Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z) - Graph-enhanced Large Language Models in Asynchronous Plan Reasoning [18.402877904882107]
大規模な言語モデル(LLM)は、ベンチマークAsyncHowのタスク解決プロセスに関するイラストが提供されないと、動作が悪くなります。
そこで我々は,グラフと自然言語のプロンプトを組み合わせ,最先端の結果を得るPlan Like a Graph (PLaG) という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-02-05T08:26:33Z) - GPU Cluster Scheduling for Network-Sensitive Deep Learning [19.344426053952464]
本稿では分散DL(DDL)ワークロードのための新しいGPUクラスタスケジューラを提案する。
我々のスケジューラは、(i)ジョブ配置と統合を容易にする古典的な遅延スケジューリングアルゴリズム、(ii)ネットワークに敏感なジョブプリエンプション戦略、(iii)遅延タイマーを効果的に遅延スケジューリングするために最適化する「自動チューニング」メカニズムの3つの主要コンポーネントから構成される。
論文 参考訳(メタデータ) (2024-01-29T19:06:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。