論文の概要: Tesserae: Scalable Placement Policies for Deep Learning Workloads
- arxiv url: http://arxiv.org/abs/2508.04953v1
- Date: Thu, 07 Aug 2025 00:38:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.672522
- Title: Tesserae: Scalable Placement Policies for Deep Learning Workloads
- Title(参考訳): Tesserae: ディープラーニングワークロードのためのスケーラブルな配置ポリシ
- Authors: Song Bian, Saurabh Agarwal, Md. Tareq Mahmood, Shivaram Venkataraman,
- Abstract要約: ディープラーニング(DL)モデルのトレーニングは、データセンタにおいて主要なワークロードになっています。
これを実現するために、スケジューラは通常、クラスタ上にジョブを置く場所を管理する配置ポリシーを取り入れます。
私たちの重要な洞察は、多くの配置制約をグラフマッチング問題として定式化できるということです。
ジョブマイグレーションオーバーヘッドとジョブパッキングを最小化するための新しい配置ポリシーを設計する。
実験の結果,テッセラは既存のスケジューラに比べて平均JCTを最大1.62倍,Makespanを最大1.15倍改善することがわかった。
- 参考スコア(独自算出の注目度): 5.5902096510509915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training deep learning (DL) models has become a dominant workload in data-centers and improving resource utilization is a key goal of DL cluster schedulers. In order to do this, schedulers typically incorporate placement policies that govern where jobs are placed on the cluster. Existing placement policies are either designed as ad-hoc heuristics or incorporated as constraints within a complex optimization problem and thus either suffer from suboptimal performance or poor scalability. Our key insight is that many placement constraints can be formulated as graph matching problems and based on that we design novel placement policies for minimizing job migration overheads and job packing. We integrate these policies into Tesserae and describe how our design leads to a scalable and effective GPU cluster scheduler. Our experimental results show that Tesserae improves average JCT by up to 1.62x and the Makespan by up to 1.15x compared with the existing schedulers.
- Abstract(参考訳): ディープラーニング(DL)モデルのトレーニングは、データセンターにおける主要なワークロードとなり、リソース利用を改善することが、DLクラスタスケジューラの重要な目標です。
これを実現するために、スケジューラは通常、クラスタ上にジョブを置く場所を管理する配置ポリシーを取り入れます。
既存の配置ポリシーはアドホックなヒューリスティックとして設計されるか、複雑な最適化問題に制約として組み込まれているため、最適以下のパフォーマンスやスケーラビリティに悩まされる。
私たちの重要な洞察は、多くの配置制約をグラフマッチング問題として定式化することができ、ジョブのマイグレーションオーバーヘッドとジョブパッキングを最小限に抑える新しい配置ポリシーを設計することに基づいています。
これらのポリシーをTesseraeに統合し、私たちの設計がスケーラブルで効率的なGPUクラスタスケジューラにどのように貢献するかを説明します。
実験の結果,テッセラは既存のスケジューラに比べて平均JCTを最大1.62倍,Makespanを最大1.15倍改善することがわかった。
関連論文リスト
- Attention-Informed Surrogates for Navigating Power-Performance Trade-offs in HPC [0.5219568203653523]
本稿では、この複雑な決定を自動化するために、サロゲート支援多目的ベイズ最適化(MOBO)フレームワークを提案する。
我々の中心となる仮説は、作業テレメトリの注意に基づく埋め込みによって得られるサロゲートモデルが、標準的な回帰手法よりもパフォーマンスのダイナミクスを効果的に捉えることができるというものである。
我々の知る限り、これはHPCスケジューリング問題に対してMOBOフレームワークに埋め込みインフォームドサロゲートをうまく適用する最初の試みである。
論文 参考訳(メタデータ) (2026-01-21T19:11:12Z) - Semantic-Aware Scheduling for GPU Clusters with Large Language Models [60.14838697778884]
我々は、スケジューラと管理するジョブ間のセマンティックギャップを橋渡しするフレームワークであるSchedMateを提案する。
SchedMateは見過ごされ、構造化されていないデータソース(ソースコード、ランタイムログ、履歴ジョブ)から深い洞察を抽出する。
我々は、SchedMateが平均ジョブ完了時間を最大1.91倍に短縮し、スケジューリング性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2025-10-02T02:01:02Z) - Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。
本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。
アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文 参考訳(メタデータ) (2025-10-01T12:29:32Z) - Enhancing Cluster Scheduling in HPC: A Continuous Transfer Learning for Real-Time Optimization [0.42970700836450487]
本研究では,ノード親和性制約に着目し,クラスタシステムのタスクスケジューリングを最適化するための機械学習支援手法を提案する。
提案した連続移動学習モデルは、運用中に動的に進化し、再学習の必要性を最小限に抑える。
Google Cluster Dataに基づいて評価されたこのモデルは、99%以上の精度を実現し、計算オーバーヘッドを低減し、制約されたタスクのスケジューリング遅延を改善する。
論文 参考訳(メタデータ) (2025-09-22T12:27:20Z) - PRISM: Distributed Inference for Foundation Models at Edge [73.54372283220444]
PRISMは、エッジデバイス上での分散トランスフォーマー推論のための通信効率と計算アウェア戦略である。
ViT,BERT,GPT-2のPRISMを多種多様なデータセットで評価した。
論文 参考訳(メタデータ) (2025-07-16T11:25:03Z) - Evaluating the Efficacy of LLM-Based Reasoning for Multiobjective HPC Job Scheduling [6.623504719591386]
大規模言語モデル(LLM)ベースのスケジューラはReActスタイルのフレームワークを使用する(Reason + Act)
Systemはスクラッチパッドメモリを内蔵し、スケジューリング履歴を追跡し、自然言語のフィードバックを通じて決定を洗練する。
我々は,OpenAI の O4-Mini と Anthropic の Claude 3.7 を用いて,実世界の7つの HPC ワークロードシナリオに対してアプローチを評価した。
論文 参考訳(メタデータ) (2025-05-29T14:25:29Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。
制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。
本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:34:25Z) - Resource Heterogeneity-Aware and Utilization-Enhanced Scheduling for Deep Learning Clusters [26.874684454125152]
本稿では,資源利用を促進できる最適化フレームワークに基づくタスクレベルスケジューラHadarを提案する。
Hadarは、最先端のGavelと比較して、総時間の長さを1.20倍に加速する。
HadarEはDLモデルのトレーニングにおいてかなりのスピードアップを示しており、AmazonのAWS(あるいは当社のラボ)クラスタ上での合計期間を50%(または80%)短縮しています。
論文 参考訳(メタデータ) (2025-03-13T22:13:20Z) - Hierarchical Balance Packing: Towards Efficient Supervised Fine-tuning for Long-Context LLM [49.2709992932292]
長期コンテキスト大規模言語モデル(LLM)のトレーニングは、長期コンテキストと短コンテキストデータによるハイブリッドトレーニングが、ワークロードの不均衡につながることが多いため、難しい。
既存の作業では、主にデータパッキングを使用してこの問題を軽減するが、不均衡な注意計算や通信オーバーヘッドの無駄を考慮できない。
本稿では,これらの非効率性に対処する新しいバッチ構築法とトレーニングレシピを設計する階層的バランスパッキング(HBP)を提案する。
論文 参考訳(メタデータ) (2025-03-10T10:52:50Z) - Prediction-Assisted Online Distributed Deep Learning Workload Scheduling in GPU Clusters [24.845122459974466]
本稿では,A-SRPT(Adaptive Shortest-Remaining-Time-first)スケジューリングアルゴリズムを提案する。
ヘテロジニアスディープニューラルネットワーク(DNN)モデルに対応するグラフとして各ジョブをモデル化することにより、A-SRPTはジョブを利用可能なGPUに戦略的に割り当てる。
A-SRPTは複雑なスケジューリング問題を単一マシンのインスタンスにマッピングし、プリエンプティブな "shortest-remaining-processing-time-first" 戦略によって最適に対処する。
論文 参考訳(メタデータ) (2025-01-09T20:19:01Z) - TL-Training: A Task-Feature-Based Framework for Training Large Language Models in Tool Use [72.32614703504122]
大規模言語モデル(LLM)は、環境と対話するツールを活用することで、目覚ましい進歩を遂げる。
大規模なデータセットに依存する標準教師付き微調整アプローチでは、ツール使用時のタスク固有の特性を見落としていることが多い。
本稿では,最適下トレーニングデータの効果を緩和するタスク機能ベースのフレームワークであるTL-Trainingを提案する。
論文 参考訳(メタデータ) (2024-12-20T02:21:36Z) - Learning-enabled Flexible Job-shop Scheduling for Scalable Smart
Manufacturing [11.509669981978874]
スマートマニュファクチャリングシステムでは、生産性を最大化するためのソリューションを最適化するために、輸送制約付きフレキシブルなジョブショップスケジューリングが不可欠である。
近年, 深部強化学習(DRL)に基づくFJSPT法の開発が, 大規模一般化の課題に直面している。
Heterogeneous Graph Scheduler (HGS) と呼ばれる新しいグラフベースのDRL法を導入する。
論文 参考訳(メタデータ) (2024-02-14T06:49:23Z) - CueGCL: Cluster-aware Personalized Self-Training for Unsupervised Graph Contrastive Learning [49.88192702588169]
本稿ではクラスタリング結果とノード表現を協調的に学習するクラスタ対応グラフコントラスト学習フレームワーク(CueGCL)を提案する。
具体的には、教師なしシナリオのためのパーソナライズされた自己学習(PeST)戦略を設計し、クラスタレベルのパーソナライズされた正確な情報をモデルが取得できるようにする。
本稿では,モデルの有効性を理論的に実証し,クラスタ構造が著しく識別可能な埋め込み空間が得られることを示した。
論文 参考訳(メタデータ) (2023-11-18T13:45:21Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Uncovering the Hidden Cost of Model Compression [43.62624133952414]
視覚プロンプティングは、コンピュータビジョンにおける伝達学習の重要な方法として登場した。
モデル圧縮は視覚的プロンプトベース転送の性能に有害である。
しかし、量子化によってモデルが圧縮されるとき、キャリブレーションに対する負の効果は存在しない。
論文 参考訳(メタデータ) (2023-08-29T01:47:49Z) - Partitioning Distributed Compute Jobs with Reinforcement Learning and
Graph Neural Networks [58.720142291102135]
大規模な機械学習モデルは、幅広い分野に進歩をもたらしている。
これらのモデルの多くは、単一のマシンでトレーニングするには大きすぎるため、複数のデバイスに分散する必要がある。
スループットやブロッキングレートといったユーザクリティカルな指標に対して,並列化の最大化が準最適であることを示す。
論文 参考訳(メタデータ) (2023-01-31T17:41:07Z) - COMET: A Comprehensive Cluster Design Methodology for Distributed Deep Learning Training [42.514897110537596]
現代のディープラーニング(DL)モデルは、トレーニングする専門的でハイエンドなノードの大規模なクラスタを必要とするサイズに成長しています。
このようなクラスタを設計してパフォーマンスと利用の両方を最大化します。
本稿では,並列化戦略と鍵クラスタリソースのプロビジョニングが分散DLトレーニングのパフォーマンスに与える影響を共同で研究する,総合的なクラスタ設計方法論とワークフローであるCOMETを紹介する。
論文 参考訳(メタデータ) (2022-11-30T00:32:37Z) - Towards Deployment-Efficient Reinforcement Learning: Lower Bound and
Optimality [141.89413461337324]
展開効率は、強化学習(RL)の多くの実世界の応用にとって重要な基準である
本稿では,「制約付き最適化」の観点から,デプロイ効率の高いRL(DE-RL)の理論的定式化を提案する。
論文 参考訳(メタデータ) (2022-02-14T01:31:46Z) - A Reinforcement Learning Environment For Job-Shop Scheduling [2.036811219647753]
本稿では,ジョブショップスケジューリングのための高効率深層強化学習環境を提案する。
我々は、有意義でコンパクトな状態表現と、新しい単純な密集した報酬関数を設計する。
本手法が従来のベンチマークインスタンスにおける既存のDRLメソッドを大幅に上回ることを実証した。
論文 参考訳(メタデータ) (2021-04-08T13:26:30Z) - Effective Elastic Scaling of Deep Learning Workloads [3.345876096131764]
大規模学習プラットフォーム上でのDeep Learning(DL)ジョブの弾性スケーリングについて検討する。
本稿では,DLトレーニングジョブのための新たなリソース割り当て戦略を提案する。これにより,ジョブ実行時間の性能が向上し,クラスタ利用が向上する。
論文 参考訳(メタデータ) (2020-06-24T17:01:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。