論文の概要: Toward Smart Scheduling in Tapis
- arxiv url: http://arxiv.org/abs/2408.03349v1
- Date: Mon, 5 Aug 2024 20:01:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-08 17:40:15.865042
- Title: Toward Smart Scheduling in Tapis
- Title(参考訳): タピスにおけるスマートスケジューリングに向けて
- Authors: Joe Stubbs, Smruti Padhy, Richard Cardone,
- Abstract要約: 本稿では,Tapisにおけるインテリジェントなジョブスケジューリング機能の開発について紹介する。
我々は、異なるHPCシステムとキュー上でジョブの待ち時間を予測すること。
私たちの最初の結果セットは、既存のオプションリストから最適なシステムを選択するのに使用できる回帰としてこの問題を提起しました。
- 参考スコア(独自算出の注目度): 1.0377683220196874
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Tapis framework provides APIs for automating job execution on remote resources, including HPC clusters and servers running in the cloud. Tapis can simplify the interaction with remote cyberinfrastructure (CI), but the current services require users to specify the exact configuration of a job to run, including the system, queue, node count, and maximum run time, among other attributes. Moreover, the remote resources must be defined and configured in Tapis before a job can be submitted. In this paper, we present our efforts to develop an intelligent job scheduling capability in Tapis, where various attributes about a job configuration can be automatically determined for the user, and computational resources can be dynamically provisioned by Tapis for specific jobs. We develop an overall architecture for such a feature, which suggests a set of core challenges to be solved. Then, we focus on one such specific challenge: predicting queue times for a job on different HPC systems and queues, and we present two sets of results based on machine learning methods. Our first set of results cast the problem as a regression, which can be used to select the best system from a list of existing options. Our second set of results frames the problem as a classification, allowing us to compare the use of an existing system with a dynamically provisioned resource.
- Abstract(参考訳): Tapisフレームワークは,クラウド上で動作するHPCクラスタやサーバなど,リモートリソース上でのジョブ実行を自動化するAPIを提供する。
Tapisはリモートサイバーインフラストラクチャ(CI)とのインタラクションを単純化するが、現在のサービスでは、システム、キュー、ノードカウント、最大実行時間など、実行するジョブの正確な設定を指定する必要がある。
さらに、リモートリソースはジョブが送信される前にTapisで定義され、設定されなければならない。
本稿では,Tapisにおけるインテリジェントなジョブスケジューリング機能の開発に取り組み,ユーザに対してジョブ構成に関するさまざまな属性を自動的に決定し,特定のジョブに対してTapisによって動的に計算リソースをプロビジョニングする。
このような機能の全体的なアーキテクチャを開発しており、解決すべきコア課題の集合を示唆している。
そこで我々は,異なるHPCシステムとキュー上でジョブの待ち時間を予測することに着目し,機械学習手法に基づく2つの結果セットを示す。
私たちの最初の結果セットは、既存のオプションリストから最適なシステムを選択するのに使用できる回帰としてこの問題を提起しました。
第2の結果は,既存のシステムと動的にプロビジョニングされたリソースとを比較可能な分類として,この問題の枠組みを定式化したものである。
関連論文リスト
- Is the GPU Half-Empty or Half-Full? Practical Scheduling Techniques for LLMs [3.7758841366694353]
文献および実用サービスシステムからスケジューリング手法を調査する。
文献からのスケジューラは、しばしば優れたパフォーマンスを得るが、かなりの複雑さをもたらす。
対照的に、実際のデプロイメントにおけるスケジューラは、しばしばテーブルに簡単にパフォーマンス向上を残しますが、実装、デプロイ、設定が容易です。
論文 参考訳(メタデータ) (2024-10-23T13:05:46Z) - Aux-NAS: Exploiting Auxiliary Labels with Negligibly Extra Inference Cost [73.28626942658022]
本研究の目的は,独立タスク(副次タスク)から追加の補助ラベルを活用することで,タスクのパフォーマンスを向上させることである。
本手法は,主タスクと補助タスクのための柔軟な非対称構造を持つアーキテクチャに基づく。
VGG、ResNet、ViTのバックボーンを使用して、NYU v2、CityScapes、Taskonomyデータセット上の6つのタスクで実験を行った。
論文 参考訳(メタデータ) (2024-05-09T11:50:19Z) - Chain-of-Skills: A Configurable Model for Open-domain Question Answering [79.8644260578301]
検索モデルは、現実世界の知識集約的なタスクに欠かせない要素である。
最近の研究はカスタマイズされたメソッドに焦点を合わせ、モデルの転送可能性とスケーラビリティを制限している。
本稿では,各モジュールがデータセット間で再利用可能なキースキルに対応するモジュールレトリバーを提案する。
論文 参考訳(メタデータ) (2023-05-04T20:19:39Z) - Learning While Scheduling in Multi-Server Systems with Unknown
Statistics: MaxWeight with Discounted UCB [18.898514227870926]
本稿では、複数のサーバと複数のタイプのジョブを持つマルチサーバシステムについて考察する。
目標は、処理時間の統計を知ることなく、サーバ上のジョブをスケジュールすることだ。
我々は,MaxWeightスケジューリングポリシと割引された高信頼度境界(UCB)を組み合わせることで,統計を同時に学習し,ジョブをサーバにスケジュールするアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-02T15:37:02Z) - Controllable Dynamic Multi-Task Architectures [92.74372912009127]
本稿では,そのアーキテクチャと重みを動的に調整し,所望のタスク選択とリソース制約に適合させる制御可能なマルチタスクネットワークを提案する。
本稿では,タスク親和性と分岐正規化損失を利用した2つのハイパーネットの非交互トレーニングを提案し,入力の嗜好を取り入れ,適応重み付き木構造モデルを予測する。
論文 参考訳(メタデータ) (2022-03-28T17:56:40Z) - Mining Robust Default Configurations for Resource-constrained AutoML [18.326426020906215]
本稿では,オフラインのAutoMLを実行し,多様なタスクに対してマイニングを行うことにより,与えられたタスクに対するパフォーマンス設定を選択する新しい方法を提案する。
当社のアプローチは,既存のAutoMLプラットフォームを温める上で有効であることを示す。
論文 参考訳(メタデータ) (2022-02-20T23:08:04Z) - Elastic Architecture Search for Diverse Tasks with Different Resources [87.23061200971912]
本研究では,異なるリソースを持つ多様なタスクを効率的に配置する上で,クラス群に対応するリソース制約や関心のタスクをテスト時に動的に指定する,新たな課題について検討する。
従来のNASアプローチでは、全てのクラスのアーキテクチャを同時に設計することを模索しており、これはいくつかの個別のタスクに最適ではないかもしれない。
本稿では、様々なリソース制約のある多様なタスクに対して、実行時に即時特殊化を可能にする、Elastic Architecture Search (EAS)と呼ばれる斬新で一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-03T00:54:27Z) - Tailored Learning-Based Scheduling for Kubernetes-Oriented Edge-Cloud
System [54.588242387136376]
エッジクラウドシステムのための学習ベースのスケジューリングフレームワークkaisを紹介する。
まず,分散した要求ディスパッチに対応するために,協調型マルチエージェントアクタ-クリティックアルゴリズムを設計する。
次に,多種多様なシステムスケールと構造について,グラフニューラルネットワークを用いてシステム状態情報を埋め込む。
第3に、リクエストディスパッチとサービスオーケストレーションを調和させる2段階のスケジューリングメカニズムを採用します。
論文 参考訳(メタデータ) (2021-01-17T03:45:25Z) - Rosella: A Self-Driving Distributed Scheduler for Heterogeneous Clusters [7.206919625027208]
異種クラスタにおけるタスクスケジューリングのための,新たな自律分散アプローチであるRosellaを紹介する。
Rosellaは自動的に計算環境を学習し、スケジューリングポリシーをリアルタイムで調整する。
32ノードのAWSクラスタ上で、さまざまなワークロードでRosellaを評価します。
論文 参考訳(メタデータ) (2020-10-28T20:12:29Z) - Sequence-to-sequence models for workload interference [1.988145627448243]
データセンターでのジョブのスケジューリングは難しいシナリオであり、ジョブは厳しいスローダウンや実行の失敗につながるリソースを競うことができる。
現在のテクニックは、多くが機械学習とジョブモデリングを含むもので、時間にわたってワークロードの振る舞いを要約に基づいている。
本稿では,リソースや実行時間に対する行動に基づいて,データセンタ上でのジョブの協調スケジューリングをモデル化する手法を提案する。
論文 参考訳(メタデータ) (2020-06-25T14:11:46Z) - MTL-NAS: Task-Agnostic Neural Architecture Search towards
General-Purpose Multi-Task Learning [71.90902837008278]
汎用マルチタスク学習(GP-MTL)にニューラルアーキテクチャサーチ(NAS)を導入することを提案する。
異なるタスクの組み合わせに対応するため、GP-MTLネットワークを単一タスクのバックボーンに分割する。
また,探索されたアーキテクチャ間の性能ギャップを埋める単一ショット勾配に基づく探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-31T09:49:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。