論文の概要: Optimization of Topology-Aware Job Allocation on a High-Performance
Computing Cluster by Neural Simulated Annealing
- arxiv url: http://arxiv.org/abs/2302.03517v1
- Date: Mon, 6 Feb 2023 03:13:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-08 16:07:13.142896
- Title: Optimization of Topology-Aware Job Allocation on a High-Performance
Computing Cluster by Neural Simulated Annealing
- Title(参考訳): ニューラルシミュレートアニーリングによる高性能計算クラスタにおけるトポロジー対応ジョブ割り当ての最適化
- Authors: Zekang Lan, Yan Xu, Yingkun Huang, Dian Huang, Shengzhong Feng
- Abstract要約: トポロジ対応ジョブ割り当て問題(TJAP)は、特定のアプリケーションにノードを割り当てる方法を決定する問題である。
本稿では,通信ホップのコストを最小化することを目的とした,ファットツリーネットワーク上でのウィンドウベースTJAPについて検討する。
静的連続性割当て戦略(SCAS)と動的連続性割当て戦略(DCAS)の2つの特別な割当て戦略が検討されている。
- 参考スコア(独自算出の注目度): 4.215562786525106
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Jobs on high-performance computing (HPC) clusters can suffer significant
performance degradation due to inter-job network interference. Topology-aware
job allocation problem (TJAP) is such a problem that decides how to dedicate
nodes to specific applications to mitigate inter-job network interference. In
this paper, we study the window-based TJAP on a fat-tree network aiming at
minimizing the cost of communication hop, a defined inter-job interference
metric. The window-based approach for scheduling repeats periodically taking
the jobs in the queue and solving an assignment problem that maps jobs to the
available nodes. Two special allocation strategies are considered, i.e., static
continuity assignment strategy (SCAS) and dynamic continuity assignment
strategy (DCAS). For the SCAS, a 0-1 integer programming is developed. For the
DCAS, an approach called neural simulated algorithm (NSA), which is an
extension to simulated algorithm (SA) that learns a repair operator and employs
them in a guided heuristic search, is proposed. The efficacy of NSA is
demonstrated with a computational study against SA and SCIP. The results of
numerical experiments indicate that both the model and algorithm proposed in
this paper are effective.
- Abstract(参考訳): ハイパフォーマンスコンピューティング(HPC)クラスタのジョブは、ジョブ間ネットワーク干渉による大幅なパフォーマンス低下を被る可能性がある。
トポロジ対応ジョブ割り当て問題(TJAP)は、特定のアプリケーションにノードを割り当てて、ジョブ間のネットワーク干渉を軽減する方法を決定する問題である。
本稿では,通信ホップのコストを最小化することを目的とした,ファットツリーネットワーク上のウィンドウベースTJAPについて検討する。
ウィンドウベースのスケジューリングアプローチでは、キュー内のジョブを定期的に取得し、ジョブを利用可能なノードにマップする割り当て問題を解決する。
静的連続割当戦略(SCAS)と動的連続割当戦略(DCAS)の2つの特別割当戦略が検討されている。
SCASでは0-1整数プログラミングが開発されている。
DCASでは、修復演算子を学習し、ガイド付きヒューリスティック検索に使用する、シミュレーションアルゴリズム(SA)の拡張であるニューラル・シミュレート・アルゴリズム(NSA)と呼ばれるアプローチが提案されている。
NSAの有効性は、SAとSCIPに対する計算的研究で実証されている。
数値実験の結果,本論文で提案するモデルとアルゴリズムの両方が有効であることが示された。
関連論文リスト
- Broad Critic Deep Actor Reinforcement Learning for Continuous Control [5.440090782797941]
アクター批判強化学習(RL)アルゴリズムのための新しいハイブリッドアーキテクチャを提案する。
提案したアーキテクチャは、広範学習システム(BLS)とディープニューラルネットワーク(DNN)を統合している。
提案アルゴリズムの有効性を2つの古典的連続制御タスクに適用することにより評価する。
論文 参考訳(メタデータ) (2024-11-24T12:24:46Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - Scheduling Inference Workloads on Distributed Edge Clusters with
Reinforcement Learning [11.007816552466952]
本稿では,エッジネットワークにおける予測クエリを短時間でスケジューリングする問題に焦点をあてる。
シミュレーションにより,大規模ISPの現実的なネットワーク設定とワークロードにおけるいくつかのポリシーを解析する。
我々は、強化学習に基づくスケジューリングアルゴリズムASETを設計し、システム条件に応じてその決定を適応させることができる。
論文 参考訳(メタデータ) (2023-01-31T13:23:34Z) - A Comprehensively Improved Hybrid Algorithm for Learning Bayesian
Networks: Multiple Compound Memory Erasing [0.0]
本稿では、新しいハイブリッドアルゴリズムMCME(multiple compound memory erasing)を提案する。
MCMEは、最初の2つの手法の利点を維持し、上記のCIテストの欠点を解消し、方向判別段階におけるスコアリング機能に革新をもたらす。
多くの実験により、MCMEは既存のアルゴリズムよりも優れた、あるいは類似した性能を示している。
論文 参考訳(メタデータ) (2022-12-05T12:52:07Z) - Task-Oriented Sensing, Computation, and Communication Integration for
Multi-Device Edge AI [108.08079323459822]
本稿では,AIモデルの分割推論と統合センシング通信(ISAC)を併用した,新しいマルチインテリジェントエッジ人工レイテンシ(AI)システムについて検討する。
推定精度は近似的だが抽出可能な計量、すなわち判別利得を用いて測定する。
論文 参考訳(メタデータ) (2022-07-03T06:57:07Z) - Learning-based Measurement Scheduling for Loosely-Coupled Cooperative
Localization [3.616948583169635]
協調的ローカライゼーションにおいて、コミュニケーションモバイルエージェントは、デッドレコニングに基づくグローバルローカライゼーションを改善するために、エージェント間相対測定を使用する。
測定スケジューリングにより、エージェントは、利用可能なエージェント間相対的な測定のサブセットを、その計算リソースが制限されたときに処理すべきかどうかを決定することができる。
本稿では,SGの効用関数の代用としてニューラルネットワークに基づく代理モデルを用いて,逐次計算手法に従うCLの測定スケジューリングを提案する。
論文 参考訳(メタデータ) (2021-12-06T08:06:29Z) - COPS: Controlled Pruning Before Training Starts [68.8204255655161]
最先端のディープニューラルネットワーク(DNN)プルーニング技術は、トレーニング開始前にワンショットで適用され、プルーニングスコアと呼ばれる単一の基準の助けを借りてスパースアーキテクチャを評価する。
この作業では、単一プルーニング基準に集中するのではなく、任意のGASを組み合わせてより強力なプルーニング戦略を構築するためのフレームワークを提供します。
論文 参考訳(メタデータ) (2021-07-27T08:48:01Z) - Waypoint Planning Networks [66.72790309889432]
本稿では,ローカルカーネル(A*のような古典的アルゴリズム)と学習アルゴリズムを用いたグローバルカーネルを用いたLSTMに基づくハイブリッドアルゴリズムを提案する。
我々は、WPNとA*を比較し、動き計画ネットワーク(MPNet)やバリューネットワーク(VIN)を含む関連する作業と比較する。
WPN の探索空間は A* よりもかなり小さいが、ほぼ最適な結果が得られることが示されている。
論文 参考訳(メタデータ) (2021-05-01T18:02:01Z) - Towards AIOps in Edge Computing Environments [60.27785717687999]
本稿では,異種分散環境に適用可能なaiopsプラットフォームのシステム設計について述べる。
高頻度でメトリクスを収集し、エッジデバイス上で特定の異常検出アルゴリズムを直接実行することが可能である。
論文 参考訳(メタデータ) (2021-02-12T09:33:00Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - Overlap Local-SGD: An Algorithmic Approach to Hide Communication Delays
in Distributed SGD [32.03967072200476]
We propose a algorithmic approach named OverlapLocal-Local-Local-SGD (Local momentum variant)。
各ノードにアンカーモデルを追加することでこれを実現する。
複数のローカルアップデートの後、ローカルにトレーニングされたモデルは、他の人と通信するのではなく、アンカーモデルへと引き戻される。
論文 参考訳(メタデータ) (2020-02-21T20:33:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。