論文の概要: Building a Shared Resource HPC Center Across University Schools and
Institutes: A Case Study
- arxiv url: http://arxiv.org/abs/2003.13629v2
- Date: Thu, 2 Apr 2020 16:48:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-27 12:13:13.730866
- Title: Building a Shared Resource HPC Center Across University Schools and
Institutes: A Case Study
- Title(参考訳): 大学・研究所間の共有資源HPCセンターの構築--事例研究
- Authors: Glen MacLachlan, Jason Hurlburt, Marco Suarez, Kai Leung Wong, William
Burke, Terrence Lewis, Andrew Gallo, Jaroslav Flidr, Raoul Gabiam, Janis
Nicholas, Brian Ensor
- Abstract要約: 本稿では,大学レベルでの初となるハイパフォーマンスコンピューティングセンターの設立と計画に直面する課題と障害について論じる。
私たちは、正当化とコストモデル、予測されたユースケースを決定するための戦略、適切なリソース計画、スタッフリング、ユーザエンゲージメント、そして成功を測るためのメトリクスに重点を置いています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Over the past several years, The George Washington University has recruited a
significant number of researchers in a wide variety of domains requiring the
availability of advanced computational resources. We discuss the challenges and
obstacles encountered planning and establishing a first-time high performance
computing center at the university level and present a set of solutions that
will be useful for any university developing a fledgling high performance
computing center. We focus on justification and cost model, strategies for
determining anticipated use cases, planning appropriate resources, staffing,
user engagement, and metrics for gauging success.
- Abstract(参考訳): 過去数年間、ジョージ・ワシントン大学は、高度な計算資源の入手を必要とする様々な領域の研究者を大量に募集してきた。
本稿では,大学レベルでの初となるハイパフォーマンスコンピューティングセンターの計画と設立に遭遇する課題と課題について論じ,先進的なハイパフォーマンスコンピューティングセンターを開発するどの大学にとっても有用なソリューションの集合を提示する。
私たちは、正当化とコストモデル、予測されたユースケースを決定するための戦略、適切なリソース計画、スタッフリング、ユーザエンゲージメント、そして成功を測るためのメトリクスに重点を置いています。
関連論文リスト
- Characterization of Large Language Model Development in the Datacenter [57.49531095113406]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z) - A Review of Deep Reinforcement Learning in Serverless Computing:
Function Scheduling and Resource Auto-Scaling [2.0722667822370386]
本稿では、サーバーレスコンピューティングにおけるDeep Reinforcement Learning(DRL)技術の適用について、包括的なレビューを行う。
DRLをサーバレスコンピューティングに適用する最近の研究の体系的なレビューが、さまざまなアルゴリズム、モデル、パフォーマンスについて紹介されている。
分析の結果,DRLは環境から学習・適応する能力を有しており,機能スケジューリングと資源スケーリングの効率化に期待できる結果が得られた。
論文 参考訳(メタデータ) (2023-10-05T09:26:04Z) - Benchmarking Robustness and Generalization in Multi-Agent Systems: A
Case Study on Neural MMO [50.58083807719749]
IJCAI 2022で開催されている第2回Neural MMOチャレンジの結果を報告する。
この競合はマルチエージェントシステムの堅牢性と一般化をターゲットにしている。
環境ラッパー、ベースライン、可視化ツール、そしてさらなる研究のための選択されたポリシーを含むベンチマークをオープンソースにします。
論文 参考訳(メタデータ) (2023-08-30T07:16:11Z) - A Comprehensive Survey of Artificial Intelligence Techniques for Talent
Analytics [49.53664196592719]
タレント分析は人的資源管理に応用されたデータ科学において有望な分野として現れてきた。
ビッグデータと人工知能技術の最近の発展は、人的資源管理に革命をもたらした。
論文 参考訳(メタデータ) (2023-07-03T07:53:20Z) - Machine Learning Empowered Intelligent Data Center Networking: A Survey [35.55535885962517]
本稿では,機械学習のデータセンターネットワークへの応用を包括的に検討する。
フロー予測、フロー分類、ロードバランシング、リソース管理、ルーティング最適化、渋滞制御をカバーしている。
我々はREBEL-3Sと呼ばれる品質評価基準を設計し、これらの研究の長所と短所を公平に測定する。
論文 参考訳(メタデータ) (2022-02-28T05:27:22Z) - Characterization and Prediction of Deep Learning Workloads in
Large-Scale GPU Datacenters [30.952491139350908]
本稿では,Deep Learningジョブの特徴と資源管理に関する総合的研究について述べる。
本稿では,歴史データに基づく資源管理を行う汎用フレームワークを提案する。
ケーススタディでは、クラスタ全体の平均ジョブ完了時間を最大6.5倍に抑えるQuasi-Shortest-Service-Firstスケジューリングサービスと、クラスタ全体の使用率を最大13%改善するCluster Energy Savingサービスを設計する。
論文 参考訳(メタデータ) (2021-09-03T05:02:52Z) - Distributed Deep Learning in Open Collaborations [49.240611132653456]
協調学習に特化して設計された新しいアルゴリズムフレームワークを提案する。
現実的な条件下でのSwaVとALBERTの事前学習に対するアプローチの有効性を実証し,コストのごく一部で従来の設定に匹敵する性能を実現する。
論文 参考訳(メタデータ) (2021-06-18T16:23:13Z) - A Machine Learning Approach for Task and Resource Allocation in Mobile
Edge Computing Based Networks [108.57859531628264]
無線ネットワークにおいて,共同作業,スペクトル,送信電力配分問題について検討する。
提案アルゴリズムは、標準Q-ラーニングアルゴリズムと比較して、収束に必要なイテレーション数と全ユーザの最大遅延を最大18%、11.1%削減することができる。
論文 参考訳(メタデータ) (2020-07-20T13:46:42Z) - Learning What to Defer for Maximum Independent Sets [84.00112106334655]
本稿では,各段階における解の要素的決定を学習することにより,エージェントが適応的に段階数を縮小あるいは拡張する,新たなDRL方式を提案する。
提案手法を最大独立集合(MIS)問題に適用し、現状のDRL方式よりも大幅に改善したことを示す。
論文 参考訳(メタデータ) (2020-06-17T02:19:31Z) - Multi-agent Reinforcement Learning for Resource Allocation in IoT
networks with Edge Computing [16.129649374251088]
エンドユーザーが計算をオフロードするのは、スペクトルとリソースに対する大きな要求のためである。
本稿では,IoTエッジコンピューティングネットワークにおけるリソース割り当てを伴うオフロード機構をゲームとして定式化することによって検討する。
論文 参考訳(メタデータ) (2020-04-05T20:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。