Fugu-MT 論文翻訳(概要): Building a Shared Resource HPC Center Across University Schools and Institutes: A Case Study

論文の概要: Building a Shared Resource HPC Center Across University Schools and Institutes: A Case Study

arxiv url: http://arxiv.org/abs/2003.13629v2
Date: Thu, 2 Apr 2020 16:48:22 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-27 12:13:13.730866
Title: Building a Shared Resource HPC Center Across University Schools and Institutes: A Case Study
Title（参考訳）: 大学・研究所間の共有資源HPCセンターの構築--事例研究
Authors: Glen MacLachlan, Jason Hurlburt, Marco Suarez, Kai Leung Wong, William Burke, Terrence Lewis, Andrew Gallo, Jaroslav Flidr, Raoul Gabiam, Janis Nicholas, Brian Ensor
Abstract要約: 本稿では,大学レベルでの初となるハイパフォーマンスコンピューティングセンターの設立と計画に直面する課題と障害について論じる。私たちは、正当化とコストモデル、予測されたユースケースを決定するための戦略、適切なリソース計画、スタッフリング、ユーザエンゲージメント、そして成功を測るためのメトリクスに重点を置いています。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Over the past several years, The George Washington University has recruited a significant number of researchers in a wide variety of domains requiring the availability of advanced computational resources. We discuss the challenges and obstacles encountered planning and establishing a first-time high performance computing center at the university level and present a set of solutions that will be useful for any university developing a fledgling high performance computing center. We focus on justification and cost model, strategies for determining anticipated use cases, planning appropriate resources, staffing, user engagement, and metrics for gauging success.
Abstract（参考訳）: 過去数年間、ジョージ・ワシントン大学は、高度な計算資源の入手を必要とする様々な領域の研究者を大量に募集してきた。本稿では,大学レベルでの初となるハイパフォーマンスコンピューティングセンターの計画と設立に遭遇する課題と課題について論じ,先進的なハイパフォーマンスコンピューティングセンターを開発するどの大学にとっても有用なソリューションの集合を提示する。私たちは、正当化とコストモデル、予測されたユースケースを決定するための戦略、適切なリソース計画、スタッフリング、ユーザエンゲージメント、そして成功を測るためのメトリクスに重点を置いています。

関連論文リスト

Advances and Frontiers of LLM-based Issue Resolution in Software Engineering: A Comprehensive Survey [59.3507264893654]
課題解決は、現実世界の開発に不可欠な複雑なソフトウェアエンジニアリングタスクです。 SWE-benchのようなベンチマークでは、このタスクは大規模言語モデルでは極めて困難であることが判明した。本稿では,この新興領域を体系的に調査する。
論文参考訳（メタデータ） (2026-01-15T18:55:03Z)
Barbarians at the Gate: How AI is Upending Systems Research [58.95406995634148]
システム研究は、新しいパフォーマンス指向アルゴリズムの設計と評価に長年注力してきたが、AI駆動のソリューション発見には特に適している、と私たちは主張する。このアプローチをAI駆動システム研究(ADRS)と呼び、ソリューションを反復的に生成し、評価し、洗練する。我々の研究結果は、AI時代のシステム研究の実践に急激な適応の必要性と破壊的な可能性を浮き彫りにしている。
論文参考訳（メタデータ） (2025-10-07T17:49:24Z)
Kant: An Efficient Unified Scheduling System for Large-Scale AI Clusters [12.201930084664454]
Kantは、大規模なAIコンテナクラスタのための効率的な統合スケジューリングプラットフォームである。システムはトレーニングと推論の両方のジョブのスケジューリングをサポートする。システムは数百から数万のGPUのクラスタにおいて、例外的なパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-09-25T02:25:12Z)
Edge-Cloud Collaborative Computing on Distributed Intelligence and Model Optimization: A Survey [59.52058740470727]
エッジクラウドコラボレーティブコンピューティング(ECCC)は、現代のインテリジェントアプリケーションの計算要求に対処するための重要なパラダイムとして登場した。 AIの最近の進歩、特にディープラーニングと大規模言語モデル(LLM)は、これらの分散システムの能力を劇的に向上させてきた。この調査は、基本的なアーキテクチャ、技術の実現、新しいアプリケーションに関する構造化されたチュートリアルを提供する。
論文参考訳（メタデータ） (2025-05-03T13:55:38Z)
Application of the Cyberinfrastructure Production Function Model to R1 Institutions [0.5277756703318045]
本研究は, 経済における生産機能モデルの概念を応用し, 研究計算への投資価値を定量化するためのモデルの構築に関する過去の研究が, 5つの大学より広い範囲に一般化可能であるかを評価する。このモデルが一般化され,計算機資源やスタッフの追加による制度的利益が肯定的であることが示唆された。
論文参考訳（メタデータ） (2025-01-17T15:45:21Z)
Reinforcement Learning for Adaptive Resource Scheduling in Complex System Environments [8.315191578007857]
そこで本研究では,Q-ラーニングに基づく新しいコンピュータシステムの性能最適化と適応型ワークロード管理スケジューリングアルゴリズムを提案する。対照的に、強化学習アルゴリズムであるQラーニングは、システムの状態変化から継続的に学習し、動的スケジューリングとリソース最適化を可能にする。この研究は、将来の大規模システムにおけるAI駆動適応スケジューリングの統合の基礎を提供し、システムのパフォーマンスを高め、運用コストを削減し、持続可能なエネルギー消費をサポートするスケーラブルでインテリジェントなソリューションを提供する。
論文参考訳（メタデータ） (2024-11-08T05:58:09Z)
Unleashing LLM Reasoning Capability via Scalable Question Synthesis from Scratch [54.12139707822201]
本稿では,新しい,スケーラブルで費用対効果の高いデータ合成手法であるScaleQuestを提案する。スクラッチから多様な質問を生成することで、100万の問題解決ペアのデータセットを生成します。私たちの実験では、データに基づいてトレーニングされたモデルが、既存のオープンソースデータセットより優れています。
論文参考訳（メタデータ） (2024-10-24T12:42:04Z)
Hypergame Theory for Decentralized Resource Allocation in Multi-user Semantic Communications [60.63472821600567]
マルチユーザSCシステムにおける分散コンピューティングと通信資源割り当てのための新しいフレームワークを提案する。通信資源と計算資源を効率的に割り当てることの課題は、Stackelbergハイパーゲーム理論の適用によって解決される。シミュレーションの結果,提案したStackelbergハイパーゲームは通信資源と計算資源を効率的に利用することができることがわかった。
論文参考訳（メタデータ） (2024-09-26T15:55:59Z)
Resource Allocation and Workload Scheduling for Large-Scale Distributed Deep Learning: A Survey [48.06362354403557]
本調査は,大規模分散DLの効率的な資源配分とワークロードスケジューリング戦略について,主に2019年から2024年までの文献を概説する。トピックごとに重要な課題を強調し、既存の技術に関する重要な洞察について議論する。この調査は、コンピュータ科学、人工知能、通信研究者が最近の進歩を理解することを奨励することを目的としている。
論文参考訳（メタデータ） (2024-06-12T11:51:44Z)
A Review of Deep Reinforcement Learning in Serverless Computing: Function Scheduling and Resource Auto-Scaling [2.0722667822370386]
本稿では、サーバーレスコンピューティングにおけるDeep Reinforcement Learning(DRL)技術の適用について、包括的なレビューを行う。 DRLをサーバレスコンピューティングに適用する最近の研究の体系的なレビューが、さまざまなアルゴリズム、モデル、パフォーマンスについて紹介されている。分析の結果,DRLは環境から学習・適応する能力を有しており,機能スケジューリングと資源スケーリングの効率化に期待できる結果が得られた。
論文参考訳（メタデータ） (2023-10-05T09:26:04Z)
Benchmarking Robustness and Generalization in Multi-Agent Systems: A Case Study on Neural MMO [50.58083807719749]
IJCAI 2022で開催されている第2回Neural MMOチャレンジの結果を報告する。この競合はマルチエージェントシステムの堅牢性と一般化をターゲットにしている。環境ラッパー、ベースライン、可視化ツール、そしてさらなる研究のための選択されたポリシーを含むベンチマークをオープンソースにします。
論文参考訳（メタデータ） (2023-08-30T07:16:11Z)
Distributed Deep Learning in Open Collaborations [49.240611132653456]
協調学習に特化して設計された新しいアルゴリズムフレームワークを提案する。現実的な条件下でのSwaVとALBERTの事前学習に対するアプローチの有効性を実証し,コストのごく一部で従来の設定に匹敵する性能を実現する。
論文参考訳（メタデータ） (2021-06-18T16:23:13Z)
A Machine Learning Approach for Task and Resource Allocation in Mobile Edge Computing Based Networks [108.57859531628264]
無線ネットワークにおいて,共同作業,スペクトル,送信電力配分問題について検討する。提案アルゴリズムは、標準Q-ラーニングアルゴリズムと比較して、収束に必要なイテレーション数と全ユーザの最大遅延を最大18%、11.1%削減することができる。
論文参考訳（メタデータ） (2020-07-20T13:46:42Z)
Learning What to Defer for Maximum Independent Sets [84.00112106334655]
本稿では,各段階における解の要素的決定を学習することにより,エージェントが適応的に段階数を縮小あるいは拡張する,新たなDRL方式を提案する。提案手法を最大独立集合(MIS)問題に適用し、現状のDRL方式よりも大幅に改善したことを示す。
論文参考訳（メタデータ） (2020-06-17T02:19:31Z)
Multi-agent Reinforcement Learning for Resource Allocation in IoT networks with Edge Computing [16.129649374251088]
エンドユーザーが計算をオフロードするのは、スペクトルとリソースに対する大きな要求のためである。本稿では,IoTエッジコンピューティングネットワークにおけるリソース割り当てを伴うオフロード機構をゲームとして定式化することによって検討する。
論文参考訳（メタデータ） (2020-04-05T20:59:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。