論文の概要: What Artificial Intelligence can do for High-Performance Computing systems?
- arxiv url: http://arxiv.org/abs/2602.00014v1
- Date: Sat, 03 Jan 2026 19:25:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 02:03:42.195797
- Title: What Artificial Intelligence can do for High-Performance Computing systems?
- Title(参考訳): 高性能コンピューティングシステムに人工知能は何ができるか?
- Authors: Pierrick Pochelu, Hyacinthe Cartiaux, Julien Schleich,
- Abstract要約: 本稿では、機械学習(ML)や最適化を含む人工(AI)が、運用用HPCシステムの効率をどのように改善するかを評価する。
2019年から2025年までの約1,800の出版物は、事前に定義された包括的・排他的基準を用いて手動で審査された。
74の"AI for HPC"論文は、パフォーマンス推定、パフォーマンス最適化、スケジューリング、サロゲートモデリング、障害検出、言語モデルに基づく自動化の6つのアプリケーション領域にまとめられ、グループ化された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-performance computing (HPC) centers consume substantial power, incurring environmental and operational costs. This review assesses how artificial intelligence (AI), including machine learning (ML) and optimization, improves the efficiency of operational HPC systems. Approximately 1,800 publications from 2019 to 2025 were manually screened using predefined inclusion/exclusion criteria; 74 "AI for HPC" papers were retained and grouped into six application areas: performance estimation, performance optimization, scheduling, surrogate modeling, fault detection, and language-model-based automation. Scheduling is the most active area, spanning research-oriented reinforcement-learning schedulers to production-friendly hybrids that combine ML with heuristics. Supervised performance estimation is foundational for both scheduling and optimization. Graph neural networks and time-series models strengthen anomaly detection by capturing spatio-temporal dependencies in production telemetry. Domain-specialized language models for HPC can outperform general-purpose LLMs on targeted coding and automation tasks. Together, these findings highlight integration opportunities such as LLM-based operating-system concepts and underscore the need for advances in MLOps, standardization of AI components, and benchmarking methodology.
- Abstract(参考訳): 高性能コンピューティング(HPC)センターは相当な電力を消費し、環境と運用のコストを発生させる。
このレビューでは、機械学習(ML)や最適化を含む人工知能(AI)が、運用用HPCシステムの効率をどのように改善するかを評価する。
74の"AI for HPC"論文は、パフォーマンス推定、パフォーマンス最適化、スケジューリング、サロゲートモデリング、障害検出、言語モデルベースの自動化の6つのアプリケーション領域にまとめられた。
スケジューリングは最も活発な分野であり、研究指向の強化学習スケジューラから、MLとヒューリスティックを組み合わせたプロダクションフレンドリーなハイブリッドまでをカバーしている。
監視された性能推定は、スケジューリングと最適化の両方に基礎を置いている。
グラフニューラルネットワークと時系列モデルは、生産テレメトリにおける時空間依存性をキャプチャすることで異常検出を強化する。
HPC用のドメイン特化言語モデルは、ターゲットとするコーディングや自動化タスクにおいて汎用LLMよりも優れている。
これらの発見は、LLMベースのオペレーティングシステムの概念のような統合の機会を強調し、MLOpsの進歩、AIコンポーネントの標準化、ベンチマーク方法論の必要性を強調している。
関連論文リスト
- Evaluating the Efficacy of LLM-Based Reasoning for Multiobjective HPC Job Scheduling [6.375075345747834]
ReActスタイルフレームワークを用いたLarge Language Model (LLM)ベースのスケジューラ(Reason + Act)
Systemはスクラッチパッドメモリを内蔵し、スケジューリング履歴を追跡し、自然言語のフィードバックを通じて決定を洗練する。
我々は,OpenAI の O4-Mini と Anthropic の Claude 3.7 を用いて,実世界の7つの HPC ワークロードシナリオに対してアプローチを評価した。
論文 参考訳(メタデータ) (2025-05-29T14:25:29Z) - LAPSO: A Unified Optimization View for Learning-Augmented Power System Operations [3.754570687412345]
本稿では,LAPSO(Learning-Augmented Power System Operations)の総合的枠組みを提案する。
LAPSOは運用段階を中心におり、時間的にサイロ化された電力系統のタスクの境界線を断ち切ることを目的としている。
学習可能なコンポーネントで既存のパワーシステム最適化モデルを自動的に拡張するために、専用のPythonパッケージ-lapsoが導入された。
論文 参考訳(メタデータ) (2025-05-08T13:00:24Z) - Edge-Cloud Collaborative Computing on Distributed Intelligence and Model Optimization: A Survey [58.50944604905037]
エッジクラウドコラボレーティブコンピューティング(ECCC)は、現代のインテリジェントアプリケーションの計算要求に対処するための重要なパラダイムとして登場した。
AIの最近の進歩、特にディープラーニングと大規模言語モデル(LLM)は、これらの分散システムの能力を劇的に向上させてきた。
この調査は、基本的なアーキテクチャ、技術の実現、新しいアプリケーションに関する構造化されたチュートリアルを提供する。
論文 参考訳(メタデータ) (2025-05-03T13:55:38Z) - Machine Learning Insides OptVerse AI Solver: Design Principles and
Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。
本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。
本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文 参考訳(メタデータ) (2024-01-11T15:02:15Z) - Deep reinforcement learning for machine scheduling: Methodology, the
state-of-the-art, and future directions [2.4541568670428915]
マシンスケジューリングは、製造ルールとジョブ仕様に準拠しながら、マシンへのジョブ割り当てを最適化することを目的としている。
人工知能の重要な構成要素であるDeep Reinforcement Learning (DRL)は、ゲームやロボティクスなど、さまざまな分野において有望であることを示している。
本稿では、DRLに基づくアプローチの総合的なレビューと比較を行い、その方法論、応用、利点、限界を明らかにする。
論文 参考訳(メタデータ) (2023-10-04T22:45:09Z) - AxOMaP: Designing FPGA-based Approximate Arithmetic Operators using
Mathematical Programming [2.898055875927704]
FPGAの近似演算子を合成するための,データ解析による数学的プログラミングに基づく手法を提案する。
具体的には、特徴量データの相関解析の結果に基づいて、混合整数の2次制約付きプログラムを定式化する。
従来の進化的アルゴリズムによる最適化と比較して,PPAとBEHAVの併用最適化において,ハイパーボリュームの最大21%の改善が報告されている。
論文 参考訳(メタデータ) (2023-09-23T18:23:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。