論文の概要: What Artificial Intelligence can do for High-Performance Computing systems?
- arxiv url: http://arxiv.org/abs/2602.00014v1
- Date: Sat, 03 Jan 2026 19:25:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 02:03:42.195797
- Title: What Artificial Intelligence can do for High-Performance Computing systems?
- Title(参考訳): 高性能コンピューティングシステムに人工知能は何ができるか?
- Authors: Pierrick Pochelu, Hyacinthe Cartiaux, Julien Schleich,
- Abstract要約: 本稿では、機械学習(ML)や最適化を含む人工(AI)が、運用用HPCシステムの効率をどのように改善するかを評価する。
2019年から2025年までの約1,800の出版物は、事前に定義された包括的・排他的基準を用いて手動で審査された。
74の"AI for HPC"論文は、パフォーマンス推定、パフォーマンス最適化、スケジューリング、サロゲートモデリング、障害検出、言語モデルに基づく自動化の6つのアプリケーション領域にまとめられ、グループ化された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-performance computing (HPC) centers consume substantial power, incurring environmental and operational costs. This review assesses how artificial intelligence (AI), including machine learning (ML) and optimization, improves the efficiency of operational HPC systems. Approximately 1,800 publications from 2019 to 2025 were manually screened using predefined inclusion/exclusion criteria; 74 "AI for HPC" papers were retained and grouped into six application areas: performance estimation, performance optimization, scheduling, surrogate modeling, fault detection, and language-model-based automation. Scheduling is the most active area, spanning research-oriented reinforcement-learning schedulers to production-friendly hybrids that combine ML with heuristics. Supervised performance estimation is foundational for both scheduling and optimization. Graph neural networks and time-series models strengthen anomaly detection by capturing spatio-temporal dependencies in production telemetry. Domain-specialized language models for HPC can outperform general-purpose LLMs on targeted coding and automation tasks. Together, these findings highlight integration opportunities such as LLM-based operating-system concepts and underscore the need for advances in MLOps, standardization of AI components, and benchmarking methodology.
- Abstract(参考訳): 高性能コンピューティング(HPC)センターは相当な電力を消費し、環境と運用のコストを発生させる。
このレビューでは、機械学習(ML)や最適化を含む人工知能(AI)が、運用用HPCシステムの効率をどのように改善するかを評価する。
74の"AI for HPC"論文は、パフォーマンス推定、パフォーマンス最適化、スケジューリング、サロゲートモデリング、障害検出、言語モデルベースの自動化の6つのアプリケーション領域にまとめられた。
スケジューリングは最も活発な分野であり、研究指向の強化学習スケジューラから、MLとヒューリスティックを組み合わせたプロダクションフレンドリーなハイブリッドまでをカバーしている。
監視された性能推定は、スケジューリングと最適化の両方に基礎を置いている。
グラフニューラルネットワークと時系列モデルは、生産テレメトリにおける時空間依存性をキャプチャすることで異常検出を強化する。
HPC用のドメイン特化言語モデルは、ターゲットとするコーディングや自動化タスクにおいて汎用LLMよりも優れている。
これらの発見は、LLMベースのオペレーティングシステムの概念のような統合の機会を強調し、MLOpsの進歩、AIコンポーネントの標準化、ベンチマーク方法論の必要性を強調している。
関連論文リスト
- SelfAI: Building a Self-Training AI System with LLM Agents [79.10991818561907]
SelfAIは、高レベルの研究目的を標準化された実験構成に変換するためのUser Agentを組み合わせた、一般的なマルチエージェントプラットフォームである。
実験マネージャは、連続的なフィードバックのための構造化知識ベースを維持しながら、異種ハードウェアをまたいだ並列かつフォールトトレラントなトレーニングを編成する。
回帰、コンピュータビジョン、科学計算、医用画像、薬物発見ベンチマークなどを通じて、SelfAIは一貫して高いパフォーマンスを達成し、冗長な試行を減らしている。
論文 参考訳(メタデータ) (2025-11-29T09:18:39Z) - Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - Evaluating the Efficacy of LLM-Based Reasoning for Multiobjective HPC Job Scheduling [6.375075345747834]
ReActスタイルフレームワークを用いたLarge Language Model (LLM)ベースのスケジューラ(Reason + Act)
Systemはスクラッチパッドメモリを内蔵し、スケジューリング履歴を追跡し、自然言語のフィードバックを通じて決定を洗練する。
我々は,OpenAI の O4-Mini と Anthropic の Claude 3.7 を用いて,実世界の7つの HPC ワークロードシナリオに対してアプローチを評価した。
論文 参考訳(メタデータ) (2025-05-29T14:25:29Z) - LAPSO: A Unified Optimization View for Learning-Augmented Power System Operations [3.754570687412345]
本稿では,LAPSO(Learning-Augmented Power System Operations)の総合的枠組みを提案する。
LAPSOは運用段階を中心におり、時間的にサイロ化された電力系統のタスクの境界線を断ち切ることを目的としている。
学習可能なコンポーネントで既存のパワーシステム最適化モデルを自動的に拡張するために、専用のPythonパッケージ-lapsoが導入された。
論文 参考訳(メタデータ) (2025-05-08T13:00:24Z) - Edge-Cloud Collaborative Computing on Distributed Intelligence and Model Optimization: A Survey [58.50944604905037]
エッジクラウドコラボレーティブコンピューティング(ECCC)は、現代のインテリジェントアプリケーションの計算要求に対処するための重要なパラダイムとして登場した。
AIの最近の進歩、特にディープラーニングと大規模言語モデル(LLM)は、これらの分散システムの能力を劇的に向上させてきた。
この調査は、基本的なアーキテクチャ、技術の実現、新しいアプリケーションに関する構造化されたチュートリアルを提供する。
論文 参考訳(メタデータ) (2025-05-03T13:55:38Z) - DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。
活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。
DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文 参考訳(メタデータ) (2024-11-04T18:26:08Z) - Machine Learning Insides OptVerse AI Solver: Design Principles and
Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。
本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。
本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文 参考訳(メタデータ) (2024-01-11T15:02:15Z) - Deep reinforcement learning for machine scheduling: Methodology, the
state-of-the-art, and future directions [2.4541568670428915]
マシンスケジューリングは、製造ルールとジョブ仕様に準拠しながら、マシンへのジョブ割り当てを最適化することを目的としている。
人工知能の重要な構成要素であるDeep Reinforcement Learning (DRL)は、ゲームやロボティクスなど、さまざまな分野において有望であることを示している。
本稿では、DRLに基づくアプローチの総合的なレビューと比較を行い、その方法論、応用、利点、限界を明らかにする。
論文 参考訳(メタデータ) (2023-10-04T22:45:09Z) - AxOMaP: Designing FPGA-based Approximate Arithmetic Operators using
Mathematical Programming [2.898055875927704]
FPGAの近似演算子を合成するための,データ解析による数学的プログラミングに基づく手法を提案する。
具体的には、特徴量データの相関解析の結果に基づいて、混合整数の2次制約付きプログラムを定式化する。
従来の進化的アルゴリズムによる最適化と比較して,PPAとBEHAVの併用最適化において,ハイパーボリュームの最大21%の改善が報告されている。
論文 参考訳(メタデータ) (2023-09-23T18:23:54Z) - Reconfigurable Intelligent Surface Assisted Mobile Edge Computing with
Heterogeneous Learning Tasks [53.1636151439562]
モバイルエッジコンピューティング(MEC)は、AIアプリケーションに自然なプラットフォームを提供します。
再構成可能なインテリジェントサーフェス(RIS)の助けを借りて、MECで機械学習タスクを実行するインフラストラクチャを提示します。
具体的には,モバイルユーザの送信パワー,基地局のビームフォーミングベクトル,risの位相シフト行列を共同で最適化することにより,参加ユーザの学習誤差を最小化する。
論文 参考訳(メタデータ) (2020-12-25T07:08:50Z) - AIPerf: Automated machine learning as an AI-HPC benchmark [17.57686674304368]
自動機械学習(AutoML)を利用したエンドツーエンドベンチマークスイートを提案する。
アルゴリズムを並列かつ柔軟な方法で実装し、多様なシステムにおける効率性と最適化の可能性を保証する。
フレキシブルなワークロードと単一のメトリックによって、私たちのベンチマークはAI-HPCのスケールとランク付けが容易になります。
論文 参考訳(メタデータ) (2020-08-17T08:06:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。