論文の概要: A Test Taxonomy and Continuous Integration Ecosystem for Dynamic Resource Management in HPC
- arxiv url: http://arxiv.org/abs/2604.26824v1
- Date: Wed, 29 Apr 2026 15:49:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.474873
- Title: A Test Taxonomy and Continuous Integration Ecosystem for Dynamic Resource Management in HPC
- Title(参考訳): HPCにおける動的資源管理のための試験分類と継続的統合生態系
- Authors: Petter Sandås, Íñigo Aréjula-Aísa, Sergio Iserte, Antonio J. Peña,
- Abstract要約: 本稿では,動的リソース管理フレームワークをテストする方法論を紹介する。
MPI変換可能なライブラリのテストの分類と、HPC指向の継続的統合エコシステムを組み合わせる。
以上の結果から,提案手法は早期の故障検出を改善するとともに,依存関係の進化によるメンテナンスを簡略化し,他の可搬性ソリューションへ移行することを示す。
- 参考スコア(独自算出の注目度): 1.0509818060064853
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: High-performance computing (HPC) systems are increasingly exploring dynamic resource management and malleable MPI applications to better adapt to heterogeneous architectures, fluctuating workloads, and energy constraints. However, the correctness of the libraries that support these techniques is often evaluated through ad hoc experiments that can be difficult to reproduce and maintain. This article introduces methodology for testing dynamic resource management frameworks that combines a taxonomy of tests for MPI malleable libraries with an HPC-oriented continuous integration (CI) ecosystem. The taxonomy structures functional and non-functional tests at both component-integration and system levels. The CI ecosystem instantiates this taxonomy in a containerized virtual cluster enabling automated validation. The approach is instantiated and evaluated using the Dynamic Management of Resources (DMR) framework as a representative case study. Results show that the proposed methodology improves early fault detection, simplifies maintenance under evolving dependencies, and transfers to other malleability solutions that expose analogous primitives for initialization, readiness checking, and reconfiguration.
- Abstract(参考訳): ハイパフォーマンスコンピューティング(HPC)システムは、異種アーキテクチャ、変動するワークロード、エネルギー制約に適応するために、動的リソース管理と拡張可能なMPIアプリケーションを探求している。
しかし、これらの技術をサポートするライブラリの正しさは、しばしば再現や維持が難しいアドホックな実験によって評価される。
本稿では,MPI変換可能なライブラリに対するテストの分類とHPC指向の継続的インテグレーション(CI)エコシステムを組み合わせた動的リソース管理フレームワークのテスト手法を紹介する。
分類学的構造は、コンポーネント統合とシステムレベルの両方で機能的および非機能的テストである。
CIエコシステムは、この分類をコンテナ化された仮想クラスタでインスタンス化し、自動検証を可能にする。
このアプローチは、典型的なケーススタディとしてDynamic Management of Resources(DMR)フレームワークを使用してインスタンス化され、評価される。
その結果,提案手法は早期故障検出の改善,依存関係の進化によるメンテナンスの簡略化,および初期化,準備性チェック,再設定に類似したプリミティブを露出する他の可搬性ソリューションへの移行,などが示唆された。
関連論文リスト
- QUASAR: A Universal Autonomous System for Atomistic Simulation and a Benchmark of Its Capabilities [0.7519872646378835]
QUASARは、生産段階の科学的発見を促進するために設計された原子論シミュレーションのための普遍的な自律システムである。
我々は,光触媒スクリーニングや新規材料評価など,日常的な課題からフロンティア研究の課題まで,一連の3段階の課題に対してquariSARをベンチマークした。
その結果,quiSARはタスク固有の自動化フレームワークではなく,一般的な原子論的推論システムとして機能することが示唆された。
論文 参考訳(メタデータ) (2026-01-30T05:29:44Z) - AI Agent for Reverse-Engineering Legacy Finite-Difference Code and Translating to Devito [0.0]
本研究では,従来の有限差分実装のDevito環境への変換を容易にする統合AIフレームワークを開発する。
Retrieval-Augmented Generation (RAG)とオープンソースのLarge Language Modelsは、システムのハイブリッドLangGraphアーキテクチャにおいて、マルチステージ反復によって結合される。
論文 参考訳(メタデータ) (2026-01-26T11:31:00Z) - Bio-inspired Agentic Self-healing Framework for Resilient Distributed Computing Continuum Systems [4.003029907200818]
ReCiStは、分散コンピューティング継続システム(DCCS)のレジリエンスを実現するために設計された、バイオインスパイアされたエージェントによる自己修復フレームワークである。
ReCiStは、止血、炎症、増殖、再生の生物学的フェーズを、DCCSの包含、診断、メタ認知、知識の計算層に再構築する。
これら4つのレイヤは、自律的な障害分離、因果診断、適応的回復、言語モデル(LM)を利用した長期的な知識統合を行う。
論文 参考訳(メタデータ) (2026-01-01T13:30:38Z) - SelfAI: Building a Self-Training AI System with LLM Agents [79.10991818561907]
SelfAIは、高レベルの研究目的を標準化された実験構成に変換するためのUser Agentを組み合わせた、一般的なマルチエージェントプラットフォームである。
実験マネージャは、連続的なフィードバックのための構造化知識ベースを維持しながら、異種ハードウェアをまたいだ並列かつフォールトトレラントなトレーニングを編成する。
回帰、コンピュータビジョン、科学計算、医用画像、薬物発見ベンチマークなどを通じて、SelfAIは一貫して高いパフォーマンスを達成し、冗長な試行を減らしている。
論文 参考訳(メタデータ) (2025-11-29T09:18:39Z) - KAQG: A Knowledge-Graph-Enhanced RAG for Difficulty-Controlled Question Generation [0.0]
本研究は知識強化質問生成(KAQG)を紹介する。
項目応答理論(IRT)、ブルームの分類学、知識グラフをマルチエージェント検索拡張生成システムに統合する。
提案手法は, 項目難易度, 心理測定校正, 認知アライメントのきめ細かい制御を可能にすることによって, 既存の手法の限界を克服する。
論文 参考訳(メタデータ) (2025-05-12T14:42:19Z) - Edge-Cloud Collaborative Computing on Distributed Intelligence and Model Optimization: A Survey [58.50944604905037]
エッジクラウドコラボレーティブコンピューティング(ECCC)は、現代のインテリジェントアプリケーションの計算要求に対処するための重要なパラダイムとして登場した。
AIの最近の進歩、特にディープラーニングと大規模言語モデル(LLM)は、これらの分散システムの能力を劇的に向上させてきた。
この調査は、基本的なアーキテクチャ、技術の実現、新しいアプリケーションに関する構造化されたチュートリアルを提供する。
論文 参考訳(メタデータ) (2025-05-03T13:55:38Z) - Cooperative Resilience in Artificial Intelligence Multiagent Systems [2.0608564715600273]
本稿では, 協調レジリエンスの明確な定義とその定量化手法を提案する。
その結果は、集団システムが破壊に直面してどのように準備し、抵抗し、回復し、幸福を維持し、変革するかを分析する上で、レジリエンス指標の重要な役割を強調している。
論文 参考訳(メタデータ) (2024-09-20T03:28:48Z) - Provable Hierarchy-Based Meta-Reinforcement Learning [50.17896588738377]
HRLをメタRL設定で解析し、下流タスクで使用するメタトレーニング中に学習者が潜在階層構造を学習する。
我々は、この自然階層の標本効率の回復を保証し、抽出可能な楽観主義に基づくアルゴリズムとともに「多様性条件」を提供する。
我々の境界は、時間的・状態的・行動的抽象化などのHRL文献に共通する概念を取り入れており、我々の設定と分析が実際にHRLの重要な特徴を捉えていることを示唆している。
論文 参考訳(メタデータ) (2021-10-18T17:56:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。