論文の概要: Attention-Informed Surrogates for Navigating Power-Performance Trade-offs in HPC
- arxiv url: http://arxiv.org/abs/2601.15399v1
- Date: Wed, 21 Jan 2026 19:11:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.392316
- Title: Attention-Informed Surrogates for Navigating Power-Performance Trade-offs in HPC
- Title(参考訳): HPCにおける省電力トレードオフのための注意インフォームドサロゲート
- Authors: Ashna Nawar Ahmed, Banooqa Banday, Terry Jones, Tanzima Z. Islam,
- Abstract要約: 本稿では、この複雑な決定を自動化するために、サロゲート支援多目的ベイズ最適化(MOBO)フレームワークを提案する。
我々の中心となる仮説は、作業テレメトリの注意に基づく埋め込みによって得られるサロゲートモデルが、標準的な回帰手法よりもパフォーマンスのダイナミクスを効果的に捉えることができるというものである。
我々の知る限り、これはHPCスケジューリング問題に対してMOBOフレームワークに埋め込みインフォームドサロゲートをうまく適用する最初の試みである。
- 参考スコア(独自算出の注目度): 0.5219568203653523
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: High-Performance Computing (HPC) schedulers must balance user performance with facility-wide resource constraints. The task boils down to selecting the optimal number of nodes for a given job. We present a surrogate-assisted multi-objective Bayesian optimization (MOBO) framework to automate this complex decision. Our core hypothesis is that surrogate models informed by attention-based embeddings of job telemetry can capture performance dynamics more effectively than standard regression techniques. We pair this with an intelligent sample acquisition strategy to ensure the approach is data-efficient. On two production HPC datasets, our embedding-informed method consistently identified higher-quality Pareto fronts of runtime-power trade-offs compared to baselines. Furthermore, our intelligent data sampling strategy drastically reduced training costs while improving the stability of the results. To our knowledge, this is the first work to successfully apply embedding-informed surrogates in a MOBO framework to the HPC scheduling problem, jointly optimizing for performance and power on production workloads.
- Abstract(参考訳): ハイパフォーマンスコンピューティング(HPC)スケジューラは、ユーザパフォーマンスと施設全体のリソース制約のバランスをとる必要がある。
タスクは、与えられたジョブに対して最適なノード数を選択することから始まります。
本稿では、この複雑な決定を自動化するために、サロゲート支援多目的ベイズ最適化(MOBO)フレームワークを提案する。
我々の中心となる仮説は、作業テレメトリの注意に基づく埋め込みによって得られるサロゲートモデルが、標準的な回帰手法よりもパフォーマンスのダイナミクスを効果的に捉えることができるというものである。
これをインテリジェントなサンプル取得戦略と組み合わせて、アプローチがデータ効率であることを保証する。
2つの実運用HPCデータセット上では,組込みインフォームド手法により,ベースラインと比較して高品質なパレートのトレードオフを一貫して検出した。
さらに、我々のインテリジェントデータサンプリング戦略は、トレーニングコストを大幅に削減し、結果の安定性を改善した。
我々の知る限り、これはMOBOフレームワークに組込みインフォームされたサロゲートをHPCスケジューリング問題に適用し、プロダクションワークロードのパフォーマンスとパワーを共同で最適化する最初の試みである。
関連論文リスト
- LeJOT: An Intelligent Job Cost Orchestration Solution for Databricks Platform [28.16213013287002]
私たちは、DatabricksジョブのためのインテリジェントなジョブコストオーケストレーションフレームワークであるLeJOTを紹介します。
LeJOTは、ワークロードの要求を積極的に予測し、動的にコンピューティングリソースを割り当て、コストを最小化する。
我々は,1分間のスケジューリング時間内で,LJOTが平均20%のクラウドコンピューティングコスト削減を実現していることを示す。
論文 参考訳(メタデータ) (2025-12-20T08:09:58Z) - Evaluating the Efficacy of LLM-Based Reasoning for Multiobjective HPC Job Scheduling [6.375075345747834]
ReActスタイルフレームワークを用いたLarge Language Model (LLM)ベースのスケジューラ(Reason + Act)
Systemはスクラッチパッドメモリを内蔵し、スケジューリング履歴を追跡し、自然言語のフィードバックを通じて決定を洗練する。
我々は,OpenAI の O4-Mini と Anthropic の Claude 3.7 を用いて,実世界の7つの HPC ワークロードシナリオに対してアプローチを評価した。
論文 参考訳(メタデータ) (2025-05-29T14:25:29Z) - Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。
大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。
統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文 参考訳(メタデータ) (2025-05-13T16:47:00Z) - DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal [55.13854171147104]
大規模言語モデル(LLM)は、自然言語処理、データ分析、ソフトウェア開発など、さまざまな領域に革命をもたらした。
符号化エージェントのための新しい推論時間計算スケーリングアプローチである動的アクション再サンプリング(DARS)を提案する。
我々は、SWE-Bench Liteベンチマークに対する我々のアプローチを評価し、このスケーリング戦略がClude 3.5 Sonnet V2で55%のパス@kスコアを達成したことを実証した。
論文 参考訳(メタデータ) (2025-03-18T14:02:59Z) - Learning-enabled Flexible Job-shop Scheduling for Scalable Smart
Manufacturing [11.509669981978874]
スマートマニュファクチャリングシステムでは、生産性を最大化するためのソリューションを最適化するために、輸送制約付きフレキシブルなジョブショップスケジューリングが不可欠である。
近年, 深部強化学習(DRL)に基づくFJSPT法の開発が, 大規模一般化の課題に直面している。
Heterogeneous Graph Scheduler (HGS) と呼ばれる新しいグラフベースのDRL法を導入する。
論文 参考訳(メタデータ) (2024-02-14T06:49:23Z) - Machine Learning Insides OptVerse AI Solver: Design Principles and
Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。
本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。
本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文 参考訳(メタデータ) (2024-01-11T15:02:15Z) - Orchestration of Emulator Assisted Mobile Edge Tuning for AI Foundation
Models: A Multi-Agent Deep Reinforcement Learning Approach [10.47302625959368]
我々は,モバイルエッジコンピューティングと基礎モデルを統合した画期的なパラダイムを提示する。
私たちのアプローチの中心はイノベーティブなEmulator-Adapterアーキテクチャであり、基礎モデルを2つの凝集モジュールに分割する。
本稿では,分散環境におけるEmulator-Adapter構造のニーズに合わせて微調整された高度なリソース割り当て機構を提案する。
論文 参考訳(メタデータ) (2023-10-26T15:47:51Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - On Effective Scheduling of Model-based Reinforcement Learning [53.027698625496015]
実データ比率を自動的にスケジュールするAutoMBPOというフレームワークを提案する。
本稿ではまず,政策訓練における実データの役割を理論的に分析し,実際のデータの比率を徐々に高めれば,より優れた性能が得られることを示唆する。
論文 参考訳(メタデータ) (2021-11-16T15:24:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。