論文の概要: GraphPerf-RT: A Graph-Driven Performance Model for Hardware-Aware Scheduling of OpenMP Codes
- arxiv url: http://arxiv.org/abs/2512.12091v1
- Date: Fri, 12 Dec 2025 23:46:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.115018
- Title: GraphPerf-RT: A Graph-Driven Performance Model for Hardware-Aware Scheduling of OpenMP Codes
- Title(参考訳): GraphPerf-RT:OpenMPコードのハードウェア対応スケジューリングのためのグラフ駆動パフォーマンスモデル
- Authors: Mohammad Pivezhandi, Mahdi Banisharif, Saeed Bakhshan, Abusayeed Saifullah, Ali Jannesari,
- Abstract要約: GraphPerf-RTは、タスクDAGトポロジ、CFG由来のコードセマンティクス、ランタイムコンテキストを統一する最初のサロゲートである。
組み込みARMプラットフォーム(Jetson TX2, Jetson Orin NX, RUBIK Pi)上でGraphPerf-RTを検証する。
実験の結果、GraphPerf-RTはモデルフリーのベースラインに比べて66%のステパン還元(0.97 +/- 0.35s)と82%のエネルギー還元(0.006 +/- 0.005J)を達成した。
- 参考スコア(独自算出の注目度): 7.204137900029132
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Performance prediction for OpenMP workloads on heterogeneous embedded SoCs is challenging due to complex interactions between task DAG structure, control-flow irregularity, cache and branch behavior, and thermal dynamics; classical heuristics struggle under workload irregularity, tabular regressors discard structural information, and model-free RL risks overheating resource-constrained devices. We introduce GraphPerf-RT, the first surrogate that unifies task DAG topology, CFG-derived code semantics, and runtime context (per-core DVFS, thermal state, utilization) in a heterogeneous graph representation with typed edges encoding precedence, placement, and contention. Multi-task evidential heads predict makespan, energy, cache and branch misses, and utilization with calibrated uncertainty (Normal-Inverse-Gamma), enabling risk-aware scheduling that filters low-confidence rollouts. We validate GraphPerf-RT on three embedded ARM platforms (Jetson TX2, Jetson Orin NX, RUBIK Pi), achieving R^2 > 0.95 with well-calibrated uncertainty (ECE < 0.05). To demonstrate end-to-end scheduling utility, we integrate the surrogate with four RL methods on Jetson TX2: single-agent model-free (SAMFRL), single-agent model-based (SAMBRL), multi-agent model-free (MAMFRL-D3QN), and multi-agent model-based (MAMBRL-D3QN). Experiments across 5 seeds (200 episodes each) show that MAMBRL-D3QN with GraphPerf-RT as the world model achieves 66% makespan reduction (0.97 +/- 0.35s) and 82% energy reduction (0.006 +/- 0.005J) compared to model-free baselines, demonstrating that accurate, uncertainty-aware surrogates enable effective model-based planning on thermally constrained embedded systems.
- Abstract(参考訳): タスクDAG構造、制御フローの不規則性、キャッシュとブランチの動作、熱力学、古典的ヒューリスティックスはワークロードの不規則性、タブ型回帰器は構造情報を破棄し、モデルフリーのRLリスクはリソース制約されたデバイスを過熱させる。
GraphPerf-RTはタスクDAGトポロジ、CFG由来のコードセマンティクス、実行時コンテキスト(コア毎のDVFS、熱状態、利用状況)を、先行、配置、競合を符号化した型付きエッジを持つ異種グラフ表現で統一する最初のサロゲートである。
マルチタスクの明らかなヘッドは、メースパン、エネルギ、キャッシュ、ブランチミスを予測し、キャリブレーションされた不確実性(Normal-Inverse-Gamma)で利用することで、低信頼のロールアウトをフィルタリングするリスク対応スケジューリングを可能にする。
我々は,3つの組み込みARMプラットフォーム (Jetson TX2, Jetson Orin NX, RUBIK Pi) 上でGraphPerf-RTを検証する。
エンドツーエンドスケジューリングの有用性を示すため,Jetson TX2では,単一エージェントモデルフリー(SAMFRL),単エージェントモデルベース(SAMBRL),マルチエージェントモデルフリー(MAMFRL-D3QN),マルチエージェントモデルベース(MAMBRL-D3QN)の4つのRLメソッドとサロゲートを統合した。
5つの種(各200話)にわたる実験では、世界モデルとしてGraphPerf-RTを用いたMAMBRL-D3QNは、モデルのないベースラインと比較して、66%のプロパン削減(0.97 +/- 0.35s)と82%のエネルギー削減(0.006 +/- 0.005J)を達成し、正確で不確実性を認識したサロゲートは、熱的に制約された組込みシステム上で効果的なモデルベースの計画を可能にすることを示した。
関連論文リスト
- Energy Scaling Laws for Diffusion Models: Quantifying Compute and Carbon Emissions in Image Generation [50.21021246855702]
本稿では,計算複雑性(FLOP)に基づく拡散モデルに対するGPUエネルギー消費予測のためのKaplanスケーリング法の適用法を提案する。
提案手法は, テキストエンコーディング, 反復的復号化, 復号化コンポーネントへの拡散モデル推論を分解し, 複数の推論ステップをまたいだ繰り返し実行により, 演算の復号化がエネルギー消費を支配しているという仮説を導いた。
この結果は拡散予測の計算バウンドの性質を検証し、持続可能なAIデプロイメント計画と炭素フットプリント推定の基礎を提供する。
論文 参考訳(メタデータ) (2025-11-21T08:12:47Z) - Agentic World Modeling for 6G: Near-Real-Time Generative State-Space Reasoning [70.56067503630486]
第6世代(6G)インテリジェンスは、流動的なトークン予測ではなく、想像と選択の能力を校正している、と我々は主張する。
We showed that WM-MS3M cuts mean absolute error (MAE) by 1.69% vs MS3M with 32% less parameters and similar latency, and achieve a 35-80% lower root mean squared error (RMSE) than attention/hybrid baselines with 2.3-4.1x faster inference。
論文 参考訳(メタデータ) (2025-11-04T17:22:22Z) - From Embeddings to Equations: Genetic-Programming Surrogates for Interpretable Transformer Classification [9.17282078449475]
本研究では, 冷凍トランスフォーマー埋め込みのシンボル代理モデルを用いて, キャリブレーションされた確率を持つコンパクトで監査可能な分類器について検討する。
5つのベンチマーク(SST2G、20NG、MNIST、CIFAR10、MSC17)では、ModernBERT、DINOv2、SigLIPの埋め込みがトレーニングセットに分割され、情報保存ビューに分割される。
協調型多集団遺伝プログラム(MEGP)は、これらの観点から付加的でクローズドなロジットプログラムを学ぶ。
論文 参考訳(メタデータ) (2025-09-16T02:17:04Z) - PRISM: Distributed Inference for Foundation Models at Edge [73.54372283220444]
PRISMは、エッジデバイス上での分散トランスフォーマー推論のための通信効率と計算アウェア戦略である。
ViT,BERT,GPT-2のPRISMを多種多様なデータセットで評価した。
論文 参考訳(メタデータ) (2025-07-16T11:25:03Z) - Constraints and Variables Reduction for Optimal Power Flow Using Hierarchical Graph Neural Networks with Virtual Node-Splitting [0.24554686192257422]
パワーシステムネットワークは、しばしば同質グラフとしてモデル化され、グラフニューラルネットワーク(GNN)が同一ノードで個々のジェネレータ機能をキャプチャする能力を制限する。
提案した仮想ノード分割戦略を導入することで、コスト、制限、ランプレートといったジェネレータレベルの特性をGNNモデルで完全に捉えることができる。
二段階適応階層型GNNは、(i)混雑する臨界線を予測し、(ii)最大容量で作動するベースジェネレータを予測するために開発された。
論文 参考訳(メタデータ) (2024-11-09T19:46:28Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z) - Application Performance Modeling via Tensor Completion [6.399089940376445]
これらのテンソルの近似には,低ランクカノニカル・ポリジウムテンソル分解が有効であることを示す。
次に、観測実行時間の少ない集合からCP分解を最適化するためにテンソル補完を用いる。
論文 参考訳(メタデータ) (2022-10-18T22:12:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。