論文の概要: A Distributed Framework for Causal Modeling of Performance Variability in GPU Traces
- arxiv url: http://arxiv.org/abs/2510.18300v1
- Date: Tue, 21 Oct 2025 05:11:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.929417
- Title: A Distributed Framework for Causal Modeling of Performance Variability in GPU Traces
- Title(参考訳): GPUトレースにおける性能変動の因果モデリングのための分散フレームワーク
- Authors: Ankur Lahiry, Ayush Pokharel, Banooqa Banday, Seth Ockerman, Amal Gueroudji, Mohammad Zaeed, Tanzima Z. Islam, Line Pouchard,
- Abstract要約: 本稿では,大規模GPUトレースの処理を効率的に行うために,エンドツーエンドの並列性能解析フレームワークを提案する。
提案するフレームワークのパーティショニングとプロセスは並列にトレースデータを処理し,因果グラフ法と並列コーディネートチャートを用いて実行フロー間の性能変動と依存性を明らかにする。
- 参考スコア(独自算出の注目度): 0.43340169930181155
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large-scale GPU traces play a critical role in identifying performance bottlenecks within heterogeneous High-Performance Computing (HPC) architectures. However, the sheer volume and complexity of a single trace of data make performance analysis both computationally expensive and time-consuming. To address this challenge, we present an end-to-end parallel performance analysis framework designed to handle multiple large-scale GPU traces efficiently. Our proposed framework partitions and processes trace data concurrently and employs causal graph methods and parallel coordinating chart to expose performance variability and dependencies across execution flows. Experimental results demonstrate a 67% improvement in terms of scalability, highlighting the effectiveness of our pipeline for analyzing multiple traces independently.
- Abstract(参考訳): 大規模GPUトレースは、異種ハイパフォーマンスコンピューティング(HPC)アーキテクチャにおけるパフォーマンスボトルネックを特定する上で重要な役割を果たす。
しかし、1つのデータトレースの量と複雑さは、計算コストと時間の両方でパフォーマンス解析を行う。
この課題に対処するために,大規模GPUトレースの処理を効率的に行うように設計されたエンドツーエンド並列パフォーマンス分析フレームワークを提案する。
提案するフレームワークのパーティショニングとプロセスは並列にトレースデータを処理し,因果グラフ法と並列コーディネートチャートを用いて実行フロー間の性能変動と依存性を明らかにする。
実験の結果、スケーラビリティの面で67%の改善が示され、複数のトレースを独立して分析するためのパイプラインの有効性が強調された。
関連論文リスト
- Flash-Searcher: Fast and Effective Web Agents via DAG-Based Parallel Execution [48.7788770680643]
Flash-Searcherは、新しい並列エージェント推論フレームワークである。
複雑なタスクを明示的な依存関係でサブタスクに分解し、独立した推論パスの同時実行を可能にする。
BrowseCompでは67.7%の精度で、xbench-DeepSearchでは83%、エージェントの実行手順は現在のフレームワークに比べて最大35%削減されている。
論文 参考訳(メタデータ) (2025-09-29T17:39:30Z) - Characterizing the Efficiency of Distributed Training: A Power, Performance, and Thermal Perspective [6.51239603014107]
大規模言語モデル(LLM)は、単一ノード分析の限界を超えて、トレーニングワークロードを推し進めている。
様々な実世界のワークロードとハードウェアプラットフォームにわたるLLMトレーニングの包括的特徴について述べる。
論文 参考訳(メタデータ) (2025-09-12T16:05:07Z) - Leveraging Neural Graph Compilers in Machine Learning Research for Edge-Cloud Systems [5.241450170761232]
この研究は、異種ハードウェアプラットフォーム間でのニューラルネットワークグラフコンパイラの包括的な評価を示す。
系統解析により,グラフコンパイラは,ニューラルネットワークとバッチサイズの両方に依存する性能パターンを示すことがわかった。
バッチサイズが大きくなるにつれて、パフォーマンスの摩擦を軽減するコンパイラの能力を定量化する新しいメトリクスを導入します。
論文 参考訳(メタデータ) (2025-04-28T19:02:16Z) - Scaling Inter-procedural Dataflow Analysis on the Cloud [19.562864760293955]
大規模クラスタ上で動作するBigDataflowという分散フレームワークを開発しました。
BigDataflowは、数百万行のコードのプログラムを数分で分析する。
論文 参考訳(メタデータ) (2024-12-17T06:18:56Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - TimeGraphs: Graph-based Temporal Reasoning [64.18083371645956]
TimeGraphsは階層的時間グラフとして動的相互作用を特徴付ける新しいアプローチである。
提案手法は,コンパクトなグラフベース表現を用いて相互作用をモデル化し,多種多様な時間スケールでの適応推論を可能にする。
我々は,サッカーシミュレータ,抵抗ゲーム,MOMA人間活動データセットなど,複雑でダイナミックなエージェントインタラクションを持つ複数のデータセット上でTimeGraphsを評価する。
論文 参考訳(メタデータ) (2024-01-06T06:26:49Z) - Performance Embeddings: A Similarity-based Approach to Automatic
Performance Optimization [71.69092462147292]
パフォーマンス埋め込みは、アプリケーション間でパフォーマンスチューニングの知識伝達を可能にする。
本研究では, 深層ニューラルネットワーク, 密度およびスパース線形代数合成, および数値風速予測ステンシルのケーススタディにおいて, この伝達チューニング手法を実証する。
論文 参考訳(メタデータ) (2023-03-14T15:51:35Z) - Localized Contrastive Learning on Graphs [110.54606263711385]
局所グラフコントラスト学習(Local-GCL)という,シンプルだが効果的なコントラストモデルを導入する。
その単純さにもかかわらず、Local-GCLは、様々なスケールと特性を持つグラフ上の自己教師付きノード表現学習タスクにおいて、非常に競争力のある性能を達成する。
論文 参考訳(メタデータ) (2022-12-08T23:36:00Z) - Effective and Efficient Graph Learning for Multi-view Clustering [173.8313827799077]
マルチビュークラスタリングのための効率的かつ効率的なグラフ学習モデルを提案する。
本手法はテンソルシャッテンp-ノルムの最小化により異なるビューのグラフ間のビュー類似性を利用する。
提案アルゴリズムは時間経済であり,安定した結果を得るとともに,データサイズによく対応している。
論文 参考訳(メタデータ) (2021-08-15T13:14:28Z) - IOHanalyzer: Detailed Performance Analyses for Iterative Optimization
Heuristics [3.967483941966979]
IOHanalyzerは、IOHのパフォーマンスデータを分析、比較、視覚化するための新しいユーザフレンドリーなツールである。
IOHanalyzerは、固定目標実行時間とベンチマークアルゴリズムの固定予算性能に関する詳細な統計を提供する。
IOHanalyzerは、主要なベンチマークプラットフォームから直接パフォーマンスデータを処理できる。
論文 参考訳(メタデータ) (2020-07-08T08:20:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。