Fugu-MT 論文翻訳(概要): A Distributed Framework for Causal Modeling of Performance Variability in GPU Traces

論文の概要: A Distributed Framework for Causal Modeling of Performance Variability in GPU Traces

arxiv url: http://arxiv.org/abs/2510.18300v1
Date: Tue, 21 Oct 2025 05:11:29 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-25 03:08:12.929417
Title: A Distributed Framework for Causal Modeling of Performance Variability in GPU Traces
Title（参考訳）: GPUトレースにおける性能変動の因果モデリングのための分散フレームワーク
Authors: Ankur Lahiry, Ayush Pokharel, Banooqa Banday, Seth Ockerman, Amal Gueroudji, Mohammad Zaeed, Tanzima Z. Islam, Line Pouchard,
Abstract要約: 本稿では,大規模GPUトレースの処理を効率的に行うために,エンドツーエンドの並列性能解析フレームワークを提案する。提案するフレームワークのパーティショニングとプロセスは並列にトレースデータを処理し,因果グラフ法と並列コーディネートチャートを用いて実行フロー間の性能変動と依存性を明らかにする。
参考スコア（独自算出の注目度）: 0.43340169930181155
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Large-scale GPU traces play a critical role in identifying performance bottlenecks within heterogeneous High-Performance Computing (HPC) architectures. However, the sheer volume and complexity of a single trace of data make performance analysis both computationally expensive and time-consuming. To address this challenge, we present an end-to-end parallel performance analysis framework designed to handle multiple large-scale GPU traces efficiently. Our proposed framework partitions and processes trace data concurrently and employs causal graph methods and parallel coordinating chart to expose performance variability and dependencies across execution flows. Experimental results demonstrate a 67% improvement in terms of scalability, highlighting the effectiveness of our pipeline for analyzing multiple traces independently.
Abstract（参考訳）: 大規模GPUトレースは、異種ハイパフォーマンスコンピューティング(HPC)アーキテクチャにおけるパフォーマンスボトルネックを特定する上で重要な役割を果たす。しかし、1つのデータトレースの量と複雑さは、計算コストと時間の両方でパフォーマンス解析を行う。この課題に対処するために,大規模GPUトレースの処理を効率的に行うように設計されたエンドツーエンド並列パフォーマンス分析フレームワークを提案する。提案するフレームワークのパーティショニングとプロセスは並列にトレースデータを処理し,因果グラフ法と並列コーディネートチャートを用いて実行フロー間の性能変動と依存性を明らかにする。実験の結果、スケーラビリティの面で67%の改善が示され、複数のトレースを独立して分析するためのパイプラインの有効性が強調された。

関連論文リスト

GPU-Accelerated Algorithms for Graph Vector Search: Taxonomy, Empirical Study, and Research Directions [54.570944939061555]
本稿では,GPU加速グラフに基づくベクトル探索アルゴリズムについて包括的に研究する。我々は、GPU最適化戦略の詳細な分類を確立し、アルゴリズムタスクとハードウェア実行ユニット間のマッピングを明確にする。我々の発見は、スケーラブルで堅牢なGPUベースの近接検索システムを設計するための明確なガイドラインを提供する。
論文参考訳（メタデータ） (2026-02-10T16:18:04Z)
Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。 BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文参考訳（メタデータ） (2025-11-04T01:15:44Z)
Flash-Searcher: Fast and Effective Web Agents via DAG-Based Parallel Execution [48.7788770680643]
Flash-Searcherは、新しい並列エージェント推論フレームワークである。複雑なタスクを明示的な依存関係でサブタスクに分解し、独立した推論パスの同時実行を可能にする。 BrowseCompでは67.7%の精度で、xbench-DeepSearchでは83%、エージェントの実行手順は現在のフレームワークに比べて最大35%削減されている。
論文参考訳（メタデータ） (2025-09-29T17:39:30Z)
Characterizing the Efficiency of Distributed Training: A Power, Performance, and Thermal Perspective [6.51239603014107]
大規模言語モデル(LLM)は、単一ノード分析の限界を超えて、トレーニングワークロードを推し進めている。様々な実世界のワークロードとハードウェアプラットフォームにわたるLLMトレーニングの包括的特徴について述べる。
論文参考訳（メタデータ） (2025-09-12T16:05:07Z)
Leveraging Neural Graph Compilers in Machine Learning Research for Edge-Cloud Systems [5.241450170761232]
この研究は、異種ハードウェアプラットフォーム間でのニューラルネットワークグラフコンパイラの包括的な評価を示す。系統解析により,グラフコンパイラは,ニューラルネットワークとバッチサイズの両方に依存する性能パターンを示すことがわかった。バッチサイズが大きくなるにつれて、パフォーマンスの摩擦を軽減するコンパイラの能力を定量化する新しいメトリクスを導入します。
論文参考訳（メタデータ） (2025-04-28T19:02:16Z)
Scaling Inter-procedural Dataflow Analysis on the Cloud [19.562864760293955]
大規模クラスタ上で動作するBigDataflowという分散フレームワークを開発しました。 BigDataflowは、数百万行のコードのプログラムを数分で分析する。
論文参考訳（メタデータ） (2024-12-17T06:18:56Z)
Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-29T19:02:54Z)
TimeGraphs: Graph-based Temporal Reasoning [64.18083371645956]
TimeGraphsは階層的時間グラフとして動的相互作用を特徴付ける新しいアプローチである。提案手法は,コンパクトなグラフベース表現を用いて相互作用をモデル化し,多種多様な時間スケールでの適応推論を可能にする。我々は,サッカーシミュレータ,抵抗ゲーム,MOMA人間活動データセットなど,複雑でダイナミックなエージェントインタラクションを持つ複数のデータセット上でTimeGraphsを評価する。
論文参考訳（メタデータ） (2024-01-06T06:26:49Z)
Performance Tuning for GPU-Embedded Systems: Machine-Learning-based and Analytical Model-driven Tuning Methodologies [0.0]
本研究は,分析モデル駆動型チューニング手法と機械学習(ML)に基づくチューニング手法を紹介する。 NVIDIA JetsonシステムにおけるBPLGライブラリの異なる並列プレフィックス実装のための2つのチューニング手法の性能評価を行った。
論文参考訳（メタデータ） (2023-10-24T22:09:03Z)
Performance Embeddings: A Similarity-based Approach to Automatic Performance Optimization [71.69092462147292]
パフォーマンス埋め込みは、アプリケーション間でパフォーマンスチューニングの知識伝達を可能にする。本研究では, 深層ニューラルネットワーク, 密度およびスパース線形代数合成, および数値風速予測ステンシルのケーススタディにおいて, この伝達チューニング手法を実証する。
論文参考訳（メタデータ） (2023-03-14T15:51:35Z)
Localized Contrastive Learning on Graphs [110.54606263711385]
局所グラフコントラスト学習(Local-GCL)という,シンプルだが効果的なコントラストモデルを導入する。その単純さにもかかわらず、Local-GCLは、様々なスケールと特性を持つグラフ上の自己教師付きノード表現学習タスクにおいて、非常に競争力のある性能を達成する。
論文参考訳（メタデータ） (2022-12-08T23:36:00Z)
Effective and Efficient Graph Learning for Multi-view Clustering [173.8313827799077]
マルチビュークラスタリングのための効率的かつ効率的なグラフ学習モデルを提案する。本手法はテンソルシャッテンp-ノルムの最小化により異なるビューのグラフ間のビュー類似性を利用する。提案アルゴリズムは時間経済であり,安定した結果を得るとともに,データサイズによく対応している。
論文参考訳（メタデータ） (2021-08-15T13:14:28Z)
IOHanalyzer: Detailed Performance Analyses for Iterative Optimization Heuristics [3.967483941966979]
IOHanalyzerは、IOHのパフォーマンスデータを分析、比較、視覚化するための新しいユーザフレンドリーなツールである。 IOHanalyzerは、固定目標実行時間とベンチマークアルゴリズムの固定予算性能に関する詳細な統計を提供する。 IOHanalyzerは、主要なベンチマークプラットフォームから直接パフォーマンスデータを処理できる。
論文参考訳（メタデータ） (2020-07-08T08:20:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。