論文の概要: GCL-Sampler: Discovering Kernel Similarity for Sampled GPU Simulation via Graph Contrastive Learning
- arxiv url: http://arxiv.org/abs/2603.00551v1
- Date: Sat, 28 Feb 2026 09:03:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.257927
- Title: GCL-Sampler: Discovering Kernel Similarity for Sampled GPU Simulation via Graph Contrastive Learning
- Title(参考訳): GCL-Sampler:グラフコントラスト学習によるサンプリングGPUシミュレーションのカーネル類似性発見
- Authors: Jiaqi Wang, Jingwei Sun, Jiyu Luo, Han Li, Guangzhong Sun,
- Abstract要約: GCL-Samplerは、プログラム実行のリッチな構造とセマンティックな特性をキャプチャする。
GCL-Samplerは、0.37%のエラーで全ワークロードに対して平均258.94倍のスピードアップを達成した。
- 参考スコア(独自算出の注目度): 16.481039931473422
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: GPU architectural simulation is orders of magnitude slower than native execution, necessitating workload sampling for practical speedups. Existing methods rely on hand-crafted features with limited expressiveness, yielding either aggressive sampling with high errors or conservative sampling with constrained speedups. To address these issues, we propose GCL-Sampler, a sampling framework that leverages Relational Graph Convolutional Networks with contrastive learning to automatically discover high-dimensional kernel similarities from trace graphs. By encoding instruction sequences and data dependencies into graph embeddings, GCL-Sampler captures rich structural and semantic properties of program execution, enabling both high fidelity and substantial speedup. Evaluations on extensive benchmarks show that GCL-Sampler achieves 258.94x average speedup against full workload with 0.37% error, outperforming state-of-the-art methods, PKA (129.23x, 20.90%), Sieve (94.90x, 4.10%) and STEM+ROOT (56.57x, 0.38%).
- Abstract(参考訳): GPUアーキテクチャシミュレーションは、ネイティブ実行よりも桁違い遅く、実用的なスピードアップのためにワークロードサンプリングを必要とする。
既存の手法は表現力に制限のある手作りの特徴に依存しており、高い誤差でアグレッシブなサンプリングを行うか、制限されたスピードアップで保守的なサンプリングを行う。
これらの問題に対処するために,リレーショナルグラフ畳み込みネットワークを利用したサンプリングフレームワークであるGCL-Samplerを提案し,トレースグラフから高次元のカーネル類似性を自動検出する。
命令シーケンスとデータ依存関係をグラフ埋め込みにエンコードすることで、GCL-Samplerはプログラム実行のリッチな構造的およびセマンティックな特性をキャプチャし、高い忠実さと実質的なスピードアップを実現する。
GCL-Samplerの評価によれば、GCL-Samplerは、エラーが0.37%、最先端のPKA(129.23x, 20.90%)、シーヴ(94.90x, 4.10%)、STEM+ROOT(56.57x, 0.38%)で、全ワークロードに対して平均258.94倍のスピードアップを達成した。
関連論文リスト
- dParallel: Learnable Parallel Decoding for dLLMs [77.24184219948337]
拡散大言語モデル(dLLM)は並列トークン予測と低推論遅延を提供する。
既存のオープンソースモデルは、パフォーマンスを確保するためにトークン長のデコードステップをほとんど必要としています。
高速サンプリングのためにdLLMs固有の並列性を解き放つシンプルで効果的な方法であるdParallelを導入する。
論文 参考訳(メタデータ) (2025-09-30T16:32:52Z) - NeuroScalar: A Deep Learning Framework for Fast, Accurate, and In-the-Wild Cycle-Level Performance Prediction [18.863968099669364]
本稿では,生産ハードウェア上での高忠実なインザワイルドシミュレーションのための新しいディープラーニングフレームワークを提案する。
我々のコアコントリビューションは、仮説プロセッサ設計のためのサイクルレベルの性能を予測するために、マイクロアーキテクチャに依存しない機能に基づいて訓練されたDLモデルである。
このフレームワークは,大規模なハードウェアA/Bテストと正確な性能解析を可能にすることを実証する。
論文 参考訳(メタデータ) (2025-09-26T14:36:06Z) - GPU-Accelerated Interpretable Generalization for Rapid Cyberattack Detection and Forensics [0.0]
IGメカニズムは最近IEEE Transactions on Information Forensics and Securityで公開され、最先端のエビデンスベースの侵入検知を提供する。
我々は、PyTorchの再設計であるIG-GPUを紹介し、すべてのペアの交叉とサブセット評価をコモディティGPUにオフロードする。
15kレコードのNSL-KDDデータセットでは、IG-GPUはIGのマルチコアCPU実装よりも116倍のスピードアップを示している。
論文 参考訳(メタデータ) (2025-07-16T12:38:19Z) - ParallelComp: Parallel Long-Context Compressor for Length Extrapolation [51.68913021512016]
超長い文脈(テキスト長 >128K)の補間は、大きな言語モデル(LLM)にとって大きな課題である。
本研究では,メモリボトルネックを効果的に克服する並列長コンテキスト圧縮手法であるParallelCompを提案する。
チャンクスループットが1.76倍向上し、プリフィル段階では23.50倍の高速化を実現し、性能損失を無視できる。
論文 参考訳(メタデータ) (2025-02-20T07:10:43Z) - Boundary-aware Decoupled Flow Networks for Realistic Extreme Rescaling [49.215957313126324]
Invertible rescaling Network (IRN) やgenerative adversarial Network (GAN) などを含む最近の生成手法は、画像再スケーリングにおいて例外的な性能を示した。
しかし、IRNベースの手法は過度に滑らかな結果を生成する傾向にあり、一方、GANベースの手法は偽の細部を容易に生成する。
本稿では,現実的かつ視覚的に満足な結果を生成するために,境界対応デカップリングフローネットワーク(BDFlow)を提案する。
論文 参考訳(メタデータ) (2024-05-05T14:05:33Z) - FastMAC: Stochastic Spectral Sampling of Correspondence Graph [55.75524096647733]
本稿では,対応グラフの領域にグラフ信号処理を導入する最初の研究について述べる。
我々は、対応グラフ上の一般化次数信号を利用し、高周波成分を保存するサンプリング戦略を追求する。
アプリケーションとして,FastMACと呼ばれる,リアルタイムな高速な3D登録アルゴリズムを構築した。
論文 参考訳(メタデータ) (2024-03-13T17:59:56Z) - Fast and Data Efficient Reinforcement Learning from Pixels via
Non-Parametric Value Approximation [90.78178803486746]
離散動作,画素ベース環境のための強化学習アルゴリズムであるNonparametric Approximation of Inter-Trace Return (NAIT)を提案する。
ATARI100kの26ゲーム版と57ゲーム版の両方においてNAITを実証的に評価した。
論文 参考訳(メタデータ) (2022-03-07T00:31:31Z) - Accelerating Training and Inference of Graph Neural Networks with Fast
Sampling and Pipelining [58.10436813430554]
グラフニューラルネットワーク(GNN)のミニバッチトレーニングには、多くの計算とデータ移動が必要である。
我々は,分散マルチGPU環境において,近傍サンプリングを用いたミニバッチトレーニングを行うことを支持する。
本稿では,これらのボトルネックを緩和する一連の改良点について述べる。
また,サンプリングによる推論を支援する実験分析を行い,試験精度が実質的に損なわれていないことを示す。
論文 参考訳(メタデータ) (2021-10-16T02:41:35Z) - On the Utility of Gradient Compression in Distributed Training Systems [9.017890174185872]
本稿では,勾配圧縮法の有効性を評価し,そのスケーラビリティを同期データ並列sgdの最適化実装と比較する。
意外なことに、勾配圧縮によって引き起こされる計算オーバーヘッドのため、バニラデータ並列トレーニングのネットスピードアップは、負でなくても限界である。
論文 参考訳(メタデータ) (2021-02-28T15:58:45Z) - Accurate, Efficient and Scalable Training of Graph Neural Networks [9.569918335816963]
グラフニューラルネットワーク(GNN)は、グラフ上にノード埋め込みを生成する強力なディープラーニングモデルである。
効率的でスケーラブルな方法でトレーニングを実行することは依然として困難です。
本稿では,最先端のミニバッチ手法と比較して,トレーニング負荷を桁違いに削減する新しい並列トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-05T22:06:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。