Fugu-MT 論文翻訳(概要): Fake Runs, Real Fixes -- Analyzing xPU Performance Through Simulation

論文の概要: Fake Runs, Real Fixes -- Analyzing xPU Performance Through Simulation

arxiv url: http://arxiv.org/abs/2503.14781v1
Date: Tue, 18 Mar 2025 23:15:02 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-20 17:45:40.842895
Title: Fake Runs, Real Fixes -- Analyzing xPU Performance Through Simulation
Title（参考訳）: Fake RunsとReal Fixes -- シミュレーションによるxPUパフォーマンスの解析
Authors: Ioannis Zarkadas, Amanda Tomlinson, Asaf Cidon, Baris Kasikci, Ofir Weisse,
Abstract要約: 機械コードレベルでMLモデルを分析するための詳細な方法論であるxPU-Sharkを提案する。 xPU-Sharkは、アクセラレータ上で動作する運用デプロイメントのトレースをキャプチャして、修正されたマイクロアーキテクチャシミュレータで再生する。共通通信集合を最大15%まで最適化し、トークン生成遅延を最大4.1%削減する。
参考スコア（独自算出の注目度）: 4.573673188291683
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As models become larger, ML accelerators are a scarce resource whose performance must be continually optimized to improve efficiency. Existing performance analysis tools are coarse grained, and fail to capture model performance at the machine-code level. In addition, these tools often do not provide specific recommendations for optimizations. We present xPU-Shark, a fine-grained methodology for analyzing ML models at the machine-code level that provides actionable optimization suggestions. Our core insight is to use a hardware-level simulator, an artifact of the hardware design process that we can re-purpose for performance analysis. xPU-Shark captures traces from production deployments running on accelerators and replays them in a modified microarchitecture simulator to gain low-level insights into the model's performance. We implement xPU-Shark for our in-house accelerator and used it to analyze the performance of several of our production LLMs, revealing several previously-unknown microarchitecture inefficiencies. Leveraging these insights, we optimize a common communication collective by up to 15% and reduce token generation latency by up to 4.1%.
Abstract（参考訳）: モデルが大きくなるにつれて、MLアクセラレータは、効率を改善するために継続的にパフォーマンスを最適化する必要がある、希少なリソースである。既存のパフォーマンス分析ツールは粗い粒度であり、マシンコードレベルでのモデルパフォーマンスのキャプチャに失敗する。さらに、これらのツールは最適化のための具体的な推奨を提供しないことが多い。機械コードレベルでMLモデルを分析するための詳細な方法論であるxPU-Sharkを提案する。私たちの中核となる洞察は、ハードウェアレベルのシミュレータを使うことです。 xPU-Sharkは、アクセル上で動作するプロダクションデプロイメントのトレースをキャプチャし、修正されたマイクロアーキテクチャシミュレータでそれらを再生することで、モデルのパフォーマンスに関する低レベルな洞察を得る。我々は、社内アクセラレータにxPU-Sharkを実装し、それを用いて、これまで知られていなかったいくつかのマイクロアーキテクチャの非効率性を明らかにする。これらの洞察を活用することで、共通通信集合を最大15%最適化し、トークン生成遅延を最大4.1%削減します。

関連論文リスト

Phantora: Live GPU Cluster Simulation for Machine Learning System Performance Estimation [11.48166268734119]
Phantoraは、パフォーマンス評価のためのライブGPUクラスタシミュレータである。イベント駆動ネットワークシミュレータとライブシステム実行を統合する上で、いくつかの研究課題を克服する。評価の結果,Phantoraは1つのGPUのみで,最先端のワークロードシミュレーション手法に類似した推定精度を実現できることがわかった。
論文参考訳（メタデータ） (2025-05-02T22:36:24Z)
Lumos: Efficient Performance Modeling and Estimation for Large-scale LLM Training [4.059735204483926]
大規模LLMトレーニングのためのトレース駆動性能モデリングおよび推定ツールキットであるLumosを提案する。 Lumosは平均3.3%のエラーで実行時間をリプレイでき、他のランタイムの詳細とともに、異なるモデルや設定で実行できる。
論文参考訳（メタデータ） (2025-04-12T18:43:24Z)
Pruning-Based TinyML Optimization of Machine Learning Models for Anomaly Detection in Electric Vehicle Charging Infrastructure [8.29566258132752]
本稿では,EVCIを対象とする資源制約環境における異常検出のためのプルーニング手法について検討する。最適化されたモデルは、モデルのサイズと推論時間の大幅な削減を実現しました。特に,EVCIでは,プルーニングとFSが重要な異常検出能力を保ちながら,計算効率を向上させることが示唆された。
論文参考訳（メタデータ） (2025-03-19T00:18:37Z)
IMPROVE: Iterative Model Pipeline Refinement and Optimization Leveraging LLM Agents [17.301758094000125]
大規模言語モデル(LLM)エージェントは、コンピュータビジョンモデルの開発を自動化するための有望なソリューションとして登場した。 LLM駆動のMLパイプライン設計のための新しい戦略であるIterative Refinementを導入する。イテレーティブリファインメントは安定性、解釈可能性、全体的なモデルパフォーマンスを改善します。
論文参考訳（メタデータ） (2025-02-25T01:52:37Z)
LoXR: Performance Evaluation of Locally Executing LLMs on XR Devices [55.33807002543901]
4つのXRデバイスに17の大規模言語モデル(LLM)をデプロイします。性能の整合性、処理速度、メモリ使用量、バッテリ消費の4つの主要な指標で性能を評価する。
論文参考訳（メタデータ） (2025-02-13T20:55:48Z)
Numerical Pruning for Efficient Autoregressive Models [87.56342118369123]
本稿では,デコーダのみを用いた変圧器を用いた自己回帰モデルの圧縮に着目する。具体的には,ニュートン法とモジュールの数値スコアをそれぞれ計算する学習自由プルーニング法を提案する。提案手法の有効性を検証するため,理論的支援と広範囲な実験を行った。
論文参考訳（メタデータ） (2024-12-17T01:09:23Z)
The Impact of Hyperparameters on Large Language Model Inference Performance: An Evaluation of vLLM and HuggingFace Pipelines [6.381783966294295]
オープンソースの大規模言語モデル(LLM)により、開発者はプライバシやコンプライアンスといった側面をコントロールしながら、AIベースのソリューションを作成できる。我々は、vLLMとHuggingFaceのパイプラインという2つの推論ライブラリを使用して、20LLMのパフォーマンス、特にスループット(時間単位毎に生成されるトークン)を分析します。
論文参考訳（メタデータ） (2024-08-02T06:56:59Z)
LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文参考訳（メタデータ） (2024-05-09T11:49:05Z)
Learning Generalizable Program and Architecture Representations for Performance Modeling [0.3277163122167434]
PerfVecは、新しいディープラーニングベースのパフォーマンスモデリングフレームワークである。高次元および独立/直交プログラムとマイクロアーキテクチャ表現を学習する。 PerfVecは、命令のパフォーマンスの本質をキャプチャする基盤モデルを生成する。
論文参考訳（メタデータ） (2023-10-25T17:24:01Z)
Cheaply Evaluating Inference Efficiency Metrics for Autoregressive Transformer APIs [66.30706841821123]
大規模言語モデル(LLM)は、自然言語処理において多くの最先端システムに電力を供給する。 LLMは、推論時でさえ非常に計算コストが高い。モデル間での推論効率を比較するための新しい指標を提案する。
論文参考訳（メタデータ） (2023-05-03T21:51:42Z)
Energy-efficient Task Adaptation for NLP Edge Inference Leveraging Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文参考訳（メタデータ） (2023-03-25T14:40:59Z)
Learning Performance-Improving Code Edits [107.21538852090208]
本稿では,大規模言語モデル(LLM)を高レベルプログラム最適化に適用するためのフレームワークを提案する。まず、競争力のある77,000以上のC++プログラミングサブミッションペアによる、人間のプログラマによるパフォーマンス改善編集のデータセットをキュレートする。提案手法は,検索をベースとした少数ショットプロンプトとチェーン・オブ・シンクレットを提案し,その微調整には,自己再生に基づく性能条件付き生成と合成データ拡張が含まれる。
論文参考訳（メタデータ） (2023-02-15T18:59:21Z)
Data-Driven Offline Optimization For Architecting Hardware Accelerators [89.68870139177785]
PRIMEと呼ばれるハードウェアアクセラレータを設計するための,データ駆動型オフライン最適化手法を開発した。 PRIMEは、最先端のシミュレーション駆動方式の性能を約1.54倍と1.20倍に改善し、必要な総シミュレーション時間をそれぞれ93%と99%削減する。さらにPRIMEは、ゼロショット設定で見えないアプリケーションのための効果的なアクセラレーターを設計し、シミュレーションベースの手法を1.26倍に向上させた。
論文参考訳（メタデータ） (2021-10-20T17:06:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。