論文の概要: NonGEMM Bench: Understanding the Performance Horizon of the Latest ML Workloads with NonGEMM Workloads
- arxiv url: http://arxiv.org/abs/2404.11788v4
- Date: Mon, 10 Mar 2025 04:51:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:38:59.364379
- Title: NonGEMM Bench: Understanding the Performance Horizon of the Latest ML Workloads with NonGEMM Workloads
- Title(参考訳): NonGEMM Bench:非GEMMワークロードによる最新のMLワークロードのパフォーマンス水平性を理解する
- Authors: Rachid Karami, Sheng-Chun Kao, Hyoukjun Kwon,
- Abstract要約: 非GEMM演算子はまだ15%から48%のレイテンシを保っていることを示す。
非GEMMパフォーマンスボトルネックは、すべてのプラットフォームとモデルで大きな問題である。
我々は、モデルとデプロイメントソフトウェアごとに、GEMM以外の最も支配的な演算子をデミストする。
- 参考スコア(独自算出の注目度): 1.4107658666233678
- License:
- Abstract: Among ML operators today, GEneralMatrix Multiplication (GEMM)-based operators are known to be key operators that build the main backbone of ML models. As their computational overhead dominates the overall execution time (e.g., 42.8% - 96.6% in our results), GEMM operators have been the prime optimization targets for fast ML inference. This led to advanced GPUs and accelerators available today, which provided significant boost in the GEMM performance compared to CPUs, aligned with the lesson from Amdahl's law. However, accelerating GEMM has significantly shifted the Amdahl's law's landscape for ML inference; due to the decreased GEMM execution time, the relative execution time of non-GEMM operators is not dominant. Although the importance of non-GEMM performance is increasing, we have little knowledge about the non-GEMM performance horizon in the latest hardware platforms and models. Therefore, to guide non-GEMM-oriented optimizations, we conduct a thorough performance analysis of 16 widely adopted ML models in Hugging Face and Torchvision on workstation and data center platforms with/without GPUs. We discover that non-GEMM performance bottleneck is a considerable issue across all the platforms and models, accounting for 11.3% to 73.6% of total latency, on average. The challenge significantly aggravates when we apply quantization, which is a common model compression technique, due to the boosted GEMM performance and extra non-GEMM operators for dequantization and requantization. To provide insights into non-GEMM optimization targets, we demystify the most dominant non-GEMM operators for each model and deployment software.We also show that widely adopted optimizations such as operator fusion do not completely address the non-GEMM performance bottleneck, where non-GEMM operators still account for 15% to 48% of total latency.
- Abstract(参考訳): 現在のML演算子の中で、GEMM(GEneralMatrix Multiplication)ベースの演算子は、MLモデルのメインバックボーンを構築するキー演算子として知られている。
計算オーバーヘッドが全体の実行時間(例:42.8% - 96.6%)を支配しているため、GEMM演算子は高速ML推論の主要な最適化対象となっている。
これにより、今日の高度なGPUとアクセラレータが利用可能になり、Amdahlの法則による教訓に従って、CPUと比較してGEMMのパフォーマンスが大幅に向上した。
しかし, GEMMの高速化は, ML推論におけるアムダールの法則を著しくシフトさせ, 非GEMM演算子の相対実行時間は支配的ではない。
非GEMM性能の重要性は高まっているが、最新のハードウェアプラットフォームやモデルにおける非GEMM性能の地平についてはほとんど分かっていない。
そこで我々は,Hugging Face と Torchvision で広く採用されている16のMLモデルのワークステーションおよびデータセンタープラットフォーム上で,GPUを使用せずに徹底的に性能解析を行う。
我々は、GEMM以外のパフォーマンスボトルネックが、平均して11.3%から73.6%のレイテンシで、すべてのプラットフォームとモデルで重大な問題であることを発見した。
この課題は、GEMM性能が向上し、非GEMM演算子がデクエント化やリクエント化を行うため、一般的なモデル圧縮手法である量子化を適用する際に顕著に増大する。
我々は,GEMM以外の最適化対象について,モデルやデプロイメントソフトウェア毎に最も支配的な非GEMM演算子をデミストすると同時に,演算子融合などの広く採用されている最適化が,GEMM以外の演算子が全体の遅延の15%から48%を占める場合,非GEMM演算子のパフォーマンスボトルネックを完全に解決しないことを示す。
関連論文リスト
- Panacea: Novel DNN Accelerator using Accuracy-Preserving Asymmetric Quantization and Energy-Saving Bit-Slice Sparsity [2.78181759570722]
低ビット精度とそれらのビットスライス間隔は、大規模ディープニューラルネットワーク(DNN)推論において、GEMM(GeneralMatrix-multiplications)を加速するために研究されている。
近年の研究では、追加の操作を必要とせず、アクティベーションに非対称量子化を積極的に活用している。
本稿では,非対称化ビットスライスGEMMを初めて提案する。
論文 参考訳(メタデータ) (2024-12-13T11:44:09Z) - VisualAgentBench: Towards Large Multimodal Models as Visual Foundation Agents [50.12414817737912]
大規模マルチモーダルモデル(LMM)は、人工知能の新たな時代を迎え、言語と視覚の融合によって、高い能力を持つVisual Foundation Agentを形成する。
既存のベンチマークでは、複雑な実世界の環境でのLMMの可能性を十分に証明できない。
VisualAgentBench (VAB) は、視覚基礎エージェントとしてLMMを訓練し評価するための先駆的なベンチマークである。
論文 参考訳(メタデータ) (2024-08-12T17:44:17Z) - Large Language Model for Multi-objective Evolutionary Optimization [26.44390674048544]
多目的進化アルゴリズム(MOEA)は多目的最適化問題(MOP)を解決する主要な方法である
近年、MOEAにおいて手作業で設計された演算子を学習ベースの演算子に置き換える試みが試みられている。
本研究は,MOEA演算子の設計に強力な大規模言語モデル(LLM)を活用する新しいアプローチについて検討する。
論文 参考訳(メタデータ) (2023-10-19T07:46:54Z) - Use Your INSTINCT: INSTruction optimization for LLMs usIng Neural bandits Coupled with Transformers [66.823588073584]
大規模言語モデル (LLM) は命令追従能力に優れ、様々なアプリケーションで優れた性能を発揮している。
最近の研究は、ブラックボックスLLMに与えられる命令を自動的に最適化するために、クエリ効率のよいベイズ最適化(BO)アルゴリズムを用いている。
NNサロゲートによりBOのGPを置換し,ブラックボックスLLMの命令を最適化するニューラルバンディットアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-02T02:01:16Z) - Relational Reasoning via Set Transformers: Provable Efficiency and
Applications to MARL [154.13105285663656]
置換不変エージェントフレームワークを用いたMARL(Multi-A gent R einforcement Learning)は,実世界のアプリケーションにおいて大きな実証的成功を収めた。
残念なことに、このMARL問題の理論的理解は、多くのエージェントの呪いと、既存の著作における関係推論の限定的な探索によって欠落している。
モデルフリーアルゴリズムとモデルベースアルゴリズムの最適度差は各エージェント数に独立して対数的であり、多くのエージェントの呪いを和らげる。
論文 参考訳(メタデータ) (2022-09-20T16:42:59Z) - MLGOPerf: An ML Guided Inliner to Optimize Performance [7.314201117946244]
本稿では,LLVMのML-Inlinerを用いて,パフォーマンスを最適化する初のエンドツーエンドフレームワークを提案する。
セカンダリMLモデルを使用して、リターゲット強化学習エージェントのトレーニングに使用する報酬を生成する。
分析中の関数のインライン後のスピードアップを予測し、プライマリモデルのための高速なトレーニングフレームワークを可能にする。
論文 参考訳(メタデータ) (2022-07-18T05:47:29Z) - Image Modeling with Deep Convolutional Gaussian Mixture Models [79.0660895390689]
画像の記述と生成に適したGMM(Deep Hierarchical Gaussian Mixture Models)の新しい定式化を紹介します。
DCGMMは、畳み込みとプーリング操作によってリンクされた複数のGMM層の積み重ねたアーキテクチャによってこれを回避している。
dcgmmsでシャープな画像を生成するために,畳み込みやプーリングなどの非可逆操作をサンプリングする新しい勾配に基づく手法を提案する。
MNISTとFashionMNISTのデータセットに基づいて,クラスタリング,サンプリング,外乱検出において,フラットなGMMよりも優れていることを示すことで,DCGMMsモデルを検証した。
論文 参考訳(メタデータ) (2021-04-19T12:08:53Z) - A Framework of Inertial Alternating Direction Method of Multipliers for
Non-Convex Non-Smooth Optimization [17.553531291690025]
非平滑なマルチブロック複合問題のクラスを解くために,iADMM(iADMM)と呼ばれるアルゴリズムフレームワークを提案する。
本フレームワークでは,従来のADMMスキームの収束解析を統一するために,変数の各ブロックを更新するために,ジェネラル・メイジャー・サロゲート化(MM)原理を用いる。
論文 参考訳(メタデータ) (2021-02-10T13:55:28Z) - Cauchy-Schwarz Regularized Autoencoder [68.80569889599434]
変分オートエンコーダ(VAE)は、強力で広く使われている生成モデルのクラスである。
GMMに対して解析的に計算できるCauchy-Schwarz分散に基づく新しい制約対象を導入する。
本研究の目的は,密度推定,教師なしクラスタリング,半教師なし学習,顔分析における変分自動エンコーディングモデルの改善である。
論文 参考訳(メタデータ) (2021-01-06T17:36:26Z) - The Performance Analysis of Generalized Margin Maximizer (GMM) on
Separable Data [45.4329219943791]
GMM(Generalized Margin Maximizer)は、パラメータベクトルの任意の凸関数を最小化する。
非線形方程式の解法を用いてGMMの性能を正確に解析する。
提案手法は,パラメータ値,問題事例,モデル構造にまたがる広範囲なシミュレーション結果によって検証される。
論文 参考訳(メタデータ) (2020-10-29T06:40:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。