論文の概要: NonGEMM Bench: Understanding the Performance Horizon of the Latest ML Workloads with NonGEMM Workloads
- arxiv url: http://arxiv.org/abs/2404.11788v3
- Date: Fri, 22 Nov 2024 01:54:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-25 15:00:54.304593
- Title: NonGEMM Bench: Understanding the Performance Horizon of the Latest ML Workloads with NonGEMM Workloads
- Title(参考訳): NonGEMM Bench:非GEMMワークロードによる最新のMLワークロードのパフォーマンス水平性を理解する
- Authors: Rachid Karami, Chakshu Moar, Sheng-Chun Kao, Hyoukjun Kwon,
- Abstract要約: 本稿では,非GEMM演算子のベンチマークであるベンチについて述べる。
まず、さまざまなドメインから一般的なMLワークロードを使用してベンチを構築し、その後、さまざまなグレードのGPUプラットフォームでケーススタディを実行します。
GEMM演算子と非GEMM演算子とのギャップを埋める上で重要なポイントをいくつか提示する。
- 参考スコア(独自算出の注目度): 1.2914037898755877
- License:
- Abstract: Machine Learning (ML) operators are the building blocks to design ML models with various target applications. GEneral Matrix Multiplication (GEMM) operators are the backbone of ML models. They are notorious for being computationally expensive requiring billions of multiply-and-accumulate. Therefore, significant effort has been put to study and optimize the GEMM operators in order to speed up the execution of ML models. GPUs and accelerators are widely deployed to accelerate ML workloads by optimizing the execution of GEMM operators. Nonetheless, the performance of NonGEMM operators have not been studied as thoroughly as GEMMs. Therefore, this paper describes \bench, a benchmark to study NonGEMM operators. We first construct \bench using popular ML workloads from different domains, then perform case studies on various grade GPU platforms to analyze the behavior of NonGEMM operators in GPU accelerated systems. Finally, we present some key takeaways to bridge the gap between GEMM and NonGEMM operators and to offer the community with potential new optimization directions.
- Abstract(参考訳): 機械学習(ML)オペレータは、さまざまなターゲットアプリケーションでMLモデルを設計するためのビルディングブロックである。
GEMM演算子は、MLモデルのバックボーンである。
彼らは何十億もの乗算と累積を必要とする計算コストで有名だ。
そのため,MLモデルの実行を高速化するため,GEMM演算子の研究と最適化に多大な努力が払われている。
GPUとアクセラレータは、GEMM演算子の実行を最適化することで、MLワークロードを高速化するために広くデプロイされている。
それでも、非GEMM演算子の性能はGEMMほど徹底的に研究されていない。
そこで本稿では,非GEMM演算子のベンチマークである \bench について述べる。
まず、さまざまなドメインから人気のMLワークロードを使用して‘bench’を構築し、次に様々なグレードのGPUプラットフォーム上でケーススタディを行い、GPUアクセラレーションシステムにおける非GEMM演算子の挙動を分析する。
最後に,GEMM と NonGEMM オペレータ間のギャップを埋める上で重要なポイントをいくつか提示し,新たな最適化の方向性をコミュニティに提供する。
関連論文リスト
- VisualAgentBench: Towards Large Multimodal Models as Visual Foundation Agents [50.12414817737912]
大規模マルチモーダルモデル(LMM)は、人工知能の新たな時代を迎え、言語と視覚の融合によって、高い能力を持つVisual Foundation Agentを形成する。
既存のベンチマークでは、複雑な実世界の環境でのLMMの可能性を十分に証明できない。
VisualAgentBench (VAB) は、視覚基礎エージェントとしてLMMを訓練し評価するための先駆的なベンチマークである。
論文 参考訳(メタデータ) (2024-08-12T17:44:17Z) - Large Language Model for Multi-objective Evolutionary Optimization [26.44390674048544]
多目的進化アルゴリズム(MOEA)は多目的最適化問題(MOP)を解決する主要な方法である
近年、MOEAにおいて手作業で設計された演算子を学習ベースの演算子に置き換える試みが試みられている。
本研究は,MOEA演算子の設計に強力な大規模言語モデル(LLM)を活用する新しいアプローチについて検討する。
論文 参考訳(メタデータ) (2023-10-19T07:46:54Z) - Use Your INSTINCT: INSTruction optimization for LLMs usIng Neural bandits Coupled with Transformers [66.823588073584]
大規模言語モデル (LLM) は命令追従能力に優れ、様々なアプリケーションで優れた性能を発揮している。
最近の研究は、ブラックボックスLLMに与えられる命令を自動的に最適化するために、クエリ効率のよいベイズ最適化(BO)アルゴリズムを用いている。
NNサロゲートによりBOのGPを置換し,ブラックボックスLLMの命令を最適化するニューラルバンディットアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-02T02:01:16Z) - Relational Reasoning via Set Transformers: Provable Efficiency and
Applications to MARL [154.13105285663656]
置換不変エージェントフレームワークを用いたMARL(Multi-A gent R einforcement Learning)は,実世界のアプリケーションにおいて大きな実証的成功を収めた。
残念なことに、このMARL問題の理論的理解は、多くのエージェントの呪いと、既存の著作における関係推論の限定的な探索によって欠落している。
モデルフリーアルゴリズムとモデルベースアルゴリズムの最適度差は各エージェント数に独立して対数的であり、多くのエージェントの呪いを和らげる。
論文 参考訳(メタデータ) (2022-09-20T16:42:59Z) - MLGOPerf: An ML Guided Inliner to Optimize Performance [7.314201117946244]
本稿では,LLVMのML-Inlinerを用いて,パフォーマンスを最適化する初のエンドツーエンドフレームワークを提案する。
セカンダリMLモデルを使用して、リターゲット強化学習エージェントのトレーニングに使用する報酬を生成する。
分析中の関数のインライン後のスピードアップを予測し、プライマリモデルのための高速なトレーニングフレームワークを可能にする。
論文 参考訳(メタデータ) (2022-07-18T05:47:29Z) - Image Modeling with Deep Convolutional Gaussian Mixture Models [79.0660895390689]
画像の記述と生成に適したGMM(Deep Hierarchical Gaussian Mixture Models)の新しい定式化を紹介します。
DCGMMは、畳み込みとプーリング操作によってリンクされた複数のGMM層の積み重ねたアーキテクチャによってこれを回避している。
dcgmmsでシャープな画像を生成するために,畳み込みやプーリングなどの非可逆操作をサンプリングする新しい勾配に基づく手法を提案する。
MNISTとFashionMNISTのデータセットに基づいて,クラスタリング,サンプリング,外乱検出において,フラットなGMMよりも優れていることを示すことで,DCGMMsモデルを検証した。
論文 参考訳(メタデータ) (2021-04-19T12:08:53Z) - A Framework of Inertial Alternating Direction Method of Multipliers for
Non-Convex Non-Smooth Optimization [17.553531291690025]
非平滑なマルチブロック複合問題のクラスを解くために,iADMM(iADMM)と呼ばれるアルゴリズムフレームワークを提案する。
本フレームワークでは,従来のADMMスキームの収束解析を統一するために,変数の各ブロックを更新するために,ジェネラル・メイジャー・サロゲート化(MM)原理を用いる。
論文 参考訳(メタデータ) (2021-02-10T13:55:28Z) - Cauchy-Schwarz Regularized Autoencoder [68.80569889599434]
変分オートエンコーダ(VAE)は、強力で広く使われている生成モデルのクラスである。
GMMに対して解析的に計算できるCauchy-Schwarz分散に基づく新しい制約対象を導入する。
本研究の目的は,密度推定,教師なしクラスタリング,半教師なし学習,顔分析における変分自動エンコーディングモデルの改善である。
論文 参考訳(メタデータ) (2021-01-06T17:36:26Z) - FusedMM: A Unified SDDMM-SpMM Kernel for Graph Embedding and Graph
Neural Networks [3.577310844634503]
本研究では, サンプル密度行列乗算とスパース密度行列乗算をFusedMMと呼ばれる単一演算の下で統一する融合行列乗算カーネルを開発した。
ユーザ定義関数を使用することで、FusedMMは一般的なグラフ埋め込みやGNNアプローチで必要とされる、ほぼすべての計算パターンをキャプチャできる。
論文 参考訳(メタデータ) (2020-11-07T18:06:57Z) - The Performance Analysis of Generalized Margin Maximizer (GMM) on
Separable Data [45.4329219943791]
GMM(Generalized Margin Maximizer)は、パラメータベクトルの任意の凸関数を最小化する。
非線形方程式の解法を用いてGMMの性能を正確に解析する。
提案手法は,パラメータ値,問題事例,モデル構造にまたがる広範囲なシミュレーション結果によって検証される。
論文 参考訳(メタデータ) (2020-10-29T06:40:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。