Fugu-MT 論文翻訳(概要): ML-driven Hardware Cost Model for MLIR

論文の概要: ML-driven Hardware Cost Model for MLIR

arxiv url: http://arxiv.org/abs/2302.11405v1
Date: Tue, 14 Feb 2023 11:32:47 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-26 13:23:07.982273
Title: ML-driven Hardware Cost Model for MLIR
Title（参考訳）: MLIRのためのML駆動ハードウェアコストモデル
Authors: Dibyendu Das and Sandya Mannarswamy
Abstract要約: 高レベルMLIRのための機械学習に基づくコストモデルを開発した。 MLIRをラ・NLPモデルのテキスト入力として考えることにより、現代のNLP研究からよく知られた技術を適用することができる。これらのモデルにより,種々のハードウェア特性に対する誤差境界が低く,合理的に優れた推定値が得られることを示す。
参考スコア（独自算出の注目度）: 1.2987894327817158
License: http://creativecommons.org/licenses/by/4.0/
Abstract: During early optimization passes, compilers must make predictions for machine-dependent characteristics such as execution unit utilization, number of register spills, latency, throughput etc. to generate better code. Often a hand-written static/analytical hardware cost model is built into the compiler. However, the need for more sophisticated and varied predictions has become more pronounced with the development of deep learning compilers which need to optimize dataflow graphs. Such compilers usually employ a much higher level MLIR form as an IR representation before lowering to traditional LLVM-IR. A static/analytical cost model in such a scenario is cumbersome and error prone as the opcodes represent very high level algebraic/arithmetic operations. Hence, we develop a machine learning-based cost model for high-level MLIR which can predict different target variables of interest such as CPU/GPU/xPU utilization, instructions executed, register usage etc. By considering the incoming MLIR as a text input a la NLP models we can apply well-known techniques from modern NLP research to help predict hardware characteristics more accurately. We expect such precise ML-driven hardware cost models to guide our deep learning compiler in graph level optimizations around operator fusion, local memory allocation, kernel scheduling etc. as well as in many kernel-level optimizations such as loop interchange, LICM and unroll. We report early work-in -progress results of developing such models on high-level MLIR representing dataflow graphs emitted by Pytorch/Tensorflow-like frameworks as well as lower-level dialects like affine. We show that these models can provide reasonably good estimates with low error bounds for various hardware characteristics of interest and can be a go-to mechanism for hardware cost modelling in the future.
Abstract（参考訳）: 早期最適化パスの間、コンパイラは、より良いコードを生成するために、実行単位の利用、レジスタの流出数、レイテンシ、スループットなど、マシン依存の特性を予測しなければならない。しばしば手書きの静的/分析ハードウェアコストモデルがコンパイラに組み込まれる。しかし、より洗練された様々な予測の必要性は、データフローグラフの最適化を必要とするディープラーニングコンパイラの開発によってより顕著になってきている。このようなコンパイラは通常、従来のLLVM-IRに下降する前に、より高レベルなMLIR形式をIR表現として使用する。このようなシナリオにおける静的/解析的コストモデルは、非常に高いレベルの代数的/アリスメティックな演算を表現するため、面倒でエラーになりがちである。そこで我々は,CPU/GPU/xPU利用,実行命令,レジスタ使用率などの異なる対象変数を予測可能な高レベルMLIRのための機械学習ベースのコストモデルを開発した。入力するMLIRをLA NLPモデルのテキスト入力として考慮することにより、ハードウェア特性をより正確に予測するために、現代のNLP研究からよく知られた技術を適用することができる。演算子融合、ローカルメモリ割り当て、カーネルスケジューリングなどのグラフレベルの最適化や、ループインターチェンジ、licM、アンロールといったカーネルレベルの最適化では、このような正確なML駆動ハードウェアコストモデルがディープラーニングコンパイラを導くことを期待しています。我々は、Pytorch/Tensorflowのようなフレームワークが出力するデータフローグラフと、アフィンのような低レベル方言を表す高レベルMLIR上で、そのようなモデルを開発した初期の成果を報告する。これらのモデルは,様々なハードウェア特性に対する低エラーバウンダリで合理的に優れた推定値を提供することができ,将来,ハードウェアコストモデリングのためのゴーツー機構となる可能性があることを示す。

関連論文リスト

TileLang: A Composable Tiled Programming Model for AI Systems [17.240134151647187]
我々は、より効率的なAIプログラミングのための一般化タイルプログラミングモデルであるTileLangを紹介する。 TileLangはスケジューリングスペース(スレッドバインディング、レイアウト、テンソル化、パイプライン)をデータフローから切り離し、カスタマイズアノテーションとプリミティブのセットとしてカプセル化した。我々は、多くの実験において、一般的なデバイス上で包括的な実験を行い、キーカーネルでTileLangが最先端のパフォーマンスを達成できることを実証した。
論文参考訳（メタデータ） (2025-04-24T14:08:49Z)
Adaptable Embeddings Network (AEN) [49.1574468325115]
我々はカーネル密度推定(KDE)を用いた新しいデュアルエンコーダアーキテクチャであるAdaptable Embeddings Networks (AEN)を紹介する。 AENは、再トレーニングせずに分類基準のランタイム適応を可能にし、非自己回帰的である。アーキテクチャのプリプロセスとキャッシュ条件の埋め込み能力は、エッジコンピューティングアプリケーションやリアルタイム監視システムに最適である。
論文参考訳（メタデータ） (2024-11-21T02:15:52Z)
DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。 DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文参考訳（メタデータ） (2024-11-04T18:26:08Z)
MIREncoder: Multi-modal IR-based Pretrained Embeddings for Performance Optimizations [6.919817502555546]
本稿では,Multi-modal IRベースのオートエンコーダであるMIREncoderを提案する。マルチモーダルなアプローチにより、コンパイル可能なプログラムからより優れた特徴を抽出できる。評価の結果,提案手法はオーバヘッドを低減しつつ,技術状況より優れることが示された。
論文参考訳（メタデータ） (2024-07-02T13:00:19Z)
Cheaply Evaluating Inference Efficiency Metrics for Autoregressive Transformer APIs [66.30706841821123]
大規模言語モデル(LLM)は、自然言語処理において多くの最先端システムに電力を供給する。 LLMは、推論時でさえ非常に計算コストが高い。モデル間での推論効率を比較するための新しい指標を提案する。
論文参考訳（メタデータ） (2023-05-03T21:51:42Z)
ParaGraph: Weighted Graph Representation for Performance Optimization of HPC Kernels [1.304892050913381]
抽象構文木を拡張した並列アプリケーションのためのグラフベースの新しいプログラム表現を提案する。提案した表現は,OpenMPコード領域のランタイムを予測するために,グラフニューラルネットワーク(GNN)をトレーニングすることで評価する。その結果,本手法は実効性があり,実行時予測では 0.004 から 0.01 に RMSE を正規化していることがわかった。
論文参考訳（メタデータ） (2023-04-07T05:52:59Z)
Towards Optimal VPU Compiler Cost Modeling by using Neural Networks to Infer Hardware Performances [58.720142291102135]
VPUNN"は低レベルのタスクプロファイリングに基づいてトレーニングされたニューラルネットワークベースのコストモデルである。これは、IntelのVPUプロセッサのラインにおける最先端のコストモデリングよりも一貫して優れている。
論文参考訳（メタデータ） (2022-05-09T22:48:39Z)
SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文参考訳（メタデータ） (2021-12-22T14:45:37Z)
Deep Data Flow Analysis [14.583644439728895]
ProGraMLは、ディープラーニングのためのプログラム全体のセマンティクスのポータブル表現である。コンパイラ解析のための現在および将来の学習手法をベンチマークする。本稿では, ProGraMLを用いて, ダウンストリームコンパイラ最適化タスクにおいて, 標準解析を学習し, 性能を向上できることを示す。
論文参考訳（メタデータ） (2020-11-21T03:29:14Z)
A Tensor Compiler for Unified Machine Learning Prediction Serving [8.362773007171118]
企業における機械学習(ML)の採用には、よりシンプルで効率的なソフトウェアインフラが必要である。モデルのスコアリングは、モデルが一度訓練されるが、何度も使用されるため、インフラストラクチャの複雑さとコストに主要な貢献をする。本稿では,HUMMINGBIRDを提案する。HUMMINGBIRDは,計算演算子と従来のMLモデルを小さなテンソル演算系にコンパイルする新しいモデルスコアリング手法である。
論文参考訳（メタデータ） (2020-10-09T21:02:47Z)
Predictive Coding Approximates Backprop along Arbitrary Computation Graphs [68.8204255655161]
我々は、コア機械学習アーキテクチャを予測的符号化に翻訳する戦略を開発する。私たちのモデルは、挑戦的な機械学習ベンチマークのバックプロップと同等に機能します。本手法は,ニューラルネットワークに標準機械学習アルゴリズムを直接実装できる可能性を高める。
論文参考訳（メタデータ） (2020-06-07T15:35:47Z)
Towards High Performance, Portability, and Productivity: Lightweight Augmented Neural Networks for Performance Prediction [0.0]
カーネル変種ハードウェアの任意の組み合わせのための軽量な拡張ニューラルネットワークを提案する。従来のフィードフォワードニューラルネットワークよりもはるかに優れた、3%の低いMAPEが得られるのです。私たちの変分選択アプローチは、Halideの実装で、Halideの自動スケジューリングよりも最大1.7倍のスピードアップを得るために使用できます。
論文参考訳（メタデータ） (2020-03-17T02:19:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。