論文の概要: CMLCompiler: A Unified Compiler for Classical Machine Learning
- arxiv url: http://arxiv.org/abs/2301.13441v2
- Date: Wed, 1 Feb 2023 02:49:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-02 18:46:16.117476
- Title: CMLCompiler: A Unified Compiler for Classical Machine Learning
- Title(参考訳): cmlcompiler: 古典的機械学習のための統一コンパイラ
- Authors: Xu Wen, Wanling Gao, Anzheng Li, Lei Wang, Zihan Jiang, Jianfeng Zhan
- Abstract要約: CMLは、本番アプリケーションで機械学習パイプラインの半分近くを占めている。
統合されたフレームワークがなければ、ディープラーニング(DL)とCMLのハイブリッドデプロイメントは、厳しいパフォーマンスとポータビリティの問題に悩まされる。
本稿では,CML推論のためのCMLコンパイラ (CML Compiler) の設計について述べる。
- 参考スコア(独自算出の注目度): 2.80798223481966
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Classical machine learning (CML) occupies nearly half of machine learning
pipelines in production applications. Unfortunately, it fails to utilize the
state-of-the-practice devices fully and performs poorly. Without a unified
framework, the hybrid deployments of deep learning (DL) and CML also suffer
from severe performance and portability issues. This paper presents the design
of a unified compiler, called CMLCompiler, for CML inference. We propose two
unified abstractions: operator representations and extended computational
graphs. The CMLCompiler framework performs the conversion and graph
optimization based on two unified abstractions, then outputs an optimized
computational graph to DL compilers or frameworks. We implement CMLCompiler on
TVM. The evaluation shows CMLCompiler's portability and superior performance.
It achieves up to 4.38x speedup on CPU, 3.31x speedup on GPU, and 5.09x speedup
on IoT devices, compared to the state-of-the-art solutions -- scikit-learn,
intel sklearn, and hummingbird. Our performance of CML and DL mixed pipelines
achieves up to 3.04x speedup compared with cross-framework implementations.
- Abstract(参考訳): 古典的な機械学習(CML)は、プロダクションアプリケーションにおける機械学習パイプラインの半分近くを占めている。
残念ながら、現状のデバイスを十分に活用できず、性能が良くない。
統合されたフレームワークがなければ、ディープラーニング(DL)とCMLのハイブリッドデプロイメントも、厳しいパフォーマンスとポータビリティの問題に悩まされる。
本稿では,CML推論のためのCMLコンパイラ (CML Compiler) の設計について述べる。
演算子表現と拡張計算グラフの2つの統合抽象化を提案する。
CMLCompilerフレームワークは、2つの統合された抽象化に基づいて変換とグラフの最適化を行い、最適化された計算グラフをDLコンパイラやフレームワークに出力する。
我々はTVMにCMLコンパイラを実装した。
この評価はCMLコンパイラのポータビリティと優れた性能を示している。
CPUでは最大4.38倍のスピードアップ、GPUでは3.31倍のスピードアップ、IoTデバイスでは5.09倍のスピードアップを実現している。
CMLとDL混合パイプラインの性能は、クロスフレームワークの実装と比較して最大3.04倍のスピードアップを実現しています。
関連論文リスト
- MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。
バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。
MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文 参考訳(メタデータ) (2024-08-21T16:10:41Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [19.167604927651073]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z) - Extreme Compression of Large Language Models via Additive Quantization [59.3122859349777]
我々のアルゴリズムは、AQLMと呼ばれ、情報検索のための古典的な加算量子化(AQ)アプローチを一般化する。
トークン生成のためのAQLMの高速GPUおよびCPU実装を提供しており、最適化されたFP16実装を高速にマッチングまたは性能良くすることができる。
論文 参考訳(メタデータ) (2024-01-11T18:54:44Z) - ACPO: AI-Enabled Compiler-Driven Program Optimization [1.879008610342411]
ACPOは、さまざまな最適化パスにMLモデルを使用することの恩恵を受けるために、LLVMにシンプルで包括的なツールを提供するフレームワークである。
LLVM の O3 最適化と比較して,Loop Unroll の ACPO モデルでは,Polybench にデプロイすると平均 4% の値が得られることを示す。
論文 参考訳(メタデータ) (2023-12-15T17:49:24Z) - Fast Chain-of-Thought: A Glance of Future from Parallel Decoding Leads to Answers Faster [61.83949316226113]
FastCoTは並列デコーディングに基づくモデルに依存しないフレームワークである。
我々は、FastCoTが通常のアプローチと比較して、無視できる性能低下だけで、推論時間を20%近く削減できることを示します。
論文 参考訳(メタデータ) (2023-11-14T15:56:18Z) - Automatic Task Parallelization of Dataflow Graphs in ML/DL models [0.0]
本稿では,MLデータフローグラフに固有の並列パスを利用する線形クラスタリング手法を提案する。
我々はONNX形式で入力MLモデルから可読かつ実行可能な並列Pytorch+Pythonコードを生成する。
いくつかのMLグラフの予備結果は、シリアル実行よりも1.9$times$スピードアップである。
論文 参考訳(メタデータ) (2023-08-22T04:54:30Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - In Situ Framework for Coupling Simulation and Machine Learning with
Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。
シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。
この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文 参考訳(メタデータ) (2023-06-22T14:07:54Z) - HDCC: A Hyperdimensional Computing compiler for classification on
embedded systems and high-performance computing [58.720142291102135]
この研究は、HDC分類メソッドの高レベルな記述を最適化されたCコードに変換する最初のオープンソースコンパイラである、ネームコンパイラを紹介している。
nameは現代のコンパイラのように設計されており、直感的で記述的な入力言語、中間表現(IR)、再ターゲット可能なバックエンドを備えている。
これらの主張を裏付けるために,HDC文献で最もよく使われているデータセットについて,HDCCを用いて実験を行った。
論文 参考訳(メタデータ) (2023-04-24T19:16:03Z) - MLGO: a Machine Learning Guided Compiler Optimizations Framework [0.0]
この作業は、実際の設定で複雑なコンパイラパスで機械学習を初めて完全に統合した作業です。
インライン・フォー・サイズモデルのトレーニングには2つの異なるMLアルゴリズムを使用し、最大7%の削減を実現している。
同じモデルは、実世界のターゲットの多様性、そして数ヶ月のアクティブな開発の後、同じターゲットセットにうまく一般化します。
論文 参考訳(メタデータ) (2021-01-13T00:02:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。