論文の概要: Automatic Generators for a Family of Matrix Multiplication Routines with
Apache TVM
- arxiv url: http://arxiv.org/abs/2310.20347v1
- Date: Tue, 31 Oct 2023 10:36:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 15:30:26.214034
- Title: Automatic Generators for a Family of Matrix Multiplication Routines with
Apache TVM
- Title(参考訳): Apache TVMを用いた行列乗算ルーチンの家族向け自動生成装置
- Authors: Guillermo Alaejos, Adri\'an Castell\'o, Pedro Alonso-Jord\'a,
Francisco D. Igual, H\'ector Mart\'inez, Enrique S. Quintana-Ort\'i
- Abstract要約: 我々は、GotoBLAS2、BLIS、OpenBLASといった一般的な線形代数ライブラリのアプローチに従うアルゴリズム群を生成する。
我々はまた、Apache TVMフレームワークを活用して、GEMM用のプロセッサ固有のマイクロカーネルを完全に引き出す。
- 参考スコア(独自算出の注目度): 0.20971479389679337
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We explore the utilization of the Apache TVM open source framework to
automatically generate a family of algorithms that follow the approach taken by
popular linear algebra libraries, such as GotoBLAS2, BLIS and OpenBLAS, in
order to obtain high-performance blocked formulations of the general matrix
multiplication (GEMM). % In addition, we fully automatize the generation
process, by also leveraging the Apache TVM framework to derive a complete
variety of the processor-specific micro-kernels for GEMM. This is in contrast
with the convention in high performance libraries, which hand-encode a single
micro-kernel per architecture using Assembly code. % In global, the combination
of our TVM-generated blocked algorithms and micro-kernels for GEMM 1)~improves
portability, maintainability and, globally, streamlines the software life
cycle; 2)~provides high flexibility to easily tailor and optimize the solution
to different data types, processor architectures, and matrix operand shapes,
yielding performance on a par (or even superior for specific matrix shapes)
with that of hand-tuned libraries; and 3)~features a small memory footprint.
- Abstract(参考訳): 本稿では,GTOBLAS2やBLIS,OpenBLASといった一般的な線形代数ライブラリのアプローチに従うアルゴリズム群を自動的に生成して,汎用行列乗算(GEMM)の高性能なブロック形式を得るために,Apache TVMオープンソースフレームワークの利用について検討する。
さらに, GEMM用のプロセッサ固有のマイクロカーネルの完全な多様性を導き出すために, Apache TVM フレームワークを活用することで, 生成プロセスを完全に自動化する。
これは、アセンブリコードを使用してアーキテクチャごとに単一のマイクロカーネルをハンドエンコードするハイパフォーマンスライブラリの慣例とは対照的である。
2) 様々なデータタイプ、プロセッサアーキテクチャ、マトリックスオペランドシェイプのソリューションを簡単に調整し最適化するための高い柔軟性を提供し、ハンドチューニングされたライブラリのそれと同等(あるいは特定のマトリックスシェイプよりも優れている)のパフォーマンスをもたらす。
関連論文リスト
- Hybrid programming-model strategies for GPU offloading of electronic
structure calculation kernels [2.4898174182192974]
PROGRESSは電子構造解析のためのライブラリである。
電子構造カーネルに対する線形代数演算を実装している。
本稿では,これらの実装における汎用戦略について述べる。
論文 参考訳(メタデータ) (2024-01-24T19:38:01Z) - Extreme Compression of Large Language Models via Additive Quantization [59.3122859349777]
我々のアルゴリズムは、AQLMと呼ばれ、情報検索のための古典的な加算量子化(AQ)アプローチを一般化する。
トークン生成のためのAQLMの高速GPUおよびCPU実装を提供しており、最適化されたFP16実装を高速にマッチングまたは性能良くすることができる。
論文 参考訳(メタデータ) (2024-01-11T18:54:44Z) - Machine Learning Insides OptVerse AI Solver: Design Principles and
Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。
本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。
本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文 参考訳(メタデータ) (2024-01-11T15:02:15Z) - A Case Study in CUDA Kernel Fusion: Implementing FlashAttention-2 on
NVIDIA Hopper Architecture using the CUTLASS Library [0.7366405857677227]
我々は、NVIDIA Hopperアーキテクチャをターゲットとしたカスタムフューズカーネルとして、FlashAttention-2の前方パスの最適化実装を提供する。
最新のNVIDIA Ampereアーキテクチャ向けに最適化されたFlashAttention-2のバージョンよりも20~50%高いFLOP/sを観測した。
論文 参考訳(メタデータ) (2023-12-19T07:56:25Z) - Tackling the Matrix Multiplication Micro-kernel Generation with Exo [0.5517652814152908]
新しいハードウェアごとに専用のマイクロカーネルを生成するためのステップバイステップの手順を提案する。
ハードウェアターゲットは、その命令の簡潔なライブラリベースの記述によって完全に指定されるため、生成したコードの移植性も向上する。
論文 参考訳(メタデータ) (2023-10-26T14:09:57Z) - Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z) - Reconfigurable Intelligent Surface Assisted Mobile Edge Computing with
Heterogeneous Learning Tasks [53.1636151439562]
モバイルエッジコンピューティング(MEC)は、AIアプリケーションに自然なプラットフォームを提供します。
再構成可能なインテリジェントサーフェス(RIS)の助けを借りて、MECで機械学習タスクを実行するインフラストラクチャを提示します。
具体的には,モバイルユーザの送信パワー,基地局のビームフォーミングベクトル,risの位相シフト行列を共同で最適化することにより,参加ユーザの学習誤差を最小化する。
論文 参考訳(メタデータ) (2020-12-25T07:08:50Z) - FusedMM: A Unified SDDMM-SpMM Kernel for Graph Embedding and Graph
Neural Networks [3.577310844634503]
本研究では, サンプル密度行列乗算とスパース密度行列乗算をFusedMMと呼ばれる単一演算の下で統一する融合行列乗算カーネルを開発した。
ユーザ定義関数を使用することで、FusedMMは一般的なグラフ埋め込みやGNNアプローチで必要とされる、ほぼすべての計算パターンをキャプチャできる。
論文 参考訳(メタデータ) (2020-11-07T18:06:57Z) - Optimizing Block-Sparse Matrix Multiplications on CUDA with TVM [0.0]
我々は、ディープラーニングコンパイラであるTVMを利用して、動作のスケジュール空間を探索し、効率的なコードを生成する。
クロススレッドリダクションベースの実装は、他の最先端フレームワークと比較して、競争力やパフォーマンスが向上しました。
論文 参考訳(メタデータ) (2020-07-26T04:50:51Z) - Auto-PyTorch Tabular: Multi-Fidelity MetaLearning for Efficient and
Robust AutoDL [53.40030379661183]
Auto-PyTorchは、完全に自動化されたディープラーニング(AutoDL)を実現するフレームワーク
ディープニューラルネットワーク(DNN)のウォームスタートとアンサンブルのためのマルチフィデリティ最適化とポートフォリオ構築を組み合わせる。
Auto-PyTorchは、いくつかの最先端の競合製品よりもパフォーマンスが良いことを示す。
論文 参考訳(メタデータ) (2020-06-24T15:15:17Z) - PolyScientist: Automatic Loop Transformations Combined with Microkernels
for Optimization of Deep Learning Primitives [55.79741270235602]
深層学習カーネル開発のためのハイブリッドソリューションを開発する。
我々は、高度な多面体技術を用いて、パフォーマンスのために外部ループを自動的に調整する。
論文 参考訳(メタデータ) (2020-02-06T08:02:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。