論文の概要: Benchmarking the Linear Algebra Awareness of TensorFlow and PyTorch
- arxiv url: http://arxiv.org/abs/2202.09888v1
- Date: Sun, 20 Feb 2022 18:51:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-25 10:13:03.712048
- Title: Benchmarking the Linear Algebra Awareness of TensorFlow and PyTorch
- Title(参考訳): TensorFlowとPyTorchの線形代数認識のベンチマーク
- Authors: Aravind Sankaran, Navid Akbari Alashti, Christos Psarras, Paolo
Bientinesi
- Abstract要約: 我々は、TFとPyTの線形代数最適化能力を調べるためのベンチマークを開発する。
本研究では、TFおよびPyTにおける線形代数計算に焦点を当てる。
- 参考スコア(独自算出の注目度): 1.1470070927586016
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Linear algebra operations, which are ubiquitous in machine learning, form
major performance bottlenecks. The High-Performance Computing community invests
significant effort in the development of architecture-specific optimized
kernels, such as those provided by the BLAS and LAPACK libraries, to speed up
linear algebra operations. However, end users are progressively less likely to
go through the error prone and time-consuming process of directly using said
kernels; instead, frameworks such as TensorFlow (TF) and PyTorch (PyT), which
facilitate the development of machine learning applications, are becoming more
and more popular. Although such frameworks link to BLAS and LAPACK, it is not
clear whether or not they make use of linear algebra knowledge to speed up
computations. For this reason, in this paper we develop benchmarks to
investigate the linear algebra optimization capabilities of TF and PyT. Our
analyses reveal that a number of linear algebra optimizations are still
missing; for instance, reducing the number of scalar operations by applying the
distributive law, and automatically identifying the optimal parenthesization of
a matrix chain. In this work, we focus on linear algebra computations in TF and
PyT; we both expose opportunities for performance enhancement to the benefit of
the developers of the frameworks and provide end users with guidelines on how
to achieve performance gains.
- Abstract(参考訳): 機械学習においてユビキタスな線形代数演算は、大きなパフォーマンスボトルネックを形成する。
高性能コンピューティングコミュニティは、線形代数演算を高速化するために、blasやlapackライブラリが提供するようなアーキテクチャ固有の最適化カーネルの開発に多大な投資をしている。
しかし、エンドユーザーは、これらのカーネルを直接使用するエラーの傾向と時間のかかるプロセスを徐々に経験しなくなり、代わりに、機械学習アプリケーションの開発を容易にするTensorFlow(TF)やPyTorch(PyT)といったフレームワークがますます人気を集めている。
このようなフレームワークは BLAS や LAPACK にリンクしているが、線形代数の知識を使って計算を高速化するかどうかは不明である。
そこで本稿では, TF と PyT の線形代数最適化能力を評価するベンチマークを開発する。
例えば、分散則を適用してスカラー演算の数を減らし、行列連鎖の最適括弧を自動同定するなどである。
本研究では,TF と PyT の線形代数計算に焦点をあて,両フレームワークの開発者によるパフォーマンス向上の機会を明らかにし,エンドユーザーに性能向上の方法に関するガイドラインを提供する。
関連論文リスト
- CoLA: Exploiting Compositional Structure for Automatic and Efficient
Numerical Linear Algebra [62.37017125812101]
機械学習における大規模線形代数問題に対して, CoLA という, 単純だが汎用的なフレームワークを提案する。
線形演算子抽象と合成ディスパッチルールを組み合わせることで、CoLAはメモリと実行時の効率的な数値アルゴリズムを自動的に構築する。
偏微分方程式,ガウス過程,同変モデル構築,教師なし学習など,幅広い応用で有効性を示す。
論文 参考訳(メタデータ) (2023-09-06T14:59:38Z) - GloptiNets: Scalable Non-Convex Optimization with Certificates [61.50835040805378]
本稿では,ハイパーキューブやトーラス上のスムーズな関数を扱う証明書を用いた非キューブ最適化手法を提案する。
スペクトルの減衰に固有の対象関数の正則性を活用することにより、正確な証明を取得し、高度で強力なニューラルネットワークを活用することができる。
論文 参考訳(メタデータ) (2023-06-26T09:42:59Z) - Performance Embeddings: A Similarity-based Approach to Automatic
Performance Optimization [71.69092462147292]
パフォーマンス埋め込みは、アプリケーション間でパフォーマンスチューニングの知識伝達を可能にする。
本研究では, 深層ニューラルネットワーク, 密度およびスパース線形代数合成, および数値風速予測ステンシルのケーススタディにおいて, この伝達チューニング手法を実証する。
論文 参考訳(メタデータ) (2023-03-14T15:51:35Z) - ML-driven Hardware Cost Model for MLIR [1.2987894327817158]
高レベルMLIRのための機械学習に基づくコストモデルを開発した。
MLIRをラ・NLPモデルのテキスト入力として考えることにより、現代のNLP研究からよく知られた技術を適用することができる。
これらのモデルにより,種々のハードウェア特性に対する誤差境界が低く,合理的に優れた推定値が得られることを示す。
論文 参考訳(メタデータ) (2023-02-14T11:32:47Z) - TensorIR: An Abstraction for Automatic Tensorized Program Optimization [22.812702519665617]
本稿では,テンソル計算プリミティブでプログラムを最適化するコンパイラIRを提案する。
コンパイルの上にエンドツーエンドのフレームワークを構築し、与えられたテンソル計算プリミティブに対してディープラーニングモデルを自動的に最適化します。
論文 参考訳(メタデータ) (2022-07-09T16:28:57Z) - A Deep Learning Inference Scheme Based on Pipelined Matrix
Multiplication Acceleration Design and Non-uniform Quantization [9.454905560571085]
本稿では,パイプライン行列乗算法と非一様量子化法に基づく低消費電力多層パーセプトロン(MLP)加速器を提案する。
その結果,本手法は少ない消費電力で優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-10-10T17:31:27Z) - Tensor Relational Algebra for Machine Learning System Design [7.764107702934616]
本稿では、リレーショナルテンソル代数(TRA)と呼ばれる別の実装抽象化を提案する。
TRA は、リレーショナル代数に基づく集合基底代数である。
我々の実証研究は、最適化されたTRAベースのバックエンドが、分散クラスタでMLを実行する際の選択肢を大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2020-09-01T15:51:24Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z) - Predictive Coding Approximates Backprop along Arbitrary Computation
Graphs [68.8204255655161]
我々は、コア機械学習アーキテクチャを予測的符号化に翻訳する戦略を開発する。
私たちのモデルは、挑戦的な機械学習ベンチマークのバックプロップと同等に機能します。
本手法は,ニューラルネットワークに標準機械学習アルゴリズムを直接実装できる可能性を高める。
論文 参考訳(メタデータ) (2020-06-07T15:35:47Z) - PolyDL: Polyhedral Optimizations for Creation of High Performance DL
primitives [55.79741270235602]
本稿では,Deep Learningプリミティブの高性能実装を自動的に生成するコンパイラアルゴリズムを提案する。
我々は多面体モデルを用いた新しいデータ再利用分析アルゴリズムを開発した。
また、このようなハイブリッドコンパイラとライブラリ使用の最小限のアプローチが、最先端のパフォーマンスをもたらすことを示す。
論文 参考訳(メタデータ) (2020-06-02T06:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。