論文の概要: Compressing Structured Tensor Algebra
- arxiv url: http://arxiv.org/abs/2407.13726v1
- Date: Thu, 18 Jul 2024 17:25:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 14:02:17.406484
- Title: Compressing Structured Tensor Algebra
- Title(参考訳): 圧縮構造テンソル代数
- Authors: Mahdi Ghorbani, Emilien Bauer, Tobias Grosser, Amir Shaikhha,
- Abstract要約: DASTACはテンソルが捕捉した高レベル構造を低レベルコード生成に伝達するフレームワークである。
本手法は,最適なデータレイアウトを自動的に検出することでメモリフットプリントを削減する。
DASTACは、最先端のスパーステンソルコンパイラであるTACOと、最先端の構造化テンソル代数コンパイラであるStructTensorに対して、1~2桁の高速化を実現する。
- 参考スコア(独自算出の注目度): 1.2624532490634646
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tensor algebra is a crucial component for data-intensive workloads such as machine learning and scientific computing. As the complexity of data grows, scientists often encounter a dilemma between the highly specialized dense tensor algebra and efficient structure-aware algorithms provided by sparse tensor algebra. In this paper, we introduce DASTAC, a framework to propagate the tensors's captured high-level structure down to low-level code generation by incorporating techniques such as automatic data layout compression, polyhedral analysis, and affine code generation. Our methodology reduces memory footprint by automatically detecting the best data layout, heavily benefits from polyhedral optimizations, leverages further optimizations, and enables parallelization through MLIR. Through extensive experimentation, we show that DASTAC achieves 1 to 2 orders of magnitude speedup over TACO, a state-of-the-art sparse tensor compiler, and StructTensor, a state-of-the-art structured tensor algebra compiler, with a significantly lower memory footprint.
- Abstract(参考訳): テンソル代数は、機械学習や科学計算のようなデータ集約型ワークロードにとって重要なコンポーネントである。
データの複雑さが増大するにつれて、科学者はしばしば、高度に特殊化されたテンソル代数とスパーステンソル代数によって提供される効率的な構造認識アルゴリズムの間のジレンマに遭遇する。
本稿では,自動データレイアウト圧縮,多面解析,アフィンコード生成などの手法を取り入れて,テンソルが捕捉した高レベル構造を低レベルコード生成に伝達するフレームワークであるDASTACを紹介する。
本手法は,最適なデータレイアウトを自動的に検出することでメモリフットプリントを低減し,多面体最適化の利点を大いに生かし,さらなる最適化を活用し,MLIRによる並列化を可能にする。
実験により,DASTACは,最先端のスパーステンソルコンパイラであるTACOと,最先端の構造化テンソル代数コンパイラであるStructTensorより1~2桁の高速化を実現し,メモリフットプリントを著しく低減した。
関連論文リスト
- Compute Better Spent: Replacing Dense Layers with Structured Matrices [77.61728033234233]
画像領域における畳み込みネットワークの成功が示すように、高密度行列に対するより効率的な代替手段を同定する。
異なる構造は、しばしばパフォーマンスに不可欠な、非常に異なる初期化尺度と学習率を必要とする。
本稿では,モナール行列を含む新しい行列族Block-Trainを提案する。
論文 参考訳(メタデータ) (2024-06-10T13:25:43Z) - Power of $\ell_1$-Norm Regularized Kaczmarz Algorithms for High-Order Tensor Recovery [8.812294191190896]
スパース構造および/またはローランク構造を特徴とする高次テンソルを復元するための新しいカッツマルツアルゴリズムを提案する。
合成および実世界の両方のデータセットに関する様々な数値実験により、提案手法の有効性と有意義なポテンシャルが示された。
論文 参考訳(メタデータ) (2024-05-14T02:06:53Z) - CORE: Common Random Reconstruction for Distributed Optimization with
Provable Low Communication Complexity [110.50364486645852]
コミュニケーションの複雑さは、トレーニングをスピードアップし、マシン番号をスケールアップする上で、大きなボトルネックになっています。
本稿では,機械間で送信される情報を圧縮するための共通Om REOmを提案する。
論文 参考訳(メタデータ) (2023-09-23T08:45:27Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - Performance Embeddings: A Similarity-based Approach to Automatic
Performance Optimization [71.69092462147292]
パフォーマンス埋め込みは、アプリケーション間でパフォーマンスチューニングの知識伝達を可能にする。
本研究では, 深層ニューラルネットワーク, 密度およびスパース線形代数合成, および数値風速予測ステンシルのケーススタディにおいて, この伝達チューニング手法を実証する。
論文 参考訳(メタデータ) (2023-03-14T15:51:35Z) - oneDNN Graph Compiler: A Hybrid Approach for High-Performance Deep
Learning Compilation [8.64220475114214]
oneDNN Graph Compilerは、コンパイラ最適化とエキスパートチューニングされたカーネルの両方のテクニックをハイパフォーマンスコード生成に使用するためのハイブリッドアプローチを採用している。
実験結果から,既存のテンソルコンパイラやプリミティブライブラリよりも高い性能を示した。
論文 参考訳(メタデータ) (2023-01-03T19:52:17Z) - Fast and Provable Tensor Robust Principal Component Analysis via Scaled
Gradient Descent [30.299284742925852]
本稿では、テンソルロバスト主成分分析(RPCA)に取り組む。
希少な腐敗によって汚染された観測から低ランクのテンソルを回収することを目的としている。
提案アルゴリズムは, 最先端行列やテンソルRPCAアルゴリズムよりも, より優れた, よりスケーラブルな性能を実現する。
論文 参考訳(メタデータ) (2022-06-18T04:01:32Z) - A Fast Parallel Tensor Decomposition with Optimal Stochastic Gradient
Descent: an Application in Structural Damage Identification [1.536989504296526]
本稿では, CANDECOMP/PARAFAC (CP) 分解を mathbbR I_1 times dots times I_N $ で並列化する新しいアルゴリズム FP-CPD を提案する。
論文 参考訳(メタデータ) (2021-11-04T05:17:07Z) - Tensor Relational Algebra for Machine Learning System Design [7.764107702934616]
本稿では、リレーショナルテンソル代数(TRA)と呼ばれる別の実装抽象化を提案する。
TRA は、リレーショナル代数に基づく集合基底代数である。
我々の実証研究は、最適化されたTRAベースのバックエンドが、分散クラスタでMLを実行する際の選択肢を大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2020-09-01T15:51:24Z) - PolyDL: Polyhedral Optimizations for Creation of High Performance DL
primitives [55.79741270235602]
本稿では,Deep Learningプリミティブの高性能実装を自動的に生成するコンパイラアルゴリズムを提案する。
我々は多面体モデルを用いた新しいデータ再利用分析アルゴリズムを開発した。
また、このようなハイブリッドコンパイラとライブラリ使用の最小限のアプローチが、最先端のパフォーマンスをもたらすことを示す。
論文 参考訳(メタデータ) (2020-06-02T06:44:09Z) - PolyScientist: Automatic Loop Transformations Combined with Microkernels
for Optimization of Deep Learning Primitives [55.79741270235602]
深層学習カーネル開発のためのハイブリッドソリューションを開発する。
我々は、高度な多面体技術を用いて、パフォーマンスのために外部ループを自動的に調整する。
論文 参考訳(メタデータ) (2020-02-06T08:02:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。