論文の概要: The CoRa Tensor Compiler: Compilation for Ragged Tensors with Minimal
Padding
- arxiv url: http://arxiv.org/abs/2110.10221v1
- Date: Tue, 19 Oct 2021 19:39:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-22 17:04:52.232602
- Title: The CoRa Tensor Compiler: Compilation for Ragged Tensors with Minimal
Padding
- Title(参考訳): CoRaテンソルコンパイラ:最小パディング付きラグテンソルのコンパイル
- Authors: Pratik Fegade, Tianqi Chen, Phillip B. Gibbons, Todd C. Mowry
- Abstract要約: CoRaはテンソルコンパイラで、ユーザはタグ付きテンソル演算子の効率的なコードを簡単に生成できる。
我々は,ラッジテンソル上での各種演算子およびトランスモデルのエンコーダ層上でのCoRaの評価を行った。
- 参考スコア(独自算出の注目度): 14.635810503599759
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There is often variation in the shape and size of input data used for deep
learning. In many cases, such data can be represented using tensors with
non-uniform shapes, or ragged tensors. Due to limited and non-portable support
for efficient execution on ragged tensors, current deep learning frameworks
generally use techniques such as padding and masking to make the data shapes
uniform and then offload the computations to optimized kernels for dense tensor
algebra. Such techniques can, however, lead to a lot of wasted computation and
therefore, a loss in performance. This paper presents CoRa, a tensor compiler
that allows users to easily generate efficient code for ragged tensor operators
targeting a wide range of CPUs and GPUs. Evaluating CoRa on a variety of
operators on ragged tensors as well as on an encoder layer of the transformer
model, we find that CoRa (i)performs competitively with hand-optimized
implementations of the operators and the transformer encoder and (ii) achieves,
over PyTorch, a 1.6X geomean speedup for the encoder on an Nvidia GPU and a
1.86X geomean speedup for the multi-head attention module used in transformers
on an ARM CPU.
- Abstract(参考訳): ディープラーニングに使用される入力データの形状とサイズには、しばしばバリエーションがある。
多くの場合、そのようなデータは一様でない形を持つテンソルやぼろぼろのテンソルを使って表現することができる。
現在のディープラーニングフレームワークは、タグ付きテンソル上での効率的な実行を限定的かつ非可搬的にサポートしているため、データ形状を均一にするためにパディングやマスキングなどの技術を使い、高密度テンソル代数のために最適化されたカーネルに計算をオフロードする。
しかし、このようなテクニックは、多くの無駄な計算につながるため、パフォーマンスが低下する可能性がある。
本稿では,幅広いcpuとgpuを対象としたラギングテンソル演算子の効率的なコード生成を可能にするテンソルコンパイラcoraを提案する。
ロータテンソル上の様々な作用素およびトランスモデルのエンコーダ層上でのCoRaの評価により、CoRaが得られた。
(i)演算子と変換器エンコーダのハンド最適化実装と競合する性能
(ii)pytorchでは、nvidia gpu上のエンコーダの1.6倍のジオメアンスピードアップと、armcpu上のトランスフォーマーで使用されるマルチヘッドアテンションモジュールの1.26倍のジオメアンスピードアップを実現している。
関連論文リスト
- FTuner: A Fast Dynamic Shape Tensors Program Auto-Tuner for Deep Learning Compilers [6.194917248699324]
本稿では,FTunerと呼ばれるディープラーニングコンパイラの新しい手法を提案する。
実験によると、FTunerはベンダーのライブラリに匹敵する演算子とエンドツーエンドのパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2024-07-31T08:05:33Z) - Scalable CP Decomposition for Tensor Learning using GPU Tensor Cores [47.87810316745786]
本研究では,エクサスケールテンソル分解を支援する圧縮型テンソル分解フレームワークを提案する。
ベースラインと比較すると、エクスカスケール・テンソルは8000倍のテンソルをサポートし、スピードアップは6.95倍である。
また,本手法を遺伝子解析とテンソル層ニューラルネットワークを含む実世界の2つの応用に適用する。
論文 参考訳(メタデータ) (2023-11-22T21:04:59Z) - TensorKrowch: Smooth integration of tensor networks in machine learning [46.0920431279359]
PyTorch上に構築されたオープンソースのPythonライブラリであるKrowchを紹介します。
ユーザは任意のテンソルネットワークを構築してトレーニングし、より複雑なディープラーニングモデルにレイヤとして統合することができる。
論文 参考訳(メタデータ) (2023-06-14T15:55:19Z) - Low-Rank Tensor Function Representation for Multi-Dimensional Data
Recovery [52.21846313876592]
低ランクテンソル関数表現(LRTFR)は、無限解像度でメッシュグリッドを超えてデータを連続的に表現することができる。
テンソル関数に対する2つの基本的な概念、すなわちテンソル関数ランクとローランクテンソル関数分解を開発する。
提案手法は,最先端手法と比較して,提案手法の優越性と汎用性を裏付けるものである。
論文 参考訳(メタデータ) (2022-12-01T04:00:38Z) - Hidet: Task Mapping Programming Paradigm for Deep Learning Tensor
Programs [11.338285393619042]
本稿では,スケジューリングプロセスをテンソルプログラムに組込み,タスクマッピングと呼ばれる専用マッピングを用いて計算の割り当てと順序付けを定義することを提案する。
提案するパラダイムでは、深層学習コンパイラであるHietを実装しています。
論文 参考訳(メタデータ) (2022-10-18T05:32:13Z) - Stable, Fast and Accurate: Kernelized Attention with Relative Positional
Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。
相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文 参考訳(メタデータ) (2021-06-23T17:51:26Z) - Cherry-Picking Gradients: Learning Low-Rank Embeddings of Visual Data
via Differentiable Cross-Approximation [53.95297550117153]
本稿では,大規模な視覚データテンソルの処理を行うエンドツーエンドのトレーニング可能なフレームワークを提案する。
提案手法は大規模多次元グリッドデータや,大規模受容領域上のコンテキストを必要とするタスクに特に有用である。
論文 参考訳(メタデータ) (2021-05-29T08:39:57Z) - VersaGNN: a Versatile accelerator for Graph neural networks [81.1667080640009]
我々は,超効率的なサイストリックアレイベースの多用途ハードウェアアクセラレータである textitVersaGNN を提案する。
textitVersaGNNは平均3712$times$ speedup with 1301.25$times$ energy reduction on CPU、35.4$times$ speedup with 17.66$times$ energy reduction on GPUを達成している。
論文 参考訳(メタデータ) (2021-05-04T04:10:48Z) - UNIT: Unifying Tensorized Instruction Compilation [11.193044425743981]
ハードウェアベンダは、Intel VNNI、Core、ARM-DOTなどの混合精度操作に対して、テンソル化命令を提供する。
これに対するコンパイルテクニックの欠如は、これらの命令の活用を困難にしている。
これらの命令のコンパイルを統一するコンパイラフレームワークを開発する。
論文 参考訳(メタデータ) (2021-01-21T06:22:58Z) - Tensor Relational Algebra for Machine Learning System Design [7.764107702934616]
本稿では、リレーショナルテンソル代数(TRA)と呼ばれる別の実装抽象化を提案する。
TRA は、リレーショナル代数に基づく集合基底代数である。
我々の実証研究は、最適化されたTRAベースのバックエンドが、分散クラスタでMLを実行する際の選択肢を大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2020-09-01T15:51:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。