論文の概要: FTuner: A Fast Dynamic Shape Tensors Program Auto-Tuner for Deep Learning Compilers
- arxiv url: http://arxiv.org/abs/2407.21418v1
- Date: Wed, 31 Jul 2024 08:05:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-01 12:47:12.350690
- Title: FTuner: A Fast Dynamic Shape Tensors Program Auto-Tuner for Deep Learning Compilers
- Title(参考訳): FTuner: ディープラーニングコンパイラのための高速な動的形状テンソルプログラムAuto-Tuner
- Authors: Pengyu Mu, Linquan Wei, Yi Liu, Rui Wang,
- Abstract要約: 本稿では,FTunerと呼ばれるディープラーニングコンパイラの新しい手法を提案する。
実験によると、FTunerはベンダーのライブラリに匹敵する演算子とエンドツーエンドのパフォーマンスを実現することができる。
- 参考スコア(独自算出の注目度): 6.194917248699324
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many artificial intelligence models process input data of different lengths and resolutions, making the shape of the tensors dynamic. The performance of these models depends on the shape of the tensors, which makes it difficult to optimize the tensors before the model runs. There are two common solutions to this problem. The first is to add useless data to the input to match a pre-optimized tensor library. The second is to use small basic tensors to create a tensor that is closest in size to the input data and then tune it to minimize padding. However, this second solution can be time-consuming. This paper proposes a new technique for deep learning compilers called FTuner. Instead of using a large design space or training a cost model, we use an abstract computational unit called the uKernel to patch together small, various-sized tensors to match the shape of the input tensor. We determine the shape of the uKernel using an analytic hardware information model. Experiments show that the FTuner can achieve comparable operators and end-to-end performance to vendor libraries and achieves 3\% speedup on existing auto-tuner with the model-training compiler while reducing tuning time by two orders of magnitude.
- Abstract(参考訳): 多くの人工知能モデルは、異なる長さと解像度の入力データを処理し、テンソルの形状を動的にする。
これらのモデルの性能はテンソルの形状に依存するため、モデルが実行される前にテンソルを最適化することは困難である。
この問題には2つの共通解がある。
ひとつは、事前に最適化されたテンソルライブラリにマッチするように、入力に無駄なデータを追加することです。
2つ目は、小さな基本テンソルを使用して入力データに最も近いテンソルを生成し、パディングを最小限にするために調整することだ。
しかし、この2つ目の解決策は時間がかかる可能性がある。
本稿では,FTunerと呼ばれるディープラーニングコンパイラの新しい手法を提案する。
大規模な設計空間を使用するか、コストモデルを訓練する代わりに、uKernelと呼ばれる抽象計算ユニットを使用して、入力テンソルの形状に合わせて、小さくて様々なサイズのテンソルをまとめる。
解析ハードウェア情報モデルを用いて,uKernelの形状を決定する。
実験によると、FTunerはベンダーライブラリに匹敵する演算子とエンドツーエンドのパフォーマンスを達成でき、モデルトレーニングコンパイラで既存のオートチューニングコンパイラで3倍のスピードアップを実現し、チューニング時間を2桁に短縮できる。
関連論文リスト
- Truncated Consistency Models [57.50243901368328]
トレーニング一貫性モデルは、PF ODE 軌道に沿ったすべての中間点を対応するエンドポイントにマッピングする学習を必要とする。
このトレーニングパラダイムが一貫性モデルの1ステップ生成性能を制限することを実証的に見出した。
整合性関数の新しいパラメータ化と2段階の訓練手順を提案し,時間外学習が崩壊することを防ぐ。
論文 参考訳(メタデータ) (2024-10-18T22:38:08Z) - MatFormer: Nested Transformer for Elastic Inference [94.1789252941718]
MatFormerは、様々なデプロイメント制約で弾力性を提供するように設計されたネストトランスフォーマーアーキテクチャである。
2.6BデコーダのみのMatFormer言語モデル(MatLM)は1.5Bから2.6Bまでの小さなモデルを抽出できることを示す。
また,MatFormerベースのViT(MatViT)エンコーダから抽出した小さなエンコーダは,適応的な大規模検索のための距離空間構造を保持する。
論文 参考訳(メタデータ) (2023-10-11T17:57:14Z) - Hidet: Task Mapping Programming Paradigm for Deep Learning Tensor
Programs [11.338285393619042]
本稿では,スケジューリングプロセスをテンソルプログラムに組込み,タスクマッピングと呼ばれる専用マッピングを用いて計算の割り当てと順序付けを定義することを提案する。
提案するパラダイムでは、深層学習コンパイラであるHietを実装しています。
論文 参考訳(メタデータ) (2022-10-18T05:32:13Z) - Near-Linear Time and Fixed-Parameter Tractable Algorithms for Tensor
Decompositions [51.19236668224547]
テンソルの低階近似について検討し,テンソルトレインとタッカー分解に着目した。
テンソル列車の分解には、小さなビクリテリアランクを持つビクリテリア$(1 + eps)$-approximationアルゴリズムと、O(q cdot nnz(A))$ランニングタイムを与える。
さらに、任意のグラフを持つテンソルネットワークにアルゴリズムを拡張します。
論文 参考訳(メタデータ) (2022-07-15T11:55:09Z) - DELTA: Dynamically Optimizing GPU Memory beyond Tensor Recomputation [29.804356645683463]
テンソルスワップとテンソル再計算のための新しいスケジューラDELTAを提案する。
DELTAはGPUメモリの40%-70%を節約できるだけでなく、最先端の手法をはるかに上回っている。
論文 参考訳(メタデータ) (2022-03-30T01:40:25Z) - The CoRa Tensor Compiler: Compilation for Ragged Tensors with Minimal
Padding [14.635810503599759]
CoRaはテンソルコンパイラで、ユーザはタグ付きテンソル演算子の効率的なコードを簡単に生成できる。
我々は,ラッジテンソル上での各種演算子およびトランスモデルのエンコーダ層上でのCoRaの評価を行った。
論文 参考訳(メタデータ) (2021-10-19T19:39:04Z) - Cherry-Picking Gradients: Learning Low-Rank Embeddings of Visual Data
via Differentiable Cross-Approximation [53.95297550117153]
本稿では,大規模な視覚データテンソルの処理を行うエンドツーエンドのトレーニング可能なフレームワークを提案する。
提案手法は大規模多次元グリッドデータや,大規模受容領域上のコンテキストを必要とするタスクに特に有用である。
論文 参考訳(メタデータ) (2021-05-29T08:39:57Z) - Multi-version Tensor Completion for Time-delayed Spatio-temporal Data [50.762087239885936]
実世界の時間データは、様々なデータ読み込み遅延のために不完全または不正確な場合が多い。
経時的に更新を予測するための低ランクテンソルモデルを提案する。
最良基準法に比べて最大27.2%低いルート平均二乗誤差が得られる。
論文 参考訳(メタデータ) (2021-05-11T19:55:56Z) - Towards Compact Neural Networks via End-to-End Training: A Bayesian
Tensor Approach with Automatic Rank Determination [11.173092834726528]
コンパクトニューラルネットワークをスクラッチから直接、低メモリと低計算コストでトレーニングすることが望ましい。
低ランクテンソル分解は、大規模ニューラルネットワークのメモリと計算要求を減らす最も効果的な手法の1つである。
本稿では,ニューラルネットワークの低ランクテンソル化トレーニングのためのエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-17T01:23:26Z) - Streaming Coresets for Symmetric Tensor Factorization [9.181791777532608]
ストリーミング環境でテンソルを効率的に分解する方法を示す。
本稿では,オンラインフィルタリングとカーネル化という2つの新しいアルゴリズム手法を紹介する。
単一トピックモデリング学習におけるアルゴリズムの適用例を示す。
論文 参考訳(メタデータ) (2020-06-01T19:55:34Z) - Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。
これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。
この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-02-21T05:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。