論文の概要: TLP: A Deep Learning-based Cost Model for Tensor Program Tuning
- arxiv url: http://arxiv.org/abs/2211.03578v1
- Date: Mon, 7 Nov 2022 14:11:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 19:00:15.852171
- Title: TLP: A Deep Learning-based Cost Model for Tensor Program Tuning
- Title(参考訳): TLP: テンソルプログラムチューニングのためのディープラーニングベースのコストモデル
- Authors: Yi Zhai, Yu Zhang, Shuo Liu, Xiaomeng Chu, Jie Peng, Jianmin Ji,
Yanyong Zhang
- Abstract要約: テンソルプログラムのチューニングを容易にする深層学習に基づくコストモデルであるTLPを提案する。
我々は、TLPがCPUワークロードで平均検索時間を9.1XX高速化できることを示した。
これらのテクニックをAnsorフレームワークに組み込んで,詳細な実験を行う。
- 参考スコア(独自算出の注目度): 15.841139749937351
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tensor program tuning is a non-convex objective optimization problem, to
which search-based approaches have proven to be effective. At the core of the
search-based approaches lies the design of the cost model. Though deep
learning-based cost models perform significantly better than other methods,
they still fall short and suffer from the following problems. First, their
feature extraction heavily relies on expert-level domain knowledge in hardware
architectures. Even so, the extracted features are often unsatisfactory and
require separate considerations for CPUs and GPUs. Second, a cost model trained
on one hardware platform usually performs poorly on another, a problem we call
cross-hardware unavailability.
In order to address these problems, we propose TLP and MTLTLP. TLP is a deep
learning-based cost model that facilitates tensor program tuning. Instead of
extracting features from the tensor program itself, TLP extracts features from
the schedule primitives. We treat schedule primitives as tensor languages. TLP
is thus a Tensor Language Processing task. In this way, the task of predicting
the tensor program latency through the cost model is transformed into a natural
language processing (NLP) regression task. MTL-TLP combines Multi-Task Learning
and TLP to cope with the cross-hardware unavailability problem.
We incorporate these techniques into the Ansor framework and conduct detailed
experiments. Results show that TLP can speed up the average search time by 9.1X
and 3.0X on CPU and GPU workloads, respectively, compared to the
state-of-the-art implementation. MTL-TLP can achieve a speed-up of 4.7X and
2.9X on CPU and GPU workloads, respectively, using only 7% of the target
hardware data.
- Abstract(参考訳): テンソルプログラムチューニングは、探索に基づくアプローチが効果的であることを証明した非凸目的最適化問題である。
検索ベースのアプローチの中核は、コストモデルの設計にある。
ディープラーニングベースのコストモデルは、他の方法よりもかなりパフォーマンスが良いが、それでも不足し、以下の問題に苦しむ。
まず、機能抽出はハードウェアアーキテクチャのエキスパートレベルのドメイン知識に大きく依存します。
それでも、抽出された機能はしばしば不十分であり、cpuとgpuを別々に考慮する必要がある。
第2に、あるハードウェアプラットフォームでトレーニングされたコストモデルは、通常、別のハードウェアでパフォーマンスが悪くなります。
これらの問題を解決するため,TLPとMTLTLPを提案する。
TLPは、テンソルプログラムチューニングを容易にするディープラーニングベースのコストモデルである。
TLPはテンソルプログラムから特徴を抽出する代わりに、スケジュールプリミティブから特徴を抽出する。
スケジュールプリミティブをテンソル言語として扱う。
したがって、TLPはテンソル言語処理タスクである。
このようにして、コストモデルを通じてテンソルプログラムのレイテンシを予測するタスクは、自然言語処理(nlp)回帰タスクに変換される。
MTL-TLPはマルチタスク学習とTLPを組み合わせて、クロスハードウェアの非可用性問題に対処する。
これらの手法をansorフレームワークに取り入れ,詳細な実験を行う。
結果は、TLPが最先端の実装と比較して、CPUおよびGPUワークロードの平均検索時間を9.1Xと3.0Xで高速化できることを示している。
MTL-TLPはCPUとGPUのワークロードでそれぞれ4.7Xと2.9Xのスピードアップを達成することができる。
関連論文リスト
- Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - Pruner: A Speculative Exploration Mechanism to Accelerate Tensor Program Tuning [9.730351520714699]
PrunerとMoA-Prunerは、ディープニューラルネットワークのプログラムチューニングを高速化するために提案されている。
Prunerは"Draft-then-Verify"パラダイムを用いて探索プロセスを高速化する投機的探索機構である。
MoA-PrunerがMomentum Online Adaptationを導入した。
論文 参考訳(メタデータ) (2024-02-04T06:11:12Z) - Parameter and Computation Efficient Transfer Learning for
Vision-Language Pre-trained Models [79.34513906324727]
本稿では,視覚言語事前学習モデルのためのパラメータと効率的な伝達学習(PCETL)を提案する。
そこで本研究では,新しい動的アーキテクチャスキップ(DAS)アプローチを効果的PCETLに適用する。
論文 参考訳(メタデータ) (2023-09-04T09:34:33Z) - Improving Representational Continuity via Continued Pretraining [76.29171039601948]
トランスファーラーニングコミュニティ(LP-FT)は、ナイーブトレーニングやその他の継続的な学習方法よりも優れている。
LP-FTは、リアルタイム衛星リモートセンシングデータセット(FMoW)における忘れを減らす。
LP-FTの変種は、NLP連続学習ベンチマークで最先端の精度を得る。
論文 参考訳(メタデータ) (2023-02-26T10:39:38Z) - Decoder Tuning: Efficient Language Understanding as Decoding [84.68266271483022]
本稿では,タスク固有のデコーダネットワークを出力側で最適化するデコーダチューニング(DecT)を提案する。
勾配ベースの最適化により、DecTは数秒以内にトレーニングでき、サンプル毎に1つのPクエリしか必要としない。
我々は、広範囲にわたる自然言語理解実験を行い、DecTが200ドル以上のスピードアップで最先端のアルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-16T11:15:39Z) - PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。
PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。
私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文 参考訳(メタデータ) (2022-11-18T18:56:13Z) - Learning to Optimize Permutation Flow Shop Scheduling via Graph-based
Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。
我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。
我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文 参考訳(メタデータ) (2022-10-31T09:46:26Z) - Compressing And Debiasing Vision-Language Pre-Trained Models for Visual
Question Answering [25.540831728925557]
本稿では,スパースとロバストワークを探索することにより,視覚言語事前学習モデルを同時に圧縮・デバイアスできるかどうかを検討する。
以上の結果から, 疎水性, 頑健性は, 偏りに満ちた部分と競合することが明らかとなった。
車だ
論文 参考訳(メタデータ) (2022-10-26T08:25:03Z) - Hidet: Task Mapping Programming Paradigm for Deep Learning Tensor
Programs [11.338285393619042]
本稿では,スケジューリングプロセスをテンソルプログラムに組込み,タスクマッピングと呼ばれる専用マッピングを用いて計算の割り当てと順序付けを定義することを提案する。
提案するパラダイムでは、深層学習コンパイラであるHietを実装しています。
論文 参考訳(メタデータ) (2022-10-18T05:32:13Z) - Design and Implementation of a Quantum Kernel for Natural Language
Processing [0.8702432681310401]
この論文はDisCoCatモデルを利用して、NLPタスクのサポートベクトルマシン(SVM)で使用できる量子ベースのカーネル関数を設計する。
i) 遷移振幅アプローチと(ii) SWAP試験の2つの類似性尺度について検討した。
以前の研究から明らかなモデルは単語埋め込みの訓練に使われ、93.09 pm 0.01$%の精度でテストされた。
論文 参考訳(メタデータ) (2022-05-13T00:45:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。