Fugu-MT 論文翻訳(概要): TLP: A Deep Learning-based Cost Model for Tensor Program Tuning

論文の概要: TLP: A Deep Learning-based Cost Model for Tensor Program Tuning

arxiv url: http://arxiv.org/abs/2211.03578v1
Date: Mon, 7 Nov 2022 14:11:43 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-08 19:00:15.852171
Title: TLP: A Deep Learning-based Cost Model for Tensor Program Tuning
Title（参考訳）: TLP: テンソルプログラムチューニングのためのディープラーニングベースのコストモデル
Authors: Yi Zhai, Yu Zhang, Shuo Liu, Xiaomeng Chu, Jie Peng, Jianmin Ji, Yanyong Zhang
Abstract要約: テンソルプログラムのチューニングを容易にする深層学習に基づくコストモデルであるTLPを提案する。我々は、TLPがCPUワークロードで平均検索時間を9.1XX高速化できることを示した。これらのテクニックをAnsorフレームワークに組み込んで,詳細な実験を行う。
参考スコア（独自算出の注目度）: 15.841139749937351
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Tensor program tuning is a non-convex objective optimization problem, to which search-based approaches have proven to be effective. At the core of the search-based approaches lies the design of the cost model. Though deep learning-based cost models perform significantly better than other methods, they still fall short and suffer from the following problems. First, their feature extraction heavily relies on expert-level domain knowledge in hardware architectures. Even so, the extracted features are often unsatisfactory and require separate considerations for CPUs and GPUs. Second, a cost model trained on one hardware platform usually performs poorly on another, a problem we call cross-hardware unavailability. In order to address these problems, we propose TLP and MTLTLP. TLP is a deep learning-based cost model that facilitates tensor program tuning. Instead of extracting features from the tensor program itself, TLP extracts features from the schedule primitives. We treat schedule primitives as tensor languages. TLP is thus a Tensor Language Processing task. In this way, the task of predicting the tensor program latency through the cost model is transformed into a natural language processing (NLP) regression task. MTL-TLP combines Multi-Task Learning and TLP to cope with the cross-hardware unavailability problem. We incorporate these techniques into the Ansor framework and conduct detailed experiments. Results show that TLP can speed up the average search time by 9.1X and 3.0X on CPU and GPU workloads, respectively, compared to the state-of-the-art implementation. MTL-TLP can achieve a speed-up of 4.7X and 2.9X on CPU and GPU workloads, respectively, using only 7% of the target hardware data.
Abstract（参考訳）: テンソルプログラムチューニングは、探索に基づくアプローチが効果的であることを証明した非凸目的最適化問題である。検索ベースのアプローチの中核は、コストモデルの設計にある。ディープラーニングベースのコストモデルは、他の方法よりもかなりパフォーマンスが良いが、それでも不足し、以下の問題に苦しむ。まず、機能抽出はハードウェアアーキテクチャのエキスパートレベルのドメイン知識に大きく依存します。それでも、抽出された機能はしばしば不十分であり、cpuとgpuを別々に考慮する必要がある。第2に、あるハードウェアプラットフォームでトレーニングされたコストモデルは、通常、別のハードウェアでパフォーマンスが悪くなります。これらの問題を解決するため,TLPとMTLTLPを提案する。 TLPは、テンソルプログラムチューニングを容易にするディープラーニングベースのコストモデルである。 TLPはテンソルプログラムから特徴を抽出する代わりに、スケジュールプリミティブから特徴を抽出する。スケジュールプリミティブをテンソル言語として扱う。したがって、TLPはテンソル言語処理タスクである。このようにして、コストモデルを通じてテンソルプログラムのレイテンシを予測するタスクは、自然言語処理(nlp)回帰タスクに変換される。 MTL-TLPはマルチタスク学習とTLPを組み合わせて、クロスハードウェアの非可用性問題に対処する。これらの手法をansorフレームワークに取り入れ,詳細な実験を行う。結果は、TLPが最先端の実装と比較して、CPUおよびGPUワークロードの平均検索時間を9.1Xと3.0Xで高速化できることを示している。 MTL-TLPはCPUとGPUのワークロードでそれぞれ4.7Xと2.9Xのスピードアップを達成することができる。

関連論文リスト

QiMeng-Xpiler: Transcompiling Tensor Programs for Deep Learning Systems with a Neural-Symbolic Approach [25.521351239401287]
不均一深層学習システム (DLS) は産業用データセンターに広く導入されている。そこで我々は,DLSをまたいでプログラムを自動的に翻訳する新しいトランスコンパイラ,すなわちQiMeng-Xpilerを提案する。その結果、DLSのプログラミングは、レガシプログラムをトランスコンパイルすることで最大9倍改善される。
論文参考訳（メタデータ） (2025-05-04T15:14:27Z)
Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs [76.43407125275202]
o1のようなモデルは、推論中に人間のような長時間の思考をエミュレートすることができる。本論文は,これらのモデルにおける過度な考察の課題に関する,最初の包括的研究である。精度を損なうことなく、過剰思考を緩和し、推論プロセスを合理化するための戦略を提案する。
論文参考訳（メタデータ） (2024-12-30T18:55:12Z)
Parameter-Efficient Transfer Learning for Music Foundation Models [51.61531917413708]
音楽基礎モデルのパラメータ効率変換学習(PETL)について検討する。 PETL法は、音楽の自動タグ付けにおいて、探索と微調整の両方に優れる。 PETL法は、トレーニングコストを大幅に削減し、微調整と同様の結果を得る。
論文参考訳（メタデータ） (2024-11-28T20:50:40Z)
FTuner: A Fast Dynamic Shape Tensors Program Auto-Tuner for Deep Learning Compilers [6.194917248699324]
本稿では,FTunerと呼ばれるディープラーニングコンパイラの新しい手法を提案する。実験によると、FTunerはベンダーのライブラリに匹敵する演算子とエンドツーエンドのパフォーマンスを実現することができる。
論文参考訳（メタデータ） (2024-07-31T08:05:33Z)
Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文参考訳（メタデータ） (2024-05-06T16:03:32Z)
Pruner: A Speculative Exploration Mechanism to Accelerate Tensor Program Tuning [9.730351520714699]
PrunerとMoA-Prunerは、ディープニューラルネットワークのプログラムチューニングを高速化するために提案されている。 Prunerは"Draft-then-Verify"パラダイムを用いて探索プロセスを高速化する投機的探索機構である。 MoA-PrunerがMomentum Online Adaptationを導入した。
論文参考訳（メタデータ） (2024-02-04T06:11:12Z)
Parameter and Computation Efficient Transfer Learning for Vision-Language Pre-trained Models [79.34513906324727]
本稿では,視覚言語事前学習モデルのためのパラメータと効率的な伝達学習(PCETL)を提案する。そこで本研究では,新しい動的アーキテクチャスキップ(DAS)アプローチを効果的PCETLに適用する。
論文参考訳（メタデータ） (2023-09-04T09:34:33Z)
Improving Representational Continuity via Continued Pretraining [76.29171039601948]
トランスファーラーニングコミュニティ(LP-FT)は、ナイーブトレーニングやその他の継続的な学習方法よりも優れている。 LP-FTは、リアルタイム衛星リモートセンシングデータセット(FMoW)における忘れを減らす。 LP-FTの変種は、NLP連続学習ベンチマークで最先端の精度を得る。
論文参考訳（メタデータ） (2023-02-26T10:39:38Z)
Decoder Tuning: Efficient Language Understanding as Decoding [84.68266271483022]
本稿では,タスク固有のデコーダネットワークを出力側で最適化するデコーダチューニング(DecT)を提案する。勾配ベースの最適化により、DecTは数秒以内にトレーニングでき、サンプル毎に1つのPクエリしか必要としない。我々は、広範囲にわたる自然言語理解実験を行い、DecTが200ドル以上のスピードアップで最先端のアルゴリズムを大幅に上回っていることを示す。
論文参考訳（メタデータ） (2022-12-16T11:15:39Z)
PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。 PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文参考訳（メタデータ） (2022-11-18T18:56:13Z)
Learning to Optimize Permutation Flow Shop Scheduling via Graph-based Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文参考訳（メタデータ） (2022-10-31T09:46:26Z)
Compressing And Debiasing Vision-Language Pre-Trained Models for Visual Question Answering [25.540831728925557]
本稿では,スパースとロバストワークを探索することにより,視覚言語事前学習モデルを同時に圧縮・デバイアスできるかどうかを検討する。以上の結果から, 疎水性, 頑健性は, 偏りに満ちた部分と競合することが明らかとなった。車だ
論文参考訳（メタデータ） (2022-10-26T08:25:03Z)
Hidet: Task Mapping Programming Paradigm for Deep Learning Tensor Programs [11.338285393619042]
本稿では,スケジューリングプロセスをテンソルプログラムに組込み,タスクマッピングと呼ばれる専用マッピングを用いて計算の割り当てと順序付けを定義することを提案する。提案するパラダイムでは、深層学習コンパイラであるHietを実装しています。
論文参考訳（メタデータ） (2022-10-18T05:32:13Z)
Design and Implementation of a Quantum Kernel for Natural Language Processing [0.8702432681310401]
この論文はDisCoCatモデルを利用して、NLPタスクのサポートベクトルマシン(SVM)で使用できる量子ベースのカーネル関数を設計する。 i) 遷移振幅アプローチと(ii) SWAP試験の2つの類似性尺度について検討した。以前の研究から明らかなモデルは単語埋め込みの訓練に使われ、93.09 pm 0.01$%の精度でテストされた。
論文参考訳（メタデータ） (2022-05-13T00:45:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。