論文の概要: Pruner: An Efficient Cross-Platform Tensor Compiler with Dual Awareness
- arxiv url: http://arxiv.org/abs/2402.02361v1
- Date: Sun, 4 Feb 2024 06:11:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 20:12:34.100539
- Title: Pruner: An Efficient Cross-Platform Tensor Compiler with Dual Awareness
- Title(参考訳): pruner:デュアルアウェアネスを持つ効率的なクロスプラットフォームテンソルコンパイラ
- Authors: Liang Qiao, Jun Shi, Xiaoyu Hao, Xi Fang, Minfan Zhao, Ziqi Zhu,
Junshi Chen, Hong An, Bing Li, Honghui Yuan and Xinyang Wang
- Abstract要約: 我々は,テンソルプログラムの最適化を階層的に向上させるハードウェア/ソフトウェア共同設計の原則に従い,$textbfPruner$を提案する。
Prunerは2つの主要なコンポーネントで構成されている。静的アナライザ(textbfPSA$)とパターン対応コストモデル(textbfPa$)である。
- 参考スコア(独自算出の注目度): 8.381744079783278
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tensor program optimization on Deep Learning Accelerators (DLAs) is critical
for efficient model deployment. Although search-based Deep Learning Compilers
(DLCs) have achieved significant performance gains compared to manual methods,
they still suffer from the persistent challenges of low search efficiency and
poor cross-platform adaptability. In this paper, we propose $\textbf{Pruner}$,
following hardware/software co-design principles to hierarchically boost tensor
program optimization. Pruner comprises two primary components: a Parameterized
Static Analyzer ($\textbf{PSA}$) and a Pattern-aware Cost Model
($\textbf{PaCM}$). The former serves as a hardware-aware and formulaic
performance analysis tool, guiding the pruning of the search space, while the
latter enables the performance prediction of tensor programs according to the
critical data-flow patterns. Furthermore, to ensure effective cross-platform
adaptation, we design a Momentum Transfer Learning ($\textbf{MTL}$) strategy
using a Siamese network, which establishes a bidirectional feedback mechanism
to improve the robustness of the pre-trained cost model. The extensive
experimental results demonstrate the effectiveness and advancement of the
proposed Pruner in various tensor program tuning tasks across both online and
offline scenarios, with low resource overhead. The code is available at
https://github.com/qiaolian9/Pruner.
- Abstract(参考訳): Deep Learning Accelerators (DLAs) のテンソルプログラム最適化は、効率的なモデル展開に不可欠である。
検索ベースのディープラーニングコンパイラ(Deep Learning Compilers, DLC)は手作業に比べて大きなパフォーマンス向上を遂げているが, 検索効率の低下とクロスプラットフォーム適応性の低下という難しさに悩まされている。
本稿では,ハードウェア/ソフトウェアの共同設計原則に従って,テンソルプログラムの最適化を階層的に促進する$\textbf{Pruner}$を提案する。
Prunerは、パラメータ化静的アナライザ($\textbf{PSA}$)とパターン対応コストモデル($\textbf{PaCM}$)の2つの主要コンポーネントから構成される。
前者はハードウェア対応で定式的な性能解析ツールとして機能し、検索空間のプルーニングを誘導し、後者は臨界データフローパターンに従ってテンソルプログラムのパフォーマンス予測を可能にする。
さらに,効率的なクロスプラットフォーム適応を実現するため,Siameseネットワークを用いたMomentum Transfer Learning(\textbf{MTL}$)戦略を設計し,事前学習したコストモデルのロバスト性を改善するための双方向フィードバック機構を確立する。
広範な実験結果から,提案するprunerは,リソースオーバーヘッドの少ないオンラインシナリオとオフラインシナリオの両方において,様々なtensorプログラムのチューニングタスクにおいて有効性と進歩を示した。
コードはhttps://github.com/qiaolian9/prunerで入手できる。
関連論文リスト
- Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - Slapo: A Schedule Language for Progressive Optimization of Large Deep
Learning Model Training [17.556432199389615]
Slapoは、テンソルレベルの演算子の実行をその算術的定義から切り離すスケジュール言語である。
SlapoはNVIDIA V100 GPUを8台搭載した1台のマシンで最大2.92倍のトレーニングスループットを向上できることを示す。
論文 参考訳(メタデータ) (2023-02-16T00:34:53Z) - dPRO: A Generic Profiling and Optimization System for Expediting
Distributed DNN Training [12.413533491501548]
本稿では,分散トレーニングシステムの性能ボトルネックを特定するツールとして,dPROを提案する。
我々は,複数のディープラーニングフレームワーク(PyTorch,MXNet,AllReduce,Serverアーキテクチャ)と代表的通信方式にdPROを実装した。
大規模な実験により、dPROは、ほとんどのケースで5%のエラーで様々な環境での分散トレーニングのパフォーマンスを予測し、ベースラインを最大87.1%上回る最適化戦略を見出した。
論文 参考訳(メタデータ) (2022-05-05T07:15:25Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z) - projUNN: efficient method for training deep networks with unitary
matrices [21.11571804661279]
トレーニング実行時のスケーリングを$O(kN2)$とすることで、フル$N$次元のユニタリあるいは行列をパラメータ化できる方法の2つの変種を導入する。
最も高速な設定であっても、ProjUNNはモデルのユニタリパラメータをトレーニングして、ベースライン実装に対して同等のパフォーマンスに達することができる。
論文 参考訳(メタデータ) (2022-03-10T17:04:41Z) - Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。
この2つの設定の間には自然なシナジーがあることが示されています。
この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文 参考訳(メタデータ) (2021-11-25T19:59:33Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z) - CATRO: Channel Pruning via Class-Aware Trace Ratio Optimization [61.71504948770445]
本稿では,CATRO (Class-Aware Trace Ratio Optimization) を用いた新しいチャネルプルーニング手法を提案する。
CATROは、他の最先端チャネルプルーニングアルゴリズムと同等の精度で、同様のコストまたは低コストで高い精度を達成できることを示す。
CATROは、クラス認識の特性のため、様々な分類サブタスクに適応的に効率の良いネットワークを創り出すのに適している。
論文 参考訳(メタデータ) (2021-10-21T06:26:31Z) - Exploiting Activation based Gradient Output Sparsity to Accelerate
Backpropagation in CNNs [15.465530153038927]
多くの最先端技術の背後にある原動力として、機械学習(ML/DL)ベースの技術が登場している。
しかし、大きなパラメータを含むこれらのモデルをトレーニングすることは、時間とエネルギーの両方を消費する。
論文 参考訳(メタデータ) (2021-09-16T04:12:51Z) - Easy and Efficient Transformer : Scalable Inference Solution For large
NLP mode [14.321889138798072]
本稿では,超大規模事前学習モデル最適化手法を提案する。
推論エンジンとして Easy and Efficient Transformer (EET) が提案されている。
EETは、コンテキストの長さに応じて1.5-15倍のスピードアップを達成します。
論文 参考訳(メタデータ) (2021-04-26T11:00:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。