論文の概要: SmartMem: Layout Transformation Elimination and Adaptation for Efficient DNN Execution on Mobile
- arxiv url: http://arxiv.org/abs/2404.13528v1
- Date: Sun, 21 Apr 2024 04:47:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-23 18:31:12.486445
- Title: SmartMem: Layout Transformation Elimination and Adaptation for Efficient DNN Execution on Mobile
- Title(参考訳): SmartMem: モバイル上での効率的なDNN実行のためのレイアウト変換の排除と適応
- Authors: Wei Niu, Md Musfiqur Rahman Sanim, Zhihao Shu, Jiexiong Guan, Xipeng Shen, Miao Yin, Gagan Agrawal, Bin Ren,
- Abstract要約: 本稿では、ほとんどのレイアウト変換を排除するための包括的なフレームワークであるSmartMemを紹介する。
SmartMemは平均速度2.8$times$を達成し、TVMとMNNをそれぞれ平均速度6.9$times$と7.9$times$で上回っている。
- 参考スコア(独自算出の注目度): 22.92193946206031
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work is motivated by recent developments in Deep Neural Networks, particularly the Transformer architectures underlying applications such as ChatGPT, and the need for performing inference on mobile devices. Focusing on emerging transformers (specifically the ones with computationally efficient Swin-like architectures) and large models (e.g., Stable Diffusion and LLMs) based on transformers, we observe that layout transformations between the computational operators cause a significant slowdown in these applications. This paper presents SmartMem, a comprehensive framework for eliminating most layout transformations, with the idea that multiple operators can use the same tensor layout through careful choice of layout and implementation of operations. Our approach is based on classifying the operators into four groups, and considering combinations of producer-consumer edges between the operators. We develop a set of methods for searching such layouts. Another component of our work is developing efficient memory layouts for 2.5 dimensional memory commonly seen in mobile devices. Our experimental results show that SmartMem outperforms 5 state-of-the-art DNN execution frameworks on mobile devices across 18 varied neural networks, including CNNs, Transformers with both local and global attention, as well as LLMs. In particular, compared to DNNFusion, SmartMem achieves an average speedup of 2.8$\times$, and outperforms TVM and MNN with speedups of 6.9$\times$ and 7.9$\times$, respectively, on average.
- Abstract(参考訳): この作業は、Deep Neural Networks、特にChatGPTのような基盤となるアプリケーションのトランスフォーマーアーキテクチャの最近の発展と、モバイルデバイスで推論を実行する必要性によって動機付けられている。
計算効率のよいSwin型アーキテクチャと,トランスフォーマに基づく大規模モデル(例えば,安定拡散とLCM)に着目し,計算演算子間のレイアウト変換が,これらのアプリケーションにおいて顕著な速度低下を引き起こすことを観察した。
本稿では,ほとんどのレイアウト変換を包括的に排除するフレームワークであるSmartMemについて,レイアウトと操作の実装を慎重に選択することで,複数の演算子が同じテンソルレイアウトを使用できるという考えを述べる。
提案手法は,演算子を4つの群に分類し,演算子間の生産者・消費者の縁の組み合わせを考慮したものである。
このようなレイアウトを探索するための一連の手法を開発した。
私たちの研究のもうひとつのコンポーネントは、モバイルデバイスで一般的に見られる2.5次元メモリのための効率的なメモリレイアウトを開発することです。
実験の結果,SmartMemはCNNやTransformerなどのローカルおよびグローバルな関心事,LLMといった18種類のニューラルネットワークを含む,モバイルデバイス上での5つの最先端DNN実行フレームワークよりも優れていた。
特にDNNFusionと比較して、SmartMemは平均速度2.8$\times$を達成し、平均速度6.9$\times$と7.9$\times$でTVMとMNNを上回っている。
関連論文リスト
- CAS-ViT: Convolutional Additive Self-attention Vision Transformers for Efficient Mobile Applications [59.193626019860226]
ビジョントランスフォーマー(ViT)は、トークンミキサーの強力なグローバルコンテキスト能力によって、ニューラルネットワークの革命的な進歩を示す。
CAS-ViT: Convolutional Additive Self-attention Vision Transformersを紹介する。
我々はCAS-ViTが他の最先端のバックボーンと比較して競争力を発揮することを示す。
論文 参考訳(メタデータ) (2024-08-07T11:33:46Z) - Deformable Mixer Transformer with Gating for Multi-Task Learning of
Dense Prediction [126.34551436845133]
CNNとTransformerには独自の利点があり、MTL(Multi-task Learning)の高密度予測に広く使われている。
本稿では,変形可能なCNNと問合せベースのTransformerの長所を共用したMTLモデルを提案する。
論文 参考訳(メタデータ) (2023-08-10T17:37:49Z) - Exploring the Performance and Efficiency of Transformer Models for NLP
on Mobile Devices [3.809702129519641]
新しいディープニューラルネットワーク(DNN)アーキテクチャとアプローチが数年毎に登場し、この分野の進歩が加速している。
トランスフォーマーは、AIタスク全体で新しいレベルの精度を達成した比較的新しいモデルファミリである。
この作業は、Transformersのオンデバイス実行の現在の状態を調べて、このギャップを埋めることを目的としている。
論文 参考訳(メタデータ) (2023-06-20T10:15:01Z) - DeMT: Deformable Mixer Transformer for Multi-Task Learning of Dense
Prediction [40.447092963041236]
変形可能なCNNとクエリベースのTransformerの利点を組み合わせた新しいMTLモデルを提案する。
提案手法は, 単純かつ効率的なエンコーダ・デコーダアーキテクチャに基づいている。
我々のモデルはGFLOPを少なくし、現在のTransformerやCNNベースの競合モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-01-09T16:00:15Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - FQ-ViT: Fully Quantized Vision Transformer without Retraining [13.82845665713633]
本稿では,量子変換器の性能劣化と推論の複雑さを低減するための系統的手法を提案する。
完全に量子化された視覚変換器上で、我々は初めて精度の劣化(1%)を達成した。
論文 参考訳(メタデータ) (2021-11-27T06:20:53Z) - DS-Net++: Dynamic Weight Slicing for Efficient Inference in CNNs and
Transformers [105.74546828182834]
本稿では,様々な難易度を持つ入力に対して,ネットワークパラメータの一部を適応的にスライスする動的ウェイトスライシングという,ハードウェア効率のよい動的推論方式を示す。
我々は、CNNのフィルタ数とCNNと変換器の多重次元を入力依存的に調整することで、動的スライム可能なネットワーク(DS-Net)と動的スライス可能なネットワーク(DS-Net++)を提案する。
論文 参考訳(メタデータ) (2021-09-21T09:57:21Z) - Local-to-Global Self-Attention in Vision Transformers [130.0369761612812]
トランスフォーマーはコンピュータビジョンタスクに大きな可能性を示した。
最近のTransformerモデルは階層設計を採用しており、セルフアテンションはローカルウィンドウ内でのみ計算される。
この設計は効率を大幅に改善するが、早い段階ではグローバルな特徴推論が欠如している。
本研究では,トランスフォーマーのマルチパス構造を設計し,各ステージにおける複数の粒度での局所的・言語的推論を可能にする。
論文 参考訳(メタデータ) (2021-07-10T02:34:55Z) - Container: Context Aggregation Network [83.12004501984043]
最近の発見は、従来の畳み込みやトランスフォーマーコンポーネントを使わずに、シンプルなベースのソリューションが効果的な視覚表現を生成できることを示している。
マルチヘッドコンテキストアグリゲーションのための汎用ビルディングブロックCONText Ion NERtwokを提案する。
より大規模な入力画像解像度に依存する下流タスクにはスケールしないTransformerベースの手法とは対照的に、当社の効率的なネットワークであるModellightは、オブジェクト検出やインスタンスセグメンテーションネットワークに利用することができる。
論文 参考訳(メタデータ) (2021-06-02T18:09:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。