論文の概要: EdgeTran: Co-designing Transformers for Efficient Inference on Mobile
Edge Platforms
- arxiv url: http://arxiv.org/abs/2303.13745v1
- Date: Fri, 24 Mar 2023 01:56:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-27 16:14:31.739629
- Title: EdgeTran: Co-designing Transformers for Efficient Inference on Mobile
Edge Platforms
- Title(参考訳): EdgeTran: モバイルエッジプラットフォーム上での効率的な推論のための共設計トランスフォーマー
- Authors: Shikhar Tuli and Niraj K. Jha
- Abstract要約: 本稿では, トランスアーキテクチャの設計空間におけるハードウェア性能指標をプロファイリングするProTranというフレームワークを提案する。
このプロファイラと提案した共設計手法を併用して,最適性能のモデルを得る。
選択されたエッジデバイス上での推論により、15.0%のレイテンシ、10.0$times$低エネルギー、および10.8$times$低ピークパワードローが可能となる。
- 参考スコア(独自算出の注目度): 6.0093441900032465
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated design of efficient transformer models has recently attracted
significant attention from industry and academia. However, most works only
focus on certain metrics while searching for the best-performing transformer
architecture. Furthermore, running traditional, complex, and large transformer
models on low-compute edge platforms is a challenging problem. In this work, we
propose a framework, called ProTran, to profile the hardware performance
measures for a design space of transformer architectures and a diverse set of
edge devices. We use this profiler in conjunction with the proposed co-design
technique to obtain the best-performing models that have high accuracy on the
given task and minimize latency, energy consumption, and peak power draw to
enable edge deployment. We refer to our framework for co-optimizing accuracy
and hardware performance measures as EdgeTran. It searches for the best
transformer model and edge device pair. Finally, we propose GPTran, a
multi-stage block-level grow-and-prune post-processing step that further
improves accuracy in a hardware-aware manner. The obtained transformer model is
2.8$\times$ smaller and has a 0.8% higher GLUE score than the baseline
(BERT-Base). Inference with it on the selected edge device enables 15.0% lower
latency, 10.0$\times$ lower energy, and 10.8$\times$ lower peak power draw
compared to an off-the-shelf GPU.
- Abstract(参考訳): 効率的なトランスモデルの自動設計は、最近、産業や学術から大きな注目を集めている。
しかしながら、ほとんどの研究は、最高のパフォーマンスのトランスフォーマーアーキテクチャを探しながら、特定のメトリクスのみに焦点を当てている。
さらに、従来の複雑で大規模なトランスフォーマーモデルを低スループットのエッジプラットフォーム上で実行することは難しい問題である。
本研究では,トランスアーキテクチャとエッジデバイスの多種多様なセットの設計空間におけるハードウェア性能測定をプロファイリングするProTranというフレームワークを提案する。
このプロファイラを,提案する共同設計手法と組み合わせて,与えられたタスクの精度が高く,レイテンシ,エネルギー消費,ピーク電力ドローを最小化し,エッジ展開を可能にする最善のモデルを得る。
精度とハードウェア性能を協調最適化するためのフレームワークをEdgeTranと呼ぶ。
最高のトランスフォーマーモデルとエッジデバイスペアを検索します。
最後にgptranを提案する。gptranは、ハードウェアを意識した方法で精度をさらに向上させる、マルチステージのブロックレベルの成長後処理ステップである。
得られたトランスモデルは2.8$\times$小さく、ベースライン(BERT-Base)よりも0.8%高いGLUEスコアを持つ。
選択されたエッジデバイス上での推論により、15.0%のレイテンシ、10.0$\times$低エネルギー、および10.8$\times$低ピークパワードローが可能となる。
関連論文リスト
- Co-Designing Binarized Transformer and Hardware Accelerator for Efficient End-to-End Edge Deployment [3.391499691517567]
トランスフォーマーモデルはAIタスクに革命をもたらしたが、その大きなサイズはリソース制約やレイテンシクリティカルなエッジデバイスへの実際のデプロイメントを妨げる。
本稿では, アルゴリズム, ハードウェア, 共同最適化の3つの側面から, トランスフォーマーのエンドツーエンド配置を効率的に行うための設計手法を提案する。
実験の結果,2.14-49.37倍のスループット向上と3.72-88.53倍のエネルギー効率を実現した。
論文 参考訳(メタデータ) (2024-07-16T12:36:10Z) - Shallow Cross-Encoders for Low-Latency Retrieval [69.06104373460597]
BERTやT5のような大きなトランスフォーマーモデルに基づくクロスエンコーダは計算コストが高く、非常に小さな遅延ウィンドウ内で少数の文書しかスコアできない。
より弱い浅層変圧器モデル(すなわち、層数が限られている変圧器)は、これらの実用的な低レイテンシ設定に制約された場合、実際にフルスケールモデルよりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2024-03-29T15:07:21Z) - Exploring Lightweight Hierarchical Vision Transformers for Efficient
Visual Tracking [69.89887818921825]
HiTは、さまざまなデバイス上で高速に動作可能な、効率的なトラッキングモデルの新たなファミリーだ。
HiTはLaSOTベンチマークで64.6%のAUCを達成した。
論文 参考訳(メタデータ) (2023-08-14T02:51:34Z) - TransCODE: Co-design of Transformers and Accelerators for Efficient
Training and Inference [6.0093441900032465]
本稿では,アクセラレータの設計空間におけるトランスフォーマー推論とトレーニングをシミュレートするフレームワークを提案する。
我々はこのシミュレータとTransCODEと呼ばれる共同設計手法を併用して最適性能のモデルを得る。
得られた変圧器・加速器対は、最先端の対よりも0.3%高い精度を達成する。
論文 参考訳(メタデータ) (2023-03-27T02:45:18Z) - AccelTran: A Sparsity-Aware Accelerator for Dynamic Inference with
Transformers [6.0093441900032465]
自己注意に基づくトランスフォーマーモデルは自然言語処理の分野で大きな成功を収めた。
従来の作業は、ハードウェアの利用を制限する注意操作に関わる大きな行列を直接操作する。
低オーバーヘッドで実行時にアクティベーションを発生させる新しい動的推論スキームDynaTranを提案する。
論文 参考訳(メタデータ) (2023-02-28T16:17:23Z) - ViTA: A Vision Transformer Inference Accelerator for Edge Applications [4.3469216446051995]
ViT、Swin Transformer、Transformer-in-Transformerといったビジョントランスモデルは近年、コンピュータビジョンタスクにおいて大きな注目を集めている。
これらは計算量が多く、リソース制約のあるエッジデバイスにデプロイするのは難しい。
本稿では、リソース制約のあるエッジコンピューティングデバイスをターゲットにしたビジョントランスフォーマーモデル推論用ハードウェアアクセラレータViTAを提案する。
論文 参考訳(メタデータ) (2023-02-17T19:35:36Z) - Rethinking Vision Transformers for MobileNet Size and Speed [58.01406896628446]
本稿では,低レイテンシでパラメータ効率の高い新しいスーパーネットを提案する。
また,変圧器モデルに対して,よりきめ細かな共同探索戦略を導入する。
この研究は、MobileNetレベルのサイズと速度であっても、適切に設計され、最適化されたビジョントランスフォーマーがハイパフォーマンスを実現することを実証している。
論文 参考訳(メタデータ) (2022-12-15T18:59:12Z) - HEAT: Hardware-Efficient Automatic Tensor Decomposition for Transformer
Compression [69.36555801766762]
本稿では,分解可能な指数空間を効率的に探索できるハードウェア対応テンソル分解フレームワークHEATを提案する。
ハードウェア対応のBERT変異体は, エネルギー遅延を5.7倍に低減し, 精度が1.1%以下であることを示す。
論文 参考訳(メタデータ) (2022-11-30T05:31:45Z) - EdgeFormer: Improving Light-weight ConvNets by Learning from Vision
Transformers [29.09883780571206]
We propose EdgeFormer, a pure ConvNet based backbone model。
我々は、大域的な円形の畳み込み(GCC)と、軽量な畳み込みオペである位置埋め込みを組み合わせる。
実験の結果,提案するEdgeFormerは,一般的な軽量なConvNetやビジョントランスフォーマーベースモデルよりも優れた性能を実現していることがわかった。
論文 参考訳(メタデータ) (2022-03-08T09:25:17Z) - EdgeFormer: A Parameter-Efficient Transformer for On-Device Seq2seq
Generation [104.44478403427881]
EdgeFormerは、オンデバイスセq2seq生成のためのエンコーダデコーダアーキテクチャのパラメータ効率の変換器である。
本研究は,機械翻訳と文法誤り訂正という2つの実用的なオンデバイスセク2seqタスクの実験を行う。
論文 参考訳(メタデータ) (2022-02-16T10:10:00Z) - Efficient pre-training objectives for Transformers [84.64393460397471]
本研究はトランスフォーマーモデルにおける高効率事前学習目標について検討する。
マスクトークンの除去と損失時のアウトプット全体の考慮が,パフォーマンス向上に不可欠な選択であることを証明する。
論文 参考訳(メタデータ) (2021-04-20T00:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。