論文の概要: HAT: Hardware-Aware Transformers for Efficient Natural Language
Processing
- arxiv url: http://arxiv.org/abs/2005.14187v1
- Date: Thu, 28 May 2020 17:58:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-27 04:27:50.168280
- Title: HAT: Hardware-Aware Transformers for Efficient Natural Language
Processing
- Title(参考訳): hat: 効率的な自然言語処理のためのハードウェア対応トランスフォーマー
- Authors: Hanrui Wang, Zhanghao Wu, Zhijian Liu, Han Cai, Ligeng Zhu, Chuang
Gan, Song Han
- Abstract要約: ハードウェア・アウェア・トランスフォーマー(HAT)は、リソース制約のあるハードウェアプラットフォーム上で低遅延推論を可能にするように設計されている。
設計空間のすべての候補をカバーする$textitSuperTransformer$をトレーニングし、重量共有を備えた$textitSubTransformer$を効率的に生成します。
4つの機械翻訳タスクの実験により、HATは異なるハードウェアの効率的なモデルを見つけることができることを示した。
- 参考スコア(独自算出の注目度): 78.48577649266018
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers are ubiquitous in Natural Language Processing (NLP) tasks, but
they are difficult to be deployed on hardware due to the intensive computation.
To enable low-latency inference on resource-constrained hardware platforms, we
propose to design Hardware-Aware Transformers (HAT) with neural architecture
search. We first construct a large design space with $\textit{arbitrary
encoder-decoder attention}$ and $\textit{heterogeneous layers}$. Then we train
a $\textit{SuperTransformer}$ that covers all candidates in the design space,
and efficiently produces many $\textit{SubTransformers}$ with weight sharing.
Finally, we perform an evolutionary search with a hardware latency constraint
to find a specialized $\textit{SubTransformer}$ dedicated to run fast on the
target hardware. Extensive experiments on four machine translation tasks
demonstrate that HAT can discover efficient models for different hardware (CPU,
GPU, IoT device). When running WMT'14 translation task on Raspberry Pi-4, HAT
can achieve $\textbf{3}\times$ speedup, $\textbf{3.7}\times$ smaller size over
baseline Transformer; $\textbf{2.7}\times$ speedup, $\textbf{3.6}\times$
smaller size over Evolved Transformer with $\textbf{12,041}\times$ less search
cost and no performance loss. HAT code is
https://github.com/mit-han-lab/hardware-aware-transformers.git
- Abstract(参考訳): トランスフォーマーは自然言語処理(NLP)タスクではユビキタスだが,計算量が多いためハードウェア上での展開は困難である。
資源制約のあるハードウェアプラットフォーム上での低遅延推論を可能にするために,ニューラルアーキテクチャ検索を用いたハードウェアアウェアトランスフォーマー(hat)の設計を提案する。
まず、$\textit{arbitrary encoder-decoder attention}$と$\textit{heterogeneous layers}$という大きな設計空間を構築します。
次に、設計空間のすべての候補をカバーする$\textit{SuperTransformer}$をトレーニングし、多くの$\textit{SubTransformer}$を重量共有で効率的に生成します。
最後に、ターゲットハードウェア上で高速に動作するための特別な$\textit{SubTransformer}$を見つけるために、ハードウェア遅延制約付きの進化的検索を実行する。
4つの機械翻訳タスクに関する大規模な実験は、HATが異なるハードウェア(CPU、GPU、IoTデバイス)の効率的なモデルを見つけることを実証している。
Raspberry Pi-4上でWMT'14翻訳タスクを実行する場合、HATは$\textbf{3}\times$ Speedup, $\textbf{3.7}\times$ smaller size over baseline Transformer; $\textbf{2.7}\times$ speedup, $\textbf{3.6}\times$ smaller size over Evolved Transformer with $\textbf{12,041}\times$ less search cost and no performance lossを達成できる。
HATコードはhttps://github.com/mit-han-lab/hardware-aware-aware-transformers.gitである。
関連論文リスト
- Can Transformers Learn $n$-gram Language Models? [77.35809823602307]
2種類のランダムな$n$-gram LMを学習するトランスフォーマーの能力について検討する。
例えば、$n$-gram LMに対する古典的な推定手法として、add-$lambda$ smoothing outperform transformerがある。
論文 参考訳(メタデータ) (2024-10-03T21:21:02Z) - SLAB: Efficient Transformers with Simplified Linear Attention and Progressive Re-parameterized Batch Normalization [36.84275777364218]
本稿では,効率的な変圧器の計算ボトルネックモジュール,すなわち正規化層とアテンションモジュールについて検討する。
LayerNormはトランスフォーマーアーキテクチャで一般的に使用されるが、推論中の統計計算のために計算に適さない。
本稿では,LayerNorm を再パラメータ化した BatchNorm に段階的に置き換える PRepBN という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-19T15:22:25Z) - Trio-ViT: Post-Training Quantization and Acceleration for Softmax-Free Efficient Vision Transformer [5.141764719319689]
視覚変換器(ViT)は、様々なコンピュータビジョンタスクにおいて、急速に開発され、顕著な性能を実現している。
しかし、その巨大なモデルサイズと集約的な計算により、ViTsの組み込みデバイスへの展開が妨げられ、量子化のような効果的なモデル圧縮手法が要求される。
本稿では,問題となるソフトマックスを排除したTrio-ViTを提案するとともに,低計算量で線形注意を統合できるTrio-ViTを提案し,それに応じてTrio-ViTを提案する。
論文 参考訳(メタデータ) (2024-05-06T21:57:35Z) - Counting Like Transformers: Compiling Temporal Counting Logic Into Softmax Transformers [8.908747084128397]
時間カウントロジックの $textbfK_textt$[#] と RASP の $textbfC-RASP$ を紹介します。
それらが互いに等価であることを示し、これらが共に、将来のマスキング型ソフトアテンショントランスの形式的表現性に最もよく知られた下界であることを示す。
論文 参考訳(メタデータ) (2024-04-05T20:36:30Z) - Chain of Thought Empowers Transformers to Solve Inherently Serial Problems [57.58801785642868]
思考の連鎖(CoT)は、算術や記号的推論タスクにおいて、大きな言語モデル(LLM)の精度を向上させるための非常に効果的な方法である。
この研究は、表現性のレンズを通してデコーダのみの変換器に対するCoTのパワーを理論的に理解する。
論文 参考訳(メタデータ) (2024-02-20T10:11:03Z) - TinyFormer: Efficient Transformer Design and Deployment on Tiny Devices [7.529632803434906]
TinyFormerは、資源効率のよいトランスフォーマーをMCU上で開発、展開するためのフレームワークである。
TinyFormerは主にSuperNAS、SparseNAS、SparseEngineで構成されている。
TinyFormerは16.1%の精度で効率的なトランスフォーマーを開発でき、ハードウェアの制約は1MBのストレージと320ドルKBのメモリである。
論文 参考訳(メタデータ) (2023-11-03T07:34:47Z) - Scaling Up Models and Data with $\texttt{t5x}$ and $\texttt{seqio}$ [118.04625413322827]
$texttt5x$と$texttseqio$は、言語モデルの構築とトレーニングのためのオープンソースのソフトウェアライブラリである。
これらのライブラリは、複数のテラバイトのトレーニングデータを持つデータセット上で、数十億のパラメータを持つモデルをトレーニングするために使用されています。
論文 参考訳(メタデータ) (2022-03-31T17:12:13Z) - Memory-Efficient Differentiable Transformer Architecture Search [59.47253706925725]
マルチ分割可逆ネットワークを提案し,それをDARTSと組み合わせる。
具体的には、最後のレイヤの出力だけを保存するために、バックプロパゲーション・ウィズ・リコンストラクション・アルゴリズムを考案する。
本稿では,WMT'14,WMT'14,WMT'14,WMT'14,WMT'14,WMT'14の3つのシーケンス・ツー・シーケンス・データセットを用いて検索アーキテクチャを評価する。
論文 参考訳(メタデータ) (2021-05-31T01:52:36Z) - Shallow-to-Deep Training for Neural Machine Translation [42.62107851930165]
本稿では,高度に調整された深部変圧器システムの動作について検討する。
積層層はNMTモデルの表現能力の向上に有効であることがわかった。
これにより,浅層モデルの積み重ねによる深層モデルの学習を行う浅層から深層への学習法が開発される。
論文 参考訳(メタデータ) (2020-10-08T02:36:07Z) - Funnel-Transformer: Filtering out Sequential Redundancy for Efficient
Language Processing [112.2208052057002]
本稿では,隠れ状態の列を短く圧縮するFunnel-Transformerを提案する。
Funnel-TransformerはFLOPに匹敵する数が少ないため、様々なシーケンスレベルの予測タスクにおいて標準のTransformerよりも優れている。
論文 参考訳(メタデータ) (2020-06-05T05:16:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。