Fugu-MT 論文翻訳(概要): HAT: Hardware-Aware Transformers for Efficient Natural Language Processing

論文の概要: HAT: Hardware-Aware Transformers for Efficient Natural Language Processing

arxiv url: http://arxiv.org/abs/2005.14187v1
Date: Thu, 28 May 2020 17:58:56 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-27 04:27:50.168280
Title: HAT: Hardware-Aware Transformers for Efficient Natural Language Processing
Title（参考訳）: hat: 効率的な自然言語処理のためのハードウェア対応トランスフォーマー
Authors: Hanrui Wang, Zhanghao Wu, Zhijian Liu, Han Cai, Ligeng Zhu, Chuang Gan, Song Han
Abstract要約: ハードウェア・アウェア・トランスフォーマー(HAT)は、リソース制約のあるハードウェアプラットフォーム上で低遅延推論を可能にするように設計されている。設計空間のすべての候補をカバーする$textitSuperTransformer$をトレーニングし、重量共有を備えた$textitSubTransformer$を効率的に生成します。 4つの機械翻訳タスクの実験により、HATは異なるハードウェアの効率的なモデルを見つけることができることを示した。
参考スコア（独自算出の注目度）: 78.48577649266018
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Transformers are ubiquitous in Natural Language Processing (NLP) tasks, but they are difficult to be deployed on hardware due to the intensive computation. To enable low-latency inference on resource-constrained hardware platforms, we propose to design Hardware-Aware Transformers (HAT) with neural architecture search. We first construct a large design space with $\textit{arbitrary encoder-decoder attention}$ and $\textit{heterogeneous layers}$. Then we train a $\textit{SuperTransformer}$ that covers all candidates in the design space, and efficiently produces many $\textit{SubTransformers}$ with weight sharing. Finally, we perform an evolutionary search with a hardware latency constraint to find a specialized $\textit{SubTransformer}$ dedicated to run fast on the target hardware. Extensive experiments on four machine translation tasks demonstrate that HAT can discover efficient models for different hardware (CPU, GPU, IoT device). When running WMT'14 translation task on Raspberry Pi-4, HAT can achieve $\textbf{3}\times$ speedup, $\textbf{3.7}\times$ smaller size over baseline Transformer; $\textbf{2.7}\times$ speedup, $\textbf{3.6}\times$ smaller size over Evolved Transformer with $\textbf{12,041}\times$ less search cost and no performance loss. HAT code is https://github.com/mit-han-lab/hardware-aware-transformers.git
Abstract（参考訳）: トランスフォーマーは自然言語処理(NLP)タスクではユビキタスだが,計算量が多いためハードウェア上での展開は困難である。資源制約のあるハードウェアプラットフォーム上での低遅延推論を可能にするために,ニューラルアーキテクチャ検索を用いたハードウェアアウェアトランスフォーマー(hat)の設計を提案する。まず、$\textit{arbitrary encoder-decoder attention}$と$\textit{heterogeneous layers}$という大きな設計空間を構築します。次に、設計空間のすべての候補をカバーする$\textit{SuperTransformer}$をトレーニングし、多くの$\textit{SubTransformer}$を重量共有で効率的に生成します。最後に、ターゲットハードウェア上で高速に動作するための特別な$\textit{SubTransformer}$を見つけるために、ハードウェア遅延制約付きの進化的検索を実行する。 4つの機械翻訳タスクに関する大規模な実験は、HATが異なるハードウェア(CPU、GPU、IoTデバイス)の効率的なモデルを見つけることを実証している。 Raspberry Pi-4上でWMT'14翻訳タスクを実行する場合、HATは$\textbf{3}\times$ Speedup, $\textbf{3.7}\times$ smaller size over baseline Transformer; $\textbf{2.7}\times$ speedup, $\textbf{3.6}\times$ smaller size over Evolved Transformer with $\textbf{12,041}\times$ less search cost and no performance lossを達成できる。 HATコードはhttps://github.com/mit-han-lab/hardware-aware-aware-transformers.gitである。

関連論文リスト

Theoretical limitations of multi-layer Transformer [14.63344366356708]
マルチ層デコーダのみの変換器に対して,最初の$textitunconditional$lowboundを証明した。また、ある$textitindistinguishable$$textitde$すべての可能な入力を見つける新しい証明手法も導入します。我々の新しい通信モデルと証明技術は、トランスの計算能力のさらなる理解に役立つと信じている。
論文参考訳（メタデータ） (2024-12-04T02:37:31Z)
Circuit Complexity Bounds for RoPE-based Transformer Architecture [25.2590541420499]
経験的証拠は、$mathsfRoPE$ベースのTransformerアーキテクチャは、従来のTransformerモデルよりも優れた一般化能力を示していることを示している。我々は、$mathsfTC0 = mathsfNC1$, a $mathsfRoPE$-based Transformer with $mathrmpoly(n)$-precision, $O(1)$ layer, hidden dimension $d leq O(n)$が算術式評価問題を解くことができないことを示す。
論文参考訳（メタデータ） (2024-11-12T07:24:41Z)
Can Transformers Learn $n$-gram Language Models? [77.35809823602307]
2種類のランダムな$n$-gram LMを学習するトランスフォーマーの能力について検討する。例えば、$n$-gram LMに対する古典的な推定手法として、add-$lambda$ smoothing outperform transformerがある。
論文参考訳（メタデータ） (2024-10-03T21:21:02Z)
SLAB: Efficient Transformers with Simplified Linear Attention and Progressive Re-parameterized Batch Normalization [36.84275777364218]
本稿では,効率的な変圧器の計算ボトルネックモジュール,すなわち正規化層とアテンションモジュールについて検討する。 LayerNormはトランスフォーマーアーキテクチャで一般的に使用されるが、推論中の統計計算のために計算に適さない。本稿では,LayerNorm を再パラメータ化した BatchNorm に段階的に置き換える PRepBN という新しい手法を提案する。
論文参考訳（メタデータ） (2024-05-19T15:22:25Z)
Trio-ViT: Post-Training Quantization and Acceleration for Softmax-Free Efficient Vision Transformer [5.141764719319689]
視覚変換器(ViT)は、様々なコンピュータビジョンタスクにおいて、急速に開発され、顕著な性能を実現している。しかし、その巨大なモデルサイズと集約的な計算により、ViTsの組み込みデバイスへの展開が妨げられ、量子化のような効果的なモデル圧縮手法が要求される。本稿では,問題となるソフトマックスを排除したTrio-ViTを提案するとともに,低計算量で線形注意を統合できるTrio-ViTを提案し,それに応じてTrio-ViTを提案する。
論文参考訳（メタデータ） (2024-05-06T21:57:35Z)
Counting Like Transformers: Compiling Temporal Counting Logic Into Softmax Transformers [8.908747084128397]
時間カウントロジックの $textbfK_textt$[#] と RASP の $textbfC-RASP$ を紹介します。それらが互いに等価であることを示し、これらが共に、将来のマスキング型ソフトアテンショントランスの形式的表現性に最もよく知られた下界であることを示す。
論文参考訳（メタデータ） (2024-04-05T20:36:30Z)
Chain of Thought Empowers Transformers to Solve Inherently Serial Problems [57.58801785642868]
思考の連鎖(CoT)は、算術や記号的推論タスクにおいて、大きな言語モデル(LLM)の精度を向上させるための非常に効果的な方法である。この研究は、表現性のレンズを通してデコーダのみの変換器に対するCoTのパワーを理論的に理解する。
論文参考訳（メタデータ） (2024-02-20T10:11:03Z)
TinyFormer: Efficient Transformer Design and Deployment on Tiny Devices [7.529632803434906]
TinyFormerは、資源効率のよいトランスフォーマーをMCU上で開発、展開するためのフレームワークである。 TinyFormerは主にSuperNAS、SparseNAS、SparseEngineで構成されている。 TinyFormerは16.1%の精度で効率的なトランスフォーマーを開発でき、ハードウェアの制約は1MBのストレージと320ドルKBのメモリである。
論文参考訳（メタデータ） (2023-11-03T07:34:47Z)
SwiftTron: An Efficient Hardware Accelerator for Quantized Transformers [11.631442682756203]
量子トランスフォーマーの計算集約操作は、リソース制約のEdgeAI/microMLデバイスへのデプロイにおいて、大きな課題をもたらす。我々は,量子トランスフォーマー用に設計された,効率的なハードウェアアクセラレータSwiftTronを提案する。我々の加速器は、RoBERTaベースモデルを1.83 nsで実行し、33.64 mWの電力を消費し、面積は273 mm2である。
論文参考訳（メタデータ） (2023-04-08T11:17:51Z)
What Dense Graph Do You Need for Self-Attention? [73.82686008622596]
我々はハイパーキューブにおけるトークンインタラクションをモデル化し、バニラ変換器と同等あるいはそれ以上の結果を示すスパーストランスフォーマーHypercube Transformerを提案する。様々なシーケンス長を必要とするタスクの実験は、グラフ関数の検証をうまく行いました。
論文参考訳（メタデータ） (2022-05-27T14:36:55Z)
Scaling Up Models and Data with $\texttt{t5x}$ and $\texttt{seqio}$ [118.04625413322827]
$texttt5x$と$texttseqio$は、言語モデルの構築とトレーニングのためのオープンソースのソフトウェアライブラリである。これらのライブラリは、複数のテラバイトのトレーニングデータを持つデータセット上で、数十億のパラメータを持つモデルをトレーニングするために使用されています。
論文参考訳（メタデータ） (2022-03-31T17:12:13Z)
Memory-Efficient Differentiable Transformer Architecture Search [59.47253706925725]
マルチ分割可逆ネットワークを提案し,それをDARTSと組み合わせる。具体的には、最後のレイヤの出力だけを保存するために、バックプロパゲーション・ウィズ・リコンストラクション・アルゴリズムを考案する。本稿では,WMT'14,WMT'14,WMT'14,WMT'14,WMT'14,WMT'14の3つのシーケンス・ツー・シーケンス・データセットを用いて検索アーキテクチャを評価する。
論文参考訳（メタデータ） (2021-05-31T01:52:36Z)
Shallow-to-Deep Training for Neural Machine Translation [42.62107851930165]
本稿では,高度に調整された深部変圧器システムの動作について検討する。積層層はNMTモデルの表現能力の向上に有効であることがわかった。これにより,浅層モデルの積み重ねによる深層モデルの学習を行う浅層から深層への学習法が開発される。
論文参考訳（メタデータ） (2020-10-08T02:36:07Z)
Funnel-Transformer: Filtering out Sequential Redundancy for Efficient Language Processing [112.2208052057002]
本稿では,隠れ状態の列を短く圧縮するFunnel-Transformerを提案する。 Funnel-TransformerはFLOPに匹敵する数が少ないため、様々なシーケンスレベルの予測タスクにおいて標準のTransformerよりも優れている。
論文参考訳（メタデータ） (2020-06-05T05:16:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。