論文の概要: Lite Transformer with Long-Short Range Attention
- arxiv url: http://arxiv.org/abs/2004.11886v1
- Date: Fri, 24 Apr 2020 17:52:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-10 03:44:57.739499
- Title: Lite Transformer with Long-Short Range Attention
- Title(参考訳): 長短距離注意付きライト変圧器
- Authors: Zhanghao Wu, Zhijian Liu, Ji Lin, Yujun Lin, Song Han
- Abstract要約: エッジデバイス上でのモバイルNLPアプリケーションのデプロイを容易にするために,効率的なモバイルNLPアーキテクチャであるLite Transformerを提案する。
Lite Transformer は WMT'14 で 1.2/1.7 BLEU でトランスフォーマーを上回っている。
注目すべきは、Lite TransformerがAutoMLベースのEvolved Transformerより0.5高いBLEUでパフォーマンスを向上することだ。
- 参考スコア(独自算出の注目度): 31.946796118788285
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer has become ubiquitous in natural language processing (e.g.,
machine translation, question answering); however, it requires enormous amount
of computations to achieve high performance, which makes it not suitable for
mobile applications that are tightly constrained by the hardware resources and
battery. In this paper, we present an efficient mobile NLP architecture, Lite
Transformer to facilitate deploying mobile NLP applications on edge devices.
The key primitive is the Long-Short Range Attention (LSRA), where one group of
heads specializes in the local context modeling (by convolution) while another
group specializes in the long-distance relationship modeling (by attention).
Such specialization brings consistent improvement over the vanilla transformer
on three well-established language tasks: machine translation, abstractive
summarization, and language modeling. Under constrained resources (500M/100M
MACs), Lite Transformer outperforms transformer on WMT'14 English-French by
1.2/1.7 BLEU, respectively. Lite Transformer reduces the computation of
transformer base model by 2.5x with 0.3 BLEU score degradation. Combining with
pruning and quantization, we further compressed the model size of Lite
Transformer by 18.2x. For language modeling, Lite Transformer achieves 1.8
lower perplexity than the transformer at around 500M MACs. Notably, Lite
Transformer outperforms the AutoML-based Evolved Transformer by 0.5 higher BLEU
for the mobile NLP setting without the costly architecture search that requires
more than 250 GPU years. Code has been made available at
https://github.com/mit-han-lab/lite-transformer.
- Abstract(参考訳): トランスフォーマーは自然言語処理(例えば機械翻訳、質問応答)においてユビキタスになっているが、高い性能を達成するには膨大な量の計算を必要とするため、ハードウェアリソースやバッテリーに厳しく制約されたモバイルアプリケーションには適さない。
本稿では,モバイルNLPアプリケーションのエッジデバイスへのデプロイを容易にする,効率的なモバイルNLPアーキテクチャであるLite Transformerを提案する。
キープリミティブはlong-short range attention(lsra)であり、あるヘッドのグループは(畳み込みによって)局所的なコンテキストモデリングを専門とし、別のグループは(注意によって)長距離関係モデリングを専門とする。
このような特殊化は、機械翻訳、抽象要約、言語モデリングという3つの確立された言語タスクにおいて、バニラトランスフォーマーよりも一貫した改善をもたらす。
制約リソース (500M/100M MAC) の下では、Lite Transformer は WMT'14 で 1.2/1.7 BLEU でトランスフォーマーのパフォーマンスをそれぞれ向上させる。
Lite Transformer は変換器ベースモデルの計算を 0.3 BLEU スコアで2.5倍削減する。
プルーニングと量子化を組み合わせて,Lite Transformerのモデルサイズを18.2倍に圧縮した。
言語モデリングでは、Lite Transformerはトランスに比べて約500万MACで1.8低いパープレキシティを実現する。
特にlite transformerは、250gpu以上のコストを要するアーキテクチャ検索なしで、モバイルnlp設定でautomlベースの進化トランスフォーマーを0.5 bleuで上回っている。
コードはhttps://github.com/mit-han-lab/lite-transformerで利用可能である。
関連論文リスト
- Enhanced Transformer Architecture for Natural Language Processing [2.6071653283020915]
Transformerは自然言語処理(NLP)分野における最先端モデルである
本稿では,トランスフォーマーの新たな構造を提案し,全層正規化,重み付け残差接続,強化学習を利用した位置符号化,マスク付き自己注意が特徴である。
The proposed Transformer model, called Enhanced Transformer, is confirmeded by the bilingual evaluation understudy (BLEU) score obtained with the Multi30k translation dataset。
論文 参考訳(メタデータ) (2023-10-17T01:59:07Z) - Isomer: Isomerous Transformer for Zero-shot Video Object Segmentation [59.91357714415056]
コンテクスト共有変換器(CST)とセマンティックガザリング散乱変換器(SGST)の2つの変種を提案する。
CSTは、軽量な計算により、画像フレーム内のグローバル共有コンテキスト情報を学習し、SGSTは、前景と背景のセマンティック相関を別々にモデル化する。
多段核融合にバニラ変換器を使用するベースラインと比較して,我々は13倍の速度向上を実現し,新しい最先端ZVOS性能を実現する。
論文 参考訳(メタデータ) (2023-08-13T06:12:00Z) - ByteTransformer: A High-Performance Transformer Boosted for
Variable-Length Inputs [6.9136984255301]
可変長入力のために強化された高性能トランスであるByteTransformerを提案する。
ByteTransformerは、PyTorch JIT、XLA、Tencent TurboTransformer、NVIDIA FasterTransformerといった最先端のTransformerフレームワークを上回っている。
論文 参考訳(メタデータ) (2022-10-06T16:57:23Z) - Vis-TOP: Visual Transformer Overlay Processor [9.80151619872144]
Transformerは自然言語処理(NLP)で優れた成果を上げており、コンピュータビジョン(CV)にも拡張し始めている。
様々な視覚変換器モデルのためのオーバーレイプロセッサであるVis-TOPを提案する。
Vis-TOPは、全ての視覚変換器モデルの特徴を要約し、3層および2層変換構造を実装している。
論文 参考訳(メタデータ) (2021-10-21T08:11:12Z) - Dynamic Transformer for Efficient Machine Translation on Embedded
Devices [0.9786690381850356]
利用可能なリソースに基づいてトランスフォーマーアーキテクチャを任意のタイミングでスケールする機械翻訳モデルを提案する。
提案手法である"Dynamic-HAT"では,HAT SuperTransformerをバックボーンとして,精度-レイテンシのトレードオフの異なるSubTransformerを探索する。
Dynamic-HATはJetson Nano上でテストされており、提案手法ではスーパートランスフォーマーから直接サンプリングされたサブトランスフォーマーをスイッチング時間1sで使用する。
論文 参考訳(メタデータ) (2021-07-17T07:36:29Z) - Long-Short Transformer: Efficient Transformers for Language and Vision [97.2850205384295]
長短変換器(Long-Short Transformer, Transformer-LS)は、言語タスクと視覚タスクの両方に線形な複雑さを持つ長いシーケンスをモデリングするための効率的な自己アテンション機構である。
遠距離相関をモデル化するためのダイナミックプロジェクションと、局所相関を微細に捉えるための短期的注意を組み込んだ、新しい長距離の注意を集約する。
提案手法は,Long Range Arenaベンチマーク,自動回帰言語モデリング,イメージネット分類など,言語と視覚領域の複数のタスクにおける最先端モデルよりも優れている。
論文 参考訳(メタデータ) (2021-07-05T18:00:14Z) - Glancing Transformer for Non-Autoregressive Neural Machine Translation [58.87258329683682]
単一パス並列生成モデルにおける単語相互依存の学習法を提案する。
単一パスの並列デコードだけで、GLATは8~15倍のスピードアップで高品質な翻訳を生成することができる。
論文 参考訳(メタデータ) (2020-08-18T13:04:03Z) - DeLighT: Deep and Light-weight Transformer [116.9850555964728]
DeLighTは、パラメータが大幅に少ない標準のトランスフォーマーベースモデルと同じような、あるいは優れたパフォーマンスを提供する。
DeLighTは、DeLighT変換、ディープおよびライトウェイト変換、および(2)ブロック単位のスケーリングを用いて、(1)各トランスフォーマーブロック内のパラメータをより効率的に割り当てる。
論文 参考訳(メタデータ) (2020-08-03T03:08:29Z) - Segatron: Segment-Aware Transformer for Language Modeling and
Understanding [79.84562707201323]
本稿では,セグメンテーション対応トランスフォーマー(Segatron)を提案する。
本稿ではまず,Transformerベースの言語モデルであるTransformer-XLにセグメント認識機構を導入する。
WikiText-103データセット上で17.1パープレキシティを実現することにより,Transformer-XLベースモデルと大規模モデルをさらに改善できることがわかった。
論文 参考訳(メタデータ) (2020-04-30T17:38:27Z) - Transformer on a Diet [81.09119185568296]
トランスフォーマーは、効率よくシーケンス情報をキャプチャできる能力のおかげで、広く使われている。
BERT や GPT-2 のような最近の開発は、有効性を重視した重いアーキテクチャしか提供していない。
計算量が少ないトランスフォーマーが競合する結果をもたらすかどうかを調べるために, 慎重に設計された3つの光トランスフォーマーアーキテクチャを探索する。
論文 参考訳(メタデータ) (2020-02-14T18:41:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。