Fugu-MT 論文翻訳(概要): Lite Transformer with Long-Short Range Attention

論文の概要: Lite Transformer with Long-Short Range Attention

arxiv url: http://arxiv.org/abs/2004.11886v1
Date: Fri, 24 Apr 2020 17:52:25 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-10 03:44:57.739499
Title: Lite Transformer with Long-Short Range Attention
Title（参考訳）: 長短距離注意付きライト変圧器
Authors: Zhanghao Wu, Zhijian Liu, Ji Lin, Yujun Lin, Song Han
Abstract要約: エッジデバイス上でのモバイルNLPアプリケーションのデプロイを容易にするために,効率的なモバイルNLPアーキテクチャであるLite Transformerを提案する。 Lite Transformer は WMT'14 で 1.2/1.7 BLEU でトランスフォーマーを上回っている。注目すべきは、Lite TransformerがAutoMLベースのEvolved Transformerより0.5高いBLEUでパフォーマンスを向上することだ。
参考スコア（独自算出の注目度）: 31.946796118788285
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Transformer has become ubiquitous in natural language processing (e.g., machine translation, question answering); however, it requires enormous amount of computations to achieve high performance, which makes it not suitable for mobile applications that are tightly constrained by the hardware resources and battery. In this paper, we present an efficient mobile NLP architecture, Lite Transformer to facilitate deploying mobile NLP applications on edge devices. The key primitive is the Long-Short Range Attention (LSRA), where one group of heads specializes in the local context modeling (by convolution) while another group specializes in the long-distance relationship modeling (by attention). Such specialization brings consistent improvement over the vanilla transformer on three well-established language tasks: machine translation, abstractive summarization, and language modeling. Under constrained resources (500M/100M MACs), Lite Transformer outperforms transformer on WMT'14 English-French by 1.2/1.7 BLEU, respectively. Lite Transformer reduces the computation of transformer base model by 2.5x with 0.3 BLEU score degradation. Combining with pruning and quantization, we further compressed the model size of Lite Transformer by 18.2x. For language modeling, Lite Transformer achieves 1.8 lower perplexity than the transformer at around 500M MACs. Notably, Lite Transformer outperforms the AutoML-based Evolved Transformer by 0.5 higher BLEU for the mobile NLP setting without the costly architecture search that requires more than 250 GPU years. Code has been made available at https://github.com/mit-han-lab/lite-transformer.
Abstract（参考訳）: トランスフォーマーは自然言語処理(例えば機械翻訳、質問応答)においてユビキタスになっているが、高い性能を達成するには膨大な量の計算を必要とするため、ハードウェアリソースやバッテリーに厳しく制約されたモバイルアプリケーションには適さない。本稿では,モバイルNLPアプリケーションのエッジデバイスへのデプロイを容易にする,効率的なモバイルNLPアーキテクチャであるLite Transformerを提案する。キープリミティブはlong-short range attention(lsra)であり、あるヘッドのグループは(畳み込みによって)局所的なコンテキストモデリングを専門とし、別のグループは(注意によって)長距離関係モデリングを専門とする。このような特殊化は、機械翻訳、抽象要約、言語モデリングという3つの確立された言語タスクにおいて、バニラトランスフォーマーよりも一貫した改善をもたらす。制約リソース (500M/100M MAC) の下では、Lite Transformer は WMT'14 で 1.2/1.7 BLEU でトランスフォーマーのパフォーマンスをそれぞれ向上させる。 Lite Transformer は変換器ベースモデルの計算を 0.3 BLEU スコアで2.5倍削減する。プルーニングと量子化を組み合わせて,Lite Transformerのモデルサイズを18.2倍に圧縮した。言語モデリングでは、Lite Transformerはトランスに比べて約500万MACで1.8低いパープレキシティを実現する。特にlite transformerは、250gpu以上のコストを要するアーキテクチャ検索なしで、モバイルnlp設定でautomlベースの進化トランスフォーマーを0.5 bleuで上回っている。コードはhttps://github.com/mit-han-lab/lite-transformerで利用可能である。

関連論文リスト

Enhanced Transformer Architecture for Natural Language Processing [2.6071653283020915]
Transformerは自然言語処理(NLP)分野における最先端モデルである本稿では,トランスフォーマーの新たな構造を提案し,全層正規化,重み付け残差接続,強化学習を利用した位置符号化,マスク付き自己注意が特徴である。 The proposed Transformer model, called Enhanced Transformer, is confirmeded by the bilingual evaluation understudy (BLEU) score obtained with the Multi30k translation dataset。
論文参考訳（メタデータ） (2023-10-17T01:59:07Z)
Isomer: Isomerous Transformer for Zero-shot Video Object Segmentation [59.91357714415056]
コンテクスト共有変換器(CST)とセマンティックガザリング散乱変換器(SGST)の2つの変種を提案する。 CSTは、軽量な計算により、画像フレーム内のグローバル共有コンテキスト情報を学習し、SGSTは、前景と背景のセマンティック相関を別々にモデル化する。多段核融合にバニラ変換器を使用するベースラインと比較して,我々は13倍の速度向上を実現し,新しい最先端ZVOS性能を実現する。
論文参考訳（メタデータ） (2023-08-13T06:12:00Z)
ByteTransformer: A High-Performance Transformer Boosted for Variable-Length Inputs [6.9136984255301]
可変長入力のために強化された高性能トランスであるByteTransformerを提案する。 ByteTransformerは、PyTorch JIT、XLA、Tencent TurboTransformer、NVIDIA FasterTransformerといった最先端のTransformerフレームワークを上回っている。
論文参考訳（メタデータ） (2022-10-06T16:57:23Z)
Vis-TOP: Visual Transformer Overlay Processor [9.80151619872144]
Transformerは自然言語処理(NLP)で優れた成果を上げており、コンピュータビジョン(CV)にも拡張し始めている。様々な視覚変換器モデルのためのオーバーレイプロセッサであるVis-TOPを提案する。 Vis-TOPは、全ての視覚変換器モデルの特徴を要約し、3層および2層変換構造を実装している。
論文参考訳（メタデータ） (2021-10-21T08:11:12Z)
Dynamic Transformer for Efficient Machine Translation on Embedded Devices [0.9786690381850356]
利用可能なリソースに基づいてトランスフォーマーアーキテクチャを任意のタイミングでスケールする機械翻訳モデルを提案する。提案手法である"Dynamic-HAT"では,HAT SuperTransformerをバックボーンとして,精度-レイテンシのトレードオフの異なるSubTransformerを探索する。 Dynamic-HATはJetson Nano上でテストされており、提案手法ではスーパートランスフォーマーから直接サンプリングされたサブトランスフォーマーをスイッチング時間1sで使用する。
論文参考訳（メタデータ） (2021-07-17T07:36:29Z)
Long-Short Transformer: Efficient Transformers for Language and Vision [97.2850205384295]
長短変換器(Long-Short Transformer, Transformer-LS)は、言語タスクと視覚タスクの両方に線形な複雑さを持つ長いシーケンスをモデリングするための効率的な自己アテンション機構である。遠距離相関をモデル化するためのダイナミックプロジェクションと、局所相関を微細に捉えるための短期的注意を組み込んだ、新しい長距離の注意を集約する。提案手法は,Long Range Arenaベンチマーク,自動回帰言語モデリング,イメージネット分類など,言語と視覚領域の複数のタスクにおける最先端モデルよりも優れている。
論文参考訳（メタデータ） (2021-07-05T18:00:14Z)
Glancing Transformer for Non-Autoregressive Neural Machine Translation [58.87258329683682]
単一パス並列生成モデルにおける単語相互依存の学習法を提案する。単一パスの並列デコードだけで、GLATは8～15倍のスピードアップで高品質な翻訳を生成することができる。
論文参考訳（メタデータ） (2020-08-18T13:04:03Z)
DeLighT: Deep and Light-weight Transformer [116.9850555964728]
DeLighTは、パラメータが大幅に少ない標準のトランスフォーマーベースモデルと同じような、あるいは優れたパフォーマンスを提供する。 DeLighTは、DeLighT変換、ディープおよびライトウェイト変換、および(2)ブロック単位のスケーリングを用いて、(1)各トランスフォーマーブロック内のパラメータをより効率的に割り当てる。
論文参考訳（メタデータ） (2020-08-03T03:08:29Z)
Segatron: Segment-Aware Transformer for Language Modeling and Understanding [79.84562707201323]
本稿では,セグメンテーション対応トランスフォーマー(Segatron)を提案する。本稿ではまず,Transformerベースの言語モデルであるTransformer-XLにセグメント認識機構を導入する。 WikiText-103データセット上で17.1パープレキシティを実現することにより,Transformer-XLベースモデルと大規模モデルをさらに改善できることがわかった。
論文参考訳（メタデータ） (2020-04-30T17:38:27Z)
Transformer on a Diet [81.09119185568296]
トランスフォーマーは、効率よくシーケンス情報をキャプチャできる能力のおかげで、広く使われている。 BERT や GPT-2 のような最近の開発は、有効性を重視した重いアーキテクチャしか提供していない。計算量が少ないトランスフォーマーが競合する結果をもたらすかどうかを調べるために, 慎重に設計された3つの光トランスフォーマーアーキテクチャを探索する。
論文参考訳（メタデータ） (2020-02-14T18:41:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。