Fugu-MT 論文翻訳(概要): ByteTransformer: A High-Performance Transformer Boosted for Variable-Length Inputs

論文の概要: ByteTransformer: A High-Performance Transformer Boosted for Variable-Length Inputs

arxiv url: http://arxiv.org/abs/2210.03052v1
Date: Thu, 6 Oct 2022 16:57:23 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-07 17:21:49.132337
Title: ByteTransformer: A High-Performance Transformer Boosted for Variable-Length Inputs
Title（参考訳）: bytetransformer:可変長入力のための高性能トランスフォーマー
Authors: Yujia Zhai, Chengquan Jiang, Leyuan Wang, Xiaoying Jia, Shang Zhang, Zizhong Chen, Xin Liu, Yibo Zhu
Abstract要約: 可変長入力のために強化された高性能トランスであるByteTransformerを提案する。 ByteTransformerは、PyTorch JIT、XLA、Tencent TurboTransformer、NVIDIA FasterTransformerといった最先端のTransformerフレームワークを上回っている。
参考スコア（独自算出の注目度）: 6.9136984255301
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Transformer is the cornerstone model of Natural Language Processing (NLP) over the past decade. Despite its great success in Deep Learning (DL) applications, the increasingly growing parameter space required by transformer models boosts the demand on accelerating the performance of transformer models. In addition, NLP problems can commonly be faced with variable-length sequences since their word numbers can vary among sentences. Existing DL frameworks need to pad variable-length sequences to the maximal length, which, however, leads to significant memory and computational overhead. In this paper, we present ByteTransformer, a high-performance transformer boosted for variable-length inputs. We propose a zero padding algorithm that enables the whole transformer to be free from redundant computations on useless padded tokens. Besides the algorithmic level optimization, we provide architectural-aware optimizations for transformer functioning modules, especially the performance-critical algorithm, multi-head attention (MHA). Experimental results on an NVIDIA A100 GPU with variable-length sequence inputs validate that our fused MHA (FMHA) outperforms the standard PyTorch MHA by 6.13X. The end-to-end performance of ByteTransformer for a standard BERT transformer model surpasses the state-of-the-art Transformer frameworks, such as PyTorch JIT, TensorFlow XLA, Tencent TurboTransformer and NVIDIA FasterTransformer, by 87\%, 131\%, 138\% and 46\%, respectively.
Abstract（参考訳）: Transformerは、過去10年間の自然言語処理(NLP)の基盤モデルです。ディープラーニング(DL)アプリケーションで大きな成功を収めたにもかかわらず、トランスフォーマーモデルに必要なパラメータ空間が増加し、トランスフォーマーモデルの性能向上への需要が高まっている。さらに、NLPの問題は、単語番号が文によって異なるため、可変長のシーケンスで一般的に直面することができる。既存のdlフレームワークは可変長シーケンスを最大長にパットする必要があるが、これは大きなメモリと計算オーバーヘッドをもたらす。本稿では,可変長入力用高性能トランスフォーマであるbytetransformerを提案する。本研究では,無用なパディングトークン上での冗長な計算から変換器全体を解放するゼロパディングアルゴリズムを提案する。アルゴリズムレベルの最適化に加えて、トランスフォーマー機能モジュール、特にパフォーマンスクリティカルなアルゴリズムであるマルチヘッドアテンション(mha)のアーキテクチャ対応最適化も提供する。可変長シーケンス入力を持つNVIDIA A100 GPUの実験結果は、融合MHA(FMHA)が標準PyTorch MHAを6.13Xで上回ることを示す。標準的なBERTトランスモデルのByteTransformerのエンドツーエンドのパフォーマンスは、PyTorch JIT、TensorFlow XLA、Tencent TurboTransformer、NVIDIA FasterTransformerといった最先端のTransformerフレームワークをそれぞれ87\%、131\%、138\%、46\%を超えている。

関連論文リスト

BoostTransformer: Enhancing Transformer Models with Subgrid Selection and Importance Sampling [11.246174442827282]
BoostTransformerは、サブグリッドトークンの選択と重要度の高いサンプリングを通じて、トランスフォーマーを強化します。提案手法はトランスパイプラインに直接最小2乗推進目標を組み込むことで,より効率的なトレーニングと性能向上を実現している。
論文参考訳（メタデータ） (2025-08-04T21:54:16Z)
MoEUT: Mixture-of-Experts Universal Transformers [75.96744719516813]
ユニバーサルトランスフォーマー(UT)は、合成一般化の学習において標準トランスフォーマーよりも有利である。層共有は、同じ次元を持つ非共有モデルと比較してパラメータ数を大幅に削減する。従来の作業では、言語モデリングのようなパラメータ数の支配的なタスクと競合する共有層トランスフォーマー設計の提案に成功しなかった。
論文参考訳（メタデータ） (2024-05-25T03:24:32Z)
On the Expressive Power of a Variant of the Looped Transformer [83.30272757948829]
我々はアルゴリズム能力でトランスフォーマーを強化するために、AlgoFormerと呼ばれる新しいトランスフォーマーブロックを設計する。提案したAlgoFormerは、同じ数のパラメータを使用する場合、アルゴリズム表現においてはるかに高い精度を達成することができる。いくつかの理論的および実証的な結果は、設計されたトランスフォーマーが、人間設計のアルゴリズムよりも賢い可能性があることを示している。
論文参考訳（メタデータ） (2024-02-21T07:07:54Z)
Enhanced Transformer Architecture for Natural Language Processing [2.6071653283020915]
Transformerは自然言語処理(NLP)分野における最先端モデルである本稿では,トランスフォーマーの新たな構造を提案し,全層正規化,重み付け残差接続,強化学習を利用した位置符号化,マスク付き自己注意が特徴である。 The proposed Transformer model, called Enhanced Transformer, is confirmeded by the bilingual evaluation understudy (BLEU) score obtained with the Multi30k translation dataset。
論文参考訳（メタデータ） (2023-10-17T01:59:07Z)
Linearizing Transformer with Key-Value Memory Bank [54.83663647680612]
我々は、ソースシーケンスを低次元表現に投影するアプローチであるMemSizerを提案する。 MemSizerは同じ線形時間複雑性を達成するだけでなく、効率的なリカレントスタイルの自己回帰生成も楽しめる。我々はMemSizerがバニラ変圧器の効率と精度のトレードオフを改善することを実証した。
論文参考訳（メタデータ） (2022-03-23T18:10:18Z)
Sparse is Enough in Scaling Transformers [12.561317511514469]
大規模なTransformerモデルは、多くのタスクにおいて印象的な結果をもたらすが、トレーニングや微調整は高価であり、デコードが遅いため、使用と研究が手に入らない。本稿では,スパース層を用いた次世代トランスフォーマーモデルのファミリーであるScaling Transformerを提案する。
論文参考訳（メタデータ） (2021-11-24T19:53:46Z)
Towards Incremental Transformers: An Empirical Analysis of Transformer Models for Incremental NLU [19.103130032967663]
インクリメンタル処理により、対話システムは部分的な入力に基づいて応答できる。最近の作業では、再起動と増分によってトランスフォーマーを漸進的に適用しようと試みている。このアプローチは計算コストが高く、長いシーケンスに対して効率よくスケールしない。
論文参考訳（メタデータ） (2021-09-15T15:20:29Z)
Stable, Fast and Accurate: Kernelized Attention with Relative Positional Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文参考訳（メタデータ） (2021-06-23T17:51:26Z)
Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。線形複雑リカレント変種は自己回帰生成に適していることが証明されている。この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文参考訳（メタデータ） (2021-03-24T10:50:43Z)
TurboTransformers: An Efficient GPU Serving System For Transformer Models [17.4637724940437]
TurboTransformersシステムは、コンピューティングランタイムとサービスフレームワークで構成されている。 GPUベースのバッチ削減操作に対して,効率的な並列アルゴリズムを提案する。メモリ割り当てアルゴリズムは可変長入力状況向けに設計されている。新しいバッチスケジューラを備えたサービスフレームワークは、可変長要求に対して最適なスループットを実現する。
論文参考訳（メタデータ） (2020-10-09T07:28:38Z)
Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文参考訳（メタデータ） (2020-05-20T17:25:43Z)
Segatron: Segment-Aware Transformer for Language Modeling and Understanding [79.84562707201323]
本稿では,セグメンテーション対応トランスフォーマー(Segatron)を提案する。本稿ではまず,Transformerベースの言語モデルであるTransformer-XLにセグメント認識機構を導入する。 WikiText-103データセット上で17.1パープレキシティを実現することにより,Transformer-XLベースモデルと大規模モデルをさらに改善できることがわかった。
論文参考訳（メタデータ） (2020-04-30T17:38:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。