論文の概要: Optimizing Inference Performance of Transformers on CPUs
- arxiv url: http://arxiv.org/abs/2102.06621v1
- Date: Fri, 12 Feb 2021 17:01:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-16 00:29:43.020002
- Title: Optimizing Inference Performance of Transformers on CPUs
- Title(参考訳): cpu上でのトランスフォーマの最適化性能
- Authors: Dave Dice and Alex Kogan
- Abstract要約: トランスフォーマーベースのモデル(BERTなど)は、検索、翻訳、質問応答など、多くの重要なWebサービスを支えている。
本稿では,cpu上でのトランスフォーマモデル参照のスケーラビリティと性能に関する実証分析を行う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The Transformer architecture revolutionized the field of natural language
processing (NLP). Transformers-based models (e.g., BERT) power many important
Web services, such as search, translation, question-answering, etc. While
enormous research attention is paid to the training of those models, relatively
little efforts are made to improve their inference performance. This paper
comes to address this gap by presenting an empirical analysis of scalability
and performance of inferencing a Transformer-based model on CPUs. Focusing on
the highly popular BERT model, we identify key components of the Transformer
architecture where the bulk of the computation happens, and propose three
optimizations to speed them up. The optimizations are evaluated using the
inference benchmark from HuggingFace, and are shown to achieve the speedup of
up to x2.36. The considered optimizations do not require any changes to the
implementation of the models nor affect their accuracy.
- Abstract(参考訳): Transformerアーキテクチャは自然言語処理(NLP)の分野に革命をもたらした。
トランスフォーマーベースのモデル(BERTなど)は、検索、翻訳、質問応答など、多くの重要なWebサービスを支えている。
これらのモデルのトレーニングには膨大な研究の注意が払われているが、推論性能を改善するための取り組みは比較的少ない。
本稿では,cpu上でのトランスフォーマモデル参照のスケーラビリティと性能を実証的に分析することで,このギャップを解消する。
非常にポピュラーなBERTモデルに着目し,計算の大部分を行うTransformerアーキテクチャの主要なコンポーネントを特定し,高速化のための3つの最適化を提案する。
最適化はhughingfaceの推論ベンチマークを用いて評価され、x2.36までの高速化が示されている。
検討された最適化では、モデルの実装の変更は必要とせず、精度にも影響を与えない。
関連論文リスト
- Investigating Low-Rank Training in Transformer Language Models: Efficiency and Scaling Analysis [16.253898272659242]
本研究では,トランスフォーマーを用いたLDM,特に低ランクパラメトリゼーションをフィードフォワードネットワーク(FFN)に適用することに焦点を当てた。
大規模なRefinedWebデータセットの実験では、低ランクのパラメトリゼーションが効率的(例:2.6$times$ FFNのスピードアップと32%のパラメータ)であり、トレーニング中に効果的であることが示されている。
この発見に感化されて、我々は現在の中規模および大規模トランスを超越した広帯域かつ構造化されたネットワークを、パープレキシティとスループット性能で開発する。
論文 参考訳(メタデータ) (2024-07-13T10:08:55Z) - Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - Benchmarking and In-depth Performance Study of Large Language Models on
Habana Gaudi Processors [5.432613942292548]
トランスフォーマーモデルは、様々な機械学習タスクにおいて顕著な成功を収めてきたが、高い計算複雑性とリソース要求に悩まされている。
Habana GAUDIアーキテクチャのような専門的なAIハードウェアアクセラレータは、これらの問題に対処するための有望なソリューションを提供する。
本稿では,GAUDIプロセッサを用いてTransformerベースのモデルを高速化する未解決の可能性について検討し,そのプロセスにおける重要な課題に対処する。
論文 参考訳(メタデータ) (2023-09-29T04:49:35Z) - Optimizing Non-Autoregressive Transformers with Contrastive Learning [74.46714706658517]
非自己回帰変換器(NAT)は、逐次順序ではなく全ての単語を同時に予測することにより、自動回帰変換器(AT)の推論遅延を低減する。
本稿では,データ分布ではなく,モデル分布からのサンプリングによるモダリティ学習の容易化を提案する。
論文 参考訳(メタデータ) (2023-05-23T04:20:13Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Full Stack Optimization of Transformer Inference: a Survey [58.55475772110702]
トランスフォーマーモデルは広範囲のアプリケーションにまたがって優れた精度を実現する。
最近のTransformerモデルの推測に必要な計算量と帯域幅は、かなり増加しています。
Transformerモデルをより効率的にすることに注力している。
論文 参考訳(メタデータ) (2023-02-27T18:18:13Z) - FAMLP: A Frequency-Aware MLP-Like Architecture For Domain Generalization [73.41395947275473]
本稿では、変換周波数領域において、ドメイン固有の特徴をフィルタリングする新しい周波数認識アーキテクチャを提案する。
3つのベンチマークの実験では、最先端の手法をそれぞれ3%、4%、9%のマージンで上回った。
論文 参考訳(メタデータ) (2022-03-24T07:26:29Z) - GroupBERT: Enhanced Transformer Architecture with Efficient Grouped
Structures [57.46093180685175]
トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。
自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。
得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2021-06-10T15:41:53Z) - Transition-based Parsing with Stack-Transformers [32.029528327212795]
リカレントニューラルネットワークは、グローバルステートをモデル化することで、トランジッションベースのシステムの性能を大幅に改善した。
本研究では,トランスフォーマーのクロスアテンション機構の修正により,依存性と意味の両面において性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2020-10-20T23:20:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。