論文の概要: Benchmarking and In-depth Performance Study of Large Language Models on
Habana Gaudi Processors
- arxiv url: http://arxiv.org/abs/2309.16976v1
- Date: Fri, 29 Sep 2023 04:49:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-02 15:26:09.970064
- Title: Benchmarking and In-depth Performance Study of Large Language Models on
Habana Gaudi Processors
- Title(参考訳): habana gaudiプロセッサにおける大規模言語モデルのベンチマークと詳細な性能評価
- Authors: Chengming Zhang, Baixi Sun, Xiaodong Yu, Zhen Xie, Weijian Zheng,
Kamil Iskra, Pete Beckman, Dingwen Tao
- Abstract要約: トランスフォーマーモデルは、様々な機械学習タスクにおいて顕著な成功を収めてきたが、高い計算複雑性とリソース要求に悩まされている。
Habana GAUDIアーキテクチャのような専門的なAIハードウェアアクセラレータは、これらの問題に対処するための有望なソリューションを提供する。
本稿では,GAUDIプロセッサを用いてTransformerベースのモデルを高速化する未解決の可能性について検討し,そのプロセスにおける重要な課題に対処する。
- 参考スコア(独自算出の注目度): 5.432613942292548
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer models have achieved remarkable success in various machine
learning tasks but suffer from high computational complexity and resource
requirements. The quadratic complexity of the self-attention mechanism further
exacerbates these challenges when dealing with long sequences and large
datasets. Specialized AI hardware accelerators, such as the Habana GAUDI
architecture, offer a promising solution to tackle these issues. GAUDI features
a Matrix Multiplication Engine (MME) and a cluster of fully programmable Tensor
Processing Cores (TPC). This paper explores the untapped potential of using
GAUDI processors to accelerate Transformer-based models, addressing key
challenges in the process. Firstly, we provide a comprehensive performance
comparison between the MME and TPC components, illuminating their relative
strengths and weaknesses. Secondly, we explore strategies to optimize MME and
TPC utilization, offering practical insights to enhance computational
efficiency. Thirdly, we evaluate the performance of Transformers on GAUDI,
particularly in handling long sequences and uncovering performance bottlenecks.
Lastly, we evaluate the end-to-end performance of two Transformer-based large
language models (LLM) on GAUDI. The contributions of this work encompass
practical insights for practitioners and researchers alike. We delve into
GAUDI's capabilities for Transformers through systematic profiling, analysis,
and optimization exploration. Our study bridges a research gap and offers a
roadmap for optimizing Transformer-based model training on the GAUDI
architecture.
- Abstract(参考訳): トランスフォーマーモデルは様々な機械学習タスクで顕著な成功を収めてきたが、高い計算複雑性とリソース要求に苦しめられている。
セルフアテンション機構の二次的な複雑さは、長いシーケンスと大きなデータセットを扱う際のこれらの課題をさらに悪化させる。
Habana GAUDIアーキテクチャのような専門的なAIハードウェアアクセラレータは、これらの問題に取り組むための有望なソリューションを提供する。
GAUDI は Matrix Multiplication Engine (MME) と完全にプログラム可能な Tensor Processing Cores (TPC) のクラスタを備えている。
本稿では, GAUDIプロセッサを用いたトランスフォーマーベースモデルの高速化の可能性について検討し, プロセスにおける重要な課題に対処する。
まず、MMEコンポーネントとTPCコンポーネントの総合的な性能比較を行い、その相対的な強度と弱点を明らかにした。
第2に,MMEとTPCの活用を最適化する戦略について検討し,計算効率を向上させるための実践的な洞察を提供する。
第3に,ガウディにおけるトランスフォーマーの性能,特に長いシーケンスの処理や性能ボトルネックの解明について評価する。
最後に,2つのトランスフォーマベースの大規模言語モデル(llm)の性能評価を行った。
この研究の貢献は、実践者や研究者の実践的な洞察にも及んでいる。
我々は、体系的なプロファイリング、分析、最適化探索を通じて、GAUDIのトランスフォーマーの能力を掘り下げる。
本研究は研究ギャップを埋め,GAUDIアーキテクチャ上でTransformerベースのモデルトレーニングを最適化するためのロードマップを提供する。
関連論文リスト
- Inference Optimization of Foundation Models on AI Accelerators [68.24450520773688]
トランスフォーマーアーキテクチャを備えた大規模言語モデル(LLM)を含む強力な基礎モデルは、ジェネレーティブAIの新たな時代を支えている。
モデルパラメータの数が数十億に達すると、実際のシナリオにおける推論コストと高いレイテンシーが排除される。
このチュートリアルでは、AIアクセラレータを用いた補完推論最適化テクニックに関する包括的な議論を行っている。
論文 参考訳(メタデータ) (2024-07-12T09:24:34Z) - Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - How Do Nonlinear Transformers Learn and Generalize in In-Context Learning? [82.51626700527837]
トランスフォーマーベースの大規模言語モデルでは、トレーニング済みのモデルが微調整なしで新しいタスクを処理できるような、コンテキスト内学習機能が印象的だった。
我々は、TransformerがICLを実現する方法の仕組みが、Transformerにおけるトレーニング問題の技術的課題にどのように貢献するかを分析する。
論文 参考訳(メタデータ) (2024-02-23T21:07:20Z) - A Comprehensive Performance Study of Large Language Models on Novel AI
Accelerators [2.88634411143577]
大規模言語モデル(LLM)は、いくつかの課題に対処するための有望なアプローチと考えられている。
専門のAIアクセラレータハードウェアシステムは、最近、AIアプリケーションの高速化に利用できるようになった。
論文 参考訳(メタデータ) (2023-10-06T21:55:57Z) - A survey on efficient vision transformers: algorithms, techniques, and
performance benchmarking [19.65897437342896]
Vision Transformer (ViT) アーキテクチャは、コンピュータビジョンアプリケーションに取り組むために人気が高まり、広く使われている。
本稿では,ビジョントランスフォーマーを効率的にするための戦略を数学的に定義し,最先端の方法論を記述・議論し,その性能を異なるアプリケーションシナリオで解析する。
論文 参考訳(メタデータ) (2023-09-05T08:21:16Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - Full Stack Optimization of Transformer Inference: a Survey [58.55475772110702]
トランスフォーマーモデルは広範囲のアプリケーションにまたがって優れた精度を実現する。
最近のTransformerモデルの推測に必要な計算量と帯域幅は、かなり増加しています。
Transformerモデルをより効率的にすることに注力している。
論文 参考訳(メタデータ) (2023-02-27T18:18:13Z) - Efficient pre-training objectives for Transformers [84.64393460397471]
本研究はトランスフォーマーモデルにおける高効率事前学習目標について検討する。
マスクトークンの除去と損失時のアウトプット全体の考慮が,パフォーマンス向上に不可欠な選択であることを証明する。
論文 参考訳(メタデータ) (2021-04-20T00:09:37Z) - Optimizing Inference Performance of Transformers on CPUs [0.0]
トランスフォーマーベースのモデル(BERTなど)は、検索、翻訳、質問応答など、多くの重要なWebサービスを支えている。
本稿では,cpu上でのトランスフォーマモデル参照のスケーラビリティと性能に関する実証分析を行う。
論文 参考訳(メタデータ) (2021-02-12T17:01:35Z) - A Learned Performance Model for Tensor Processing Units [5.733911161090224]
本稿では,処理ユニット(TPU)インスタンス用のグラフプログラムのコーパスから,パフォーマンスモデルを学習する方法を示す。
学習したモデルでは,2つのタスクにおいて,高度に最適化された分析性能モデルよりも優れていることを示す。
オートチューニングは、TPUへのアクセスが制限されたり、高価な設定で、より高速なプログラムを見つけるのに役立つ。
論文 参考訳(メタデータ) (2020-08-03T17:24:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。