論文の概要: GFormer: Accelerating Large Language Models with Optimized Transformers on Gaudi Processors
- arxiv url: http://arxiv.org/abs/2412.19829v1
- Date: Thu, 19 Dec 2024 14:50:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 09:06:41.145684
- Title: GFormer: Accelerating Large Language Models with Optimized Transformers on Gaudi Processors
- Title(参考訳): GFormer: ガウディプロセッサ上での最適化トランスフォーマーによる大規模言語モデルの高速化
- Authors: Chengming Zhang, Xinheng Ding, Baixi Sun, Xiaodong Yu, Weijian Zheng, Zhen Xie, Dingwen Tao,
- Abstract要約: ガウディプロセッサのような不均一なハードウェアは、計算を強化するために開発されている。
トランスフォーマーは、このような新興ハードウェアに完全に最適化されていない。
疎線形アテンション機構をマージする統合アプローチ(GFormerと呼ばれる)。
GFormerは、Gaudiプロセッサ上の様々なタスクにおける効率とモデルパフォーマンスを大幅に改善する。
- 参考スコア(独自算出の注目度): 5.432613942292548
- License:
- Abstract: Heterogeneous hardware like Gaudi processor has been developed to enhance computations, especially matrix operations for Transformer-based large language models (LLMs) for generative AI tasks. However, our analysis indicates that Transformers are not fully optimized on such emerging hardware, primarily due to inadequate optimizations in non-matrix computational kernels like Softmax and in heterogeneous resource utilization, particularly when processing long sequences. To address these issues, we propose an integrated approach (called GFormer) that merges sparse and linear attention mechanisms. GFormer aims to maximize the computational capabilities of the Gaudi processor's Matrix Multiplication Engine (MME) and Tensor Processing Cores (TPC) without compromising model quality. GFormer includes a windowed self-attention kernel and an efficient outer product kernel for causal linear attention, aiming to optimize LLM inference on Gaudi processors. Evaluation shows that GFormer significantly improves efficiency and model performance across various tasks on the Gaudi processor and outperforms state-of-the-art GPUs.
- Abstract(参考訳): Gaudiプロセッサのような不均一なハードウェアは、計算、特に生成AIタスクのためのTransformerベースの大規模言語モデル(LLM)の行列操作を強化するために開発されている。
しかし,本分析の結果から,Transformerは,Softmaxなどの非行列計算カーネルや異種資源利用,特に長いシーケンス処理における不適切な最適化のために,このような新興ハードウェアに完全に最適化されていないことが示唆された。
これらの問題に対処するために,スパースと線形アテンション機構を融合した統合アプローチ(GFormer)を提案する。
GFormerは、モデル品質を損なうことなく、GaudiプロセッサのMatrix Multiplication Engine(MME)とTensor Processing Cores(TPC)の計算能力を最大化することを目的としている。
GFormerには、ウィンドウ化された自己アテンションカーネルと、ガウディプロセッサ上のLSM推論を最適化することを目的とした、因果線形注意のための効率的な外部製品カーネルが含まれている。
GFormerは、Gaudiプロセッサ上の様々なタスクにおける効率とモデルパフォーマンスを著しく改善し、最先端のGPUより優れていることを示す。
関連論文リスト
- Sample-efficient Bayesian Optimisation Using Known Invariances [56.34916328814857]
バニラと制約付きBOアルゴリズムは、不変目的を最適化する際の非効率性を示す。
我々はこれらの不変カーネルの最大情報ゲインを導出する。
核融合炉用電流駆動システムの設計に本手法を用い, 高性能溶液の探索を行った。
論文 参考訳(メタデータ) (2024-10-22T12:51:46Z) - All-to-all reconfigurability with sparse and higher-order Ising machines [0.0]
オール・ツー・オールのネットワーク機能をエミュレートする多重アーキテクチャを導入する。
適応並列テンパリングアルゴリズムの実行は、競合するアルゴリズムと事前ファクターの利点を示す。
pビットIMのスケールされた磁気バージョンは、汎用最適化のための最先端技術よりも桁違いに改善される可能性がある。
論文 参考訳(メタデータ) (2023-11-21T20:27:02Z) - Benchmarking and In-depth Performance Study of Large Language Models on
Habana Gaudi Processors [5.432613942292548]
トランスフォーマーモデルは、様々な機械学習タスクにおいて顕著な成功を収めてきたが、高い計算複雑性とリソース要求に悩まされている。
Habana GAUDIアーキテクチャのような専門的なAIハードウェアアクセラレータは、これらの問題に対処するための有望なソリューションを提供する。
本稿では,GAUDIプロセッサを用いてTransformerベースのモデルを高速化する未解決の可能性について検討し,そのプロセスにおける重要な課題に対処する。
論文 参考訳(メタデータ) (2023-09-29T04:49:35Z) - Full Stack Optimization of Transformer Inference: a Survey [58.55475772110702]
トランスフォーマーモデルは広範囲のアプリケーションにまたがって優れた精度を実現する。
最近のTransformerモデルの推測に必要な計算量と帯域幅は、かなり増加しています。
Transformerモデルをより効率的にすることに注力している。
論文 参考訳(メタデータ) (2023-02-27T18:18:13Z) - oneDNN Graph Compiler: A Hybrid Approach for High-Performance Deep
Learning Compilation [8.64220475114214]
oneDNN Graph Compilerは、コンパイラ最適化とエキスパートチューニングされたカーネルの両方のテクニックをハイパフォーマンスコード生成に使用するためのハイブリッドアプローチを採用している。
実験結果から,既存のテンソルコンパイラやプリミティブライブラリよりも高い性能を示した。
論文 参考訳(メタデータ) (2023-01-03T19:52:17Z) - An Empirical Evaluation of Zeroth-Order Optimization Methods on
AI-driven Molecule Optimization [78.36413169647408]
分子目的を最適化するための様々なZO最適化手法の有効性について検討する。
ZO符号に基づく勾配降下(ZO-signGD)の利点を示す。
本稿では,Guurcamol スイートから広く使用されているベンチマークタスクに対して,ZO 最適化手法の有効性を示す。
論文 参考訳(メタデータ) (2022-10-27T01:58:10Z) - Geometry-aware Bayesian Optimization in Robotics using Riemannian
Mat\'ern Kernels [64.62221198500467]
ベイズ最適化のための幾何対応カーネルの実装方法を示す。
この技術は、ロボット工学における制御パラメータチューニング、パラメトリックポリシー適応、構造設計に利用できる。
論文 参考訳(メタデータ) (2021-11-02T09:47:22Z) - Transferable Graph Optimizers for ML Compilers [18.353830282858834]
計算グラフ最適化(GO)のためのエンドツーエンドで転送可能な深層強化学習法を提案する。
GOは個々のノードに対して自動回帰ではなく,グラフ全体の決定を生成する。
GOは、人間の専門家よりも21%改善し、先行技術よりも18%改善し、15倍早く収束する。
論文 参考訳(メタデータ) (2020-10-21T20:28:33Z) - Adaptive pruning-based optimization of parameterized quantum circuits [62.997667081978825]
Variisyハイブリッド量子古典アルゴリズムは、ノイズ中間量子デバイスの使用を最大化する強力なツールである。
我々は、変分量子アルゴリズムで使用されるそのようなアンサーゼを「効率的な回路訓練」(PECT)と呼ぶ戦略を提案する。
すべてのアンサッツパラメータを一度に最適化する代わりに、PECTは一連の変分アルゴリズムを起動する。
論文 参考訳(メタデータ) (2020-10-01T18:14:11Z) - FTRANS: Energy-Efficient Acceleration of Transformers using FPGA [11.032972017827248]
本稿では,変換器をベースとした大規模言語表現のための高速化フレームワークFtransを提案する。
本フレームワークは,NLPモデルのモデルサイズを最大16倍に削減する。
FPGA設計は、CPUと比較して27.07倍、81倍の性能向上とエネルギー効率の向上を実現し、GPUと比較して最大8.80倍のエネルギー効率向上を実現している。
論文 参考訳(メタデータ) (2020-07-16T18:58:31Z) - Global Optimization of Gaussian processes [52.77024349608834]
少数のデータポイントで学習したガウス過程を訓練した空間定式化を提案する。
このアプローチはまた、より小さく、計算的にもより安価なサブソルバを低いバウンディングに導く。
提案手法の順序の順序による時間収束を,総じて低減する。
論文 参考訳(メタデータ) (2020-05-21T20:59:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。