論文の概要: Hardware Acceleration of LLMs: A comprehensive survey and comparison
- arxiv url: http://arxiv.org/abs/2409.03384v1
- Date: Thu, 5 Sep 2024 09:43:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 21:00:20.806404
- Title: Hardware Acceleration of LLMs: A comprehensive survey and comparison
- Title(参考訳): LLMのハードウェアアクセラレーション:総合的な調査と比較
- Authors: Nikoletta Koilia, Christoforos Kachris,
- Abstract要約: 大規模言語モデル(LLM)は、自然言語処理タスクの強力なツールとして登場し、人間のようなテキストを理解して生成する能力によって、フィールドに革命をもたらした。
本稿では,ハードウェアアクセラレーションを用いた大規模言語モデルのためのトランスフォーマーネットワークの高速化に向けた,いくつかの研究成果を包括的に調査する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have emerged as powerful tools for natural language processing tasks, revolutionizing the field with their ability to understand and generate human-like text. In this paper, we present a comprehensive survey of the several research efforts that have been presented for the acceleration of transformer networks for Large Language Models using hardware accelerators. The survey presents the frameworks that have been proposed and then performs a qualitative and quantitative comparison regarding the technology, the processing platform (FPGA, ASIC, In-Memory, GPU), the speedup, the energy efficiency, the performance (GOPs), and the energy efficiency (GOPs/W) of each framework. The main challenge in comparison is that every proposed scheme is implemented on a different process technology making hard a fair comparison. The main contribution of this paper is that we extrapolate the results of the performance and the energy efficiency on the same technology to make a fair comparison; one theoretical and one more practical. We implement part of the LLMs on several FPGA chips to extrapolate the results to the same process technology and then we make a fair comparison of the performance.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語処理タスクの強力なツールとして登場し、人間のようなテキストを理解して生成する能力によって、フィールドに革命をもたらした。
本稿では,ハードウェアアクセラレーションを用いた大規模言語モデルのためのトランスフォーマーネットワークの高速化に向けた,いくつかの研究成果を包括的に調査する。
この調査では、提案されたフレームワークと、その技術、処理プラットフォーム(FPGA、ASIC、In-Memory、GPU)、スピードアップ、エネルギ効率、パフォーマンス(GOP)、各フレームワークのエネルギ効率(GOPs/W)に関する質的かつ定量的な比較を行った。
比較における主な課題は、提案されたすべてのスキームが異なるプロセス技術上に実装され、公正な比較が難しいことである。
本論文の主な貢献は,同一技術における性能とエネルギー効率の結果を概説し,公正な比較を行うことである。
複数のFPGAチップにLLMの一部を実装し、結果を同じプロセス技術に出力し、その性能を公平に比較する。
関連論文リスト
- EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,新しいパイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法に比べて,プリフィルスループットが平均21%向上していることが判明した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - Large Language Model Inference Acceleration: A Comprehensive Hardware Perspective [32.827076621809965]
大規模言語モデル(LLM)は、自然言語理解からテキスト生成に至るまで、様々な分野において顕著な能力を示している。
生成LDMの進歩は、ハードウェア機能の開発と密接に絡み合っている。
本稿では,異なるハードウェアプラットフォーム上での効率的なLLM推論を包括的に調査する。
論文 参考訳(メタデータ) (2024-10-06T12:42:04Z) - Inference Optimization of Foundation Models on AI Accelerators [68.24450520773688]
トランスフォーマーアーキテクチャを備えた大規模言語モデル(LLM)を含む強力な基礎モデルは、ジェネレーティブAIの新たな時代を支えている。
モデルパラメータの数が数十億に達すると、実際のシナリオにおける推論コストと高いレイテンシーが排除される。
このチュートリアルでは、AIアクセラレータを用いた補完推論最適化テクニックに関する包括的な議論を行っている。
論文 参考訳(メタデータ) (2024-07-12T09:24:34Z) - From Words to Watts: Benchmarking the Energy Costs of Large Language
Model Inference [19.439683873290623]
大規模言語モデル(LLM)は、新しい生成能力によって、最先端の最先端をはるかに超えているため、人気が高まっている。
これらのモデルには計算上の課題、特に推論に必要な計算とエネルギーのコストが伴う。
論文 参考訳(メタデータ) (2023-10-04T17:41:59Z) - Benchmarking and In-depth Performance Study of Large Language Models on
Habana Gaudi Processors [5.432613942292548]
トランスフォーマーモデルは、様々な機械学習タスクにおいて顕著な成功を収めてきたが、高い計算複雑性とリソース要求に悩まされている。
Habana GAUDIアーキテクチャのような専門的なAIハードウェアアクセラレータは、これらの問題に対処するための有望なソリューションを提供する。
本稿では,GAUDIプロセッサを用いてTransformerベースのモデルを高速化する未解決の可能性について検討し,そのプロセスにおける重要な課題に対処する。
論文 参考訳(メタデータ) (2023-09-29T04:49:35Z) - A survey on efficient vision transformers: algorithms, techniques, and
performance benchmarking [19.65897437342896]
Vision Transformer (ViT) アーキテクチャは、コンピュータビジョンアプリケーションに取り組むために人気が高まり、広く使われている。
本稿では,ビジョントランスフォーマーを効率的にするための戦略を数学的に定義し,最先端の方法論を記述・議論し,その性能を異なるアプリケーションシナリオで解析する。
論文 参考訳(メタデータ) (2023-09-05T08:21:16Z) - Cheaply Evaluating Inference Efficiency Metrics for Autoregressive
Transformer APIs [66.30706841821123]
大規模言語モデル(LLM)は、自然言語処理において多くの最先端システムに電力を供給する。
LLMは、推論時でさえ非常に計算コストが高い。
モデル間での推論効率を比較するための新しい指標を提案する。
論文 参考訳(メタデータ) (2023-05-03T21:51:42Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Transformer-based Context Condensation for Boosting Feature Pyramids in
Object Detection [77.50110439560152]
現在の物体検出器は、通常マルチレベル特徴融合(MFF)のための特徴ピラミッド(FP)モジュールを持つ。
我々は,既存のFPがより優れたMFF結果を提供するのに役立つ,新しい,効率的なコンテキストモデリング機構を提案する。
特に,包括的文脈を2種類の表現に分解・凝縮して高効率化を図っている。
論文 参考訳(メタデータ) (2022-07-14T01:45:03Z) - HULK: An Energy Efficiency Benchmark Platform for Responsible Natural
Language Processing [76.38975568873765]
本稿では,自然言語処理のためのマルチタスクエネルギー効率ベンチマークプラットフォームであるHULKを紹介する。
我々は、事前訓練されたモデルのエネルギー効率を時間とコストの観点から比較する。
論文 参考訳(メタデータ) (2020-02-14T01:04:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。