Fugu-MT 論文翻訳(概要): Hardware Acceleration of LLMs: A comprehensive survey and comparison

論文の概要: Hardware Acceleration of LLMs: A comprehensive survey and comparison

arxiv url: http://arxiv.org/abs/2409.03384v1
Date: Thu, 5 Sep 2024 09:43:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-06 21:00:20.806404
Title: Hardware Acceleration of LLMs: A comprehensive survey and comparison
Title（参考訳）: LLMのハードウェアアクセラレーション:総合的な調査と比較
Authors: Nikoletta Koilia, Christoforos Kachris,
Abstract要約: 大規模言語モデル(LLM)は、自然言語処理タスクの強力なツールとして登場し、人間のようなテキストを理解して生成する能力によって、フィールドに革命をもたらした。本稿では,ハードウェアアクセラレーションを用いた大規模言語モデルのためのトランスフォーマーネットワークの高速化に向けた,いくつかの研究成果を包括的に調査する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have emerged as powerful tools for natural language processing tasks, revolutionizing the field with their ability to understand and generate human-like text. In this paper, we present a comprehensive survey of the several research efforts that have been presented for the acceleration of transformer networks for Large Language Models using hardware accelerators. The survey presents the frameworks that have been proposed and then performs a qualitative and quantitative comparison regarding the technology, the processing platform (FPGA, ASIC, In-Memory, GPU), the speedup, the energy efficiency, the performance (GOPs), and the energy efficiency (GOPs/W) of each framework. The main challenge in comparison is that every proposed scheme is implemented on a different process technology making hard a fair comparison. The main contribution of this paper is that we extrapolate the results of the performance and the energy efficiency on the same technology to make a fair comparison; one theoretical and one more practical. We implement part of the LLMs on several FPGA chips to extrapolate the results to the same process technology and then we make a fair comparison of the performance.
Abstract（参考訳）: 大規模言語モデル(LLM)は、自然言語処理タスクの強力なツールとして登場し、人間のようなテキストを理解して生成する能力によって、フィールドに革命をもたらした。本稿では,ハードウェアアクセラレーションを用いた大規模言語モデルのためのトランスフォーマーネットワークの高速化に向けた,いくつかの研究成果を包括的に調査する。この調査では、提案されたフレームワークと、その技術、処理プラットフォーム(FPGA、ASIC、In-Memory、GPU)、スピードアップ、エネルギ効率、パフォーマンス(GOP)、各フレームワークのエネルギ効率(GOPs/W)に関する質的かつ定量的な比較を行った。比較における主な課題は、提案されたすべてのスキームが異なるプロセス技術上に実装され、公正な比較が難しいことである。本論文の主な貢献は,同一技術における性能とエネルギー効率の結果を概説し,公正な比較を行うことである。複数のFPGAチップにLLMの一部を実装し、結果を同じプロセス技術に出力し、その性能を公平に比較する。

関連論文リスト

Energy Considerations of Large Language Model Inference and Efficiency Optimizations [28.55549828393871]
大規模言語モデル(LLM)の規模と採用が拡大するにつれて、その計算と環境コストは上昇し続けている。多様なNLPおよびAIワークロードにまたがる共通推論効率最適化のエネルギー含意を系統的に分析する。本研究により, 推定効率最適化の適切な適用により, 最適化されていないベースラインから最大73%のエネルギー使用量を削減できることが判明した。
論文参考訳（メタデータ） (2025-04-24T15:45:05Z)
Navigating Intelligence: A Survey of Google OR-Tools and Machine Learning for Global Path Planning in Autonomous Vehicles [49.1574468325115]
ROMIEと呼ばれる自律的な採鉱ロボットには,グローバルパスプランニングが不可欠である。 Q-Learningは最適な戦略であり、データセット全体の最適解から平均1.2%しか逸脱せず、優れた効率を示す。
論文参考訳（メタデータ） (2025-03-05T10:12:22Z)
Investigating Energy Efficiency and Performance Trade-offs in LLM Inference Across Tasks and DVFS Settings [1.5749416770494706]
大規模言語モデル(LLM)は多くの自然言語処理(NLP)タスクにおいて大幅に改善されている。 LLMはリソース集約型であり、トレーニングと推論の両方に広範な計算資源を必要とする。導入が加速するにつれて、LLMの持続性は重要な問題となっている。
論文参考訳（メタデータ） (2025-01-14T16:02:33Z)
A Survey on Inference Optimization Techniques for Mixture of Experts Models [50.40325411764262]
大規模Mixture of Experts(MoE)モデルは、条件計算によるモデル容量と計算効率の向上を提供する。これらのモデル上で推論をデプロイし実行することは、計算資源、レイテンシ、エネルギー効率において大きな課題を示す。本調査では,システムスタック全体にわたるMoEモデルの最適化手法について分析する。
論文参考訳（メタデータ） (2024-12-18T14:11:15Z)
EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,新しいパイプラインスケジューラであるEPS-MoEを紹介する。その結果,既存の並列推論手法に比べて,プリフィルスループットが平均21%向上していることが判明した。
論文参考訳（メタデータ） (2024-10-16T05:17:49Z)
Large Language Model Inference Acceleration: A Comprehensive Hardware Perspective [32.827076621809965]
大規模言語モデル(LLM)は、自然言語理解からテキスト生成に至るまで、様々な分野において顕著な能力を示している。生成LDMの進歩は、ハードウェア機能の開発と密接に絡み合っている。本稿では,異なるハードウェアプラットフォーム上での効率的なLLM推論を包括的に調査する。
論文参考訳（メタデータ） (2024-10-06T12:42:04Z)
Inference Optimization of Foundation Models on AI Accelerators [68.24450520773688]
トランスフォーマーアーキテクチャを備えた大規模言語モデル(LLM)を含む強力な基礎モデルは、ジェネレーティブAIの新たな時代を支えている。モデルパラメータの数が数十億に達すると、実際のシナリオにおける推論コストと高いレイテンシーが排除される。このチュートリアルでは、AIアクセラレータを用いた補完推論最適化テクニックに関する包括的な議論を行っている。
論文参考訳（メタデータ） (2024-07-12T09:24:34Z)
From Words to Watts: Benchmarking the Energy Costs of Large Language Model Inference [19.439683873290623]
大規模言語モデル(LLM)は、新しい生成能力によって、最先端の最先端をはるかに超えているため、人気が高まっている。これらのモデルには計算上の課題、特に推論に必要な計算とエネルギーのコストが伴う。
論文参考訳（メタデータ） (2023-10-04T17:41:59Z)
Benchmarking and In-depth Performance Study of Large Language Models on Habana Gaudi Processors [5.432613942292548]
トランスフォーマーモデルは、様々な機械学習タスクにおいて顕著な成功を収めてきたが、高い計算複雑性とリソース要求に悩まされている。 Habana GAUDIアーキテクチャのような専門的なAIハードウェアアクセラレータは、これらの問題に対処するための有望なソリューションを提供する。本稿では,GAUDIプロセッサを用いてTransformerベースのモデルを高速化する未解決の可能性について検討し,そのプロセスにおける重要な課題に対処する。
論文参考訳（メタデータ） (2023-09-29T04:49:35Z)
A survey on efficient vision transformers: algorithms, techniques, and performance benchmarking [19.65897437342896]
Vision Transformer (ViT) アーキテクチャは、コンピュータビジョンアプリケーションに取り組むために人気が高まり、広く使われている。本稿では,ビジョントランスフォーマーを効率的にするための戦略を数学的に定義し,最先端の方法論を記述・議論し,その性能を異なるアプリケーションシナリオで解析する。
論文参考訳（メタデータ） (2023-09-05T08:21:16Z)
Cheaply Evaluating Inference Efficiency Metrics for Autoregressive Transformer APIs [66.30706841821123]
大規模言語モデル(LLM)は、自然言語処理において多くの最先端システムに電力を供給する。 LLMは、推論時でさえ非常に計算コストが高い。モデル間での推論効率を比較するための新しい指標を提案する。
論文参考訳（メタデータ） (2023-05-03T21:51:42Z)
Energy-efficient Task Adaptation for NLP Edge Inference Leveraging Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文参考訳（メタデータ） (2023-03-25T14:40:59Z)
Transformer-based Context Condensation for Boosting Feature Pyramids in Object Detection [77.50110439560152]
現在の物体検出器は、通常マルチレベル特徴融合(MFF)のための特徴ピラミッド(FP)モジュールを持つ。我々は,既存のFPがより優れたMFF結果を提供するのに役立つ,新しい,効率的なコンテキストモデリング機構を提案する。特に,包括的文脈を2種類の表現に分解・凝縮して高効率化を図っている。
論文参考訳（メタデータ） (2022-07-14T01:45:03Z)
HULK: An Energy Efficiency Benchmark Platform for Responsible Natural Language Processing [76.38975568873765]
本稿では,自然言語処理のためのマルチタスクエネルギー効率ベンチマークプラットフォームであるHULKを紹介する。我々は、事前訓練されたモデルのエネルギー効率を時間とコストの観点から比較する。
論文参考訳（メタデータ） (2020-02-14T01:04:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。