論文の概要: LLM-Inference-Bench: Inference Benchmarking of Large Language Models on AI Accelerators
- arxiv url: http://arxiv.org/abs/2411.00136v1
- Date: Thu, 31 Oct 2024 18:34:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:47:36.220786
- Title: LLM-Inference-Bench: Inference Benchmarking of Large Language Models on AI Accelerators
- Title(参考訳): LLM-Inference-Bench:AIアクセラレータ上の大規模言語モデルの推論ベンチマーク
- Authors: Krishna Teja Chitty-Venkata, Siddhisanket Raskar, Bharat Kale, Farah Ferdaus, Aditya Tanikanti, Ken Raffenetti, Valerie Taylor, Murali Emani, Venkatram Vishwanath,
- Abstract要約: LLM(Large Language Models)は、複数のドメインにまたがる画期的な進歩を推進し、テキスト生成アプリケーションに一般的に使われている。
LLMのハードウェア推論性能を評価するための総合ベンチマークスイートであるLLM-Inference-Benchを紹介する。
ベンチマークの結果、さまざまなモデル、ハードウェアプラットフォーム、推論フレームワークの長所と短所が明らかになりました。
- 参考スコア(独自算出の注目度): 1.1028525384019312
- License:
- Abstract: Large Language Models (LLMs) have propelled groundbreaking advancements across several domains and are commonly used for text generation applications. However, the computational demands of these complex models pose significant challenges, requiring efficient hardware acceleration. Benchmarking the performance of LLMs across diverse hardware platforms is crucial to understanding their scalability and throughput characteristics. We introduce LLM-Inference-Bench, a comprehensive benchmarking suite to evaluate the hardware inference performance of LLMs. We thoroughly analyze diverse hardware platforms, including GPUs from Nvidia and AMD and specialized AI accelerators, Intel Habana and SambaNova. Our evaluation includes several LLM inference frameworks and models from LLaMA, Mistral, and Qwen families with 7B and 70B parameters. Our benchmarking results reveal the strengths and limitations of various models, hardware platforms, and inference frameworks. We provide an interactive dashboard to help identify configurations for optimal performance for a given hardware platform.
- Abstract(参考訳): LLM(Large Language Models)は、複数のドメインにまたがる画期的な進歩を推進し、テキスト生成アプリケーションに一般的に使われている。
しかし、これらの複雑なモデルの計算要求は、効率的なハードウェアアクセラレーションを必要とする、重大な問題を引き起こす。
LLMのパフォーマンスを様々なハードウェアプラットフォームでベンチマークすることは、スケーラビリティとスループットの特性を理解する上で非常に重要です。
LLMのハードウェア推論性能を評価するための総合ベンチマークスイートであるLLM-Inference-Benchを紹介する。
NvidiaやAMDのGPUや、Intel HabanaやSambaNovaといった専門的なAIアクセラレータなど、さまざまなハードウェアプラットフォームを徹底的に分析しています。
評価にはLLaMA,Mistral,Qwenといった7Bおよび70BパラメータのLLM推論フレームワークとモデルが含まれる。
ベンチマークの結果、さまざまなモデル、ハードウェアプラットフォーム、推論フレームワークの長所と短所が明らかになりました。
ハードウェアプラットフォームの最適なパフォーマンスのための構成を特定するためのインタラクティブなダッシュボードを提供する。
関連論文リスト
- Large Language Model Inference Acceleration: A Comprehensive Hardware Perspective [32.827076621809965]
大規模言語モデル(LLM)は、自然言語理解からテキスト生成に至るまで、様々な分野において顕著な能力を示している。
生成LDMの進歩は、ハードウェア機能の開発と密接に絡み合っている。
本稿では,異なるハードウェアプラットフォーム上での効率的なLLM推論を包括的に調査する。
論文 参考訳(メタデータ) (2024-10-06T12:42:04Z) - ULLME: A Unified Framework for Large Language Model Embeddings with Generation-Augmented Learning [72.90823351726374]
我々は,LLM間の双方向の注目を可能にする,柔軟でプラグアンドプレイな実装であるLULME(Unified framework for Large Language Model Embedding)を紹介した。
また,テキスト埋め込みタスクのLLMを向上する新しい微調整手法であるGRL(Generation-augmented Representation Learning)を提案する。
フレームワークの柔軟性と有効性を示すために、異なるバックボーンアーキテクチャを持つULLMEから事前訓練された3つのモデルをリリースする。
論文 参考訳(メタデータ) (2024-08-06T18:53:54Z) - MobileAIBench: Benchmarking LLMs and LMMs for On-Device Use Cases [81.70591346986582]
モバイル端末上でのLarge Language Models(LLM)とLarge Multimodal Models(LMM)を評価するためのベンチマークフレームワークであるMobileAIBenchを紹介する。
MobileAIBenchは、さまざまなサイズ、量子化レベル、タスクにわたるモデルを評価し、実際のデバイス上でのレイテンシとリソース消費を測定する。
論文 参考訳(メタデータ) (2024-06-12T22:58:12Z) - Demystifying Platform Requirements for Diverse LLM Inference Use Cases [7.233203254714951]
本稿では,大規模言語モデル推論性能とプラットフォーム設計パラメータの関係を明らかにするための分析ツールGenZを提案する。
LLaMA や GPT-4 のような SOTA LLM モデルをサポートするためのプラットフォーム要件を,多様なサービス設定下で定量化する。
結局のところ、この研究は、幅広いアプリケーションにまたがる大きな言語モデルの潜在能力を最大限に活用するためのプラットフォーム設計の考察に光を当てている。
論文 参考訳(メタデータ) (2024-06-03T18:00:50Z) - PPTC-R benchmark: Towards Evaluating the Robustness of Large Language
Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。
我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。
GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文 参考訳(メタデータ) (2024-03-06T15:33:32Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - Video Understanding with Large Language Models: A Survey [97.29126722004949]
言語・マルチモーダルタスクにおける大規模言語モデル(LLM)の顕著な機能を考えると,近年の映像理解の進歩について概観する。
Vid-LLMの創発的能力は驚くほど進歩しており、特にオープンな多粒性推論能力がある。
本調査は,Vid-LLMのタスク,データセット,ベンチマーク,評価方法論に関する総合的研究である。
論文 参考訳(メタデータ) (2023-12-29T01:56:17Z) - A Performance Evaluation of a Quantized Large Language Model on Various
Smartphones [0.0]
本稿では,Apple iPhoneの様々なモデルに対するデバイス上での大規模言語モデル (LLM) 推論の実現可能性と性能について検討する。
資源制限装置上でのマルチビリオンパラメータLDMの動作に関する既存文献を活用し, 高性能LCMの熱的効果と相互作用速度について検討した。
実世界のパフォーマンス結果を提示し、デバイス上での推論機能に関する洞察を提供する。
論文 参考訳(メタデータ) (2023-12-19T10:19:39Z) - Dissecting the Runtime Performance of the Training, Fine-tuning, and
Inference of Large Language Models [26.2566707495948]
大規模言語モデル(LLM)は、学術と産業の両方で大きく進歩している。
我々は,事前学習,微調整,LLMを異なるサイズで提供する場合のエンドツーエンド性能をベンチマークする。
次に,LLMにおける計算処理や通信演算子など,サブモジュールの詳細なランタイム解析を行う。
論文 参考訳(メタデータ) (2023-11-07T03:25:56Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - QIGen: Generating Efficient Kernels for Quantized Inference on Large
Language Models [22.055655390093722]
本稿では,LLaMA や OPT などの LLM 上の量子化生成推論をオフザシェルフ CPU 上で支援するための自動コード生成手法を提案する。
LLaMA モデルに対する CPU ベースの推論の結果から,我々のアプローチは,優れたオープンソースソリューションと比較して,高い性能と高い精度をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2023-07-07T17:46:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。