Fugu-MT 論文翻訳(概要): LLM-Inference-Bench: Inference Benchmarking of Large Language Models on AI Accelerators

論文の概要: LLM-Inference-Bench: Inference Benchmarking of Large Language Models on AI Accelerators

arxiv url: http://arxiv.org/abs/2411.00136v1
Date: Thu, 31 Oct 2024 18:34:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:43.060536
Title: LLM-Inference-Bench: Inference Benchmarking of Large Language Models on AI Accelerators
Title（参考訳）: LLM-Inference-Bench:AIアクセラレータ上の大規模言語モデルの推論ベンチマーク
Authors: Krishna Teja Chitty-Venkata, Siddhisanket Raskar, Bharat Kale, Farah Ferdaus, Aditya Tanikanti, Ken Raffenetti, Valerie Taylor, Murali Emani, Venkatram Vishwanath,
Abstract要約: LLM(Large Language Models)は、複数のドメインにまたがる画期的な進歩を推進し、テキスト生成アプリケーションに一般的に使われている。 LLMのハードウェア推論性能を評価するための総合ベンチマークスイートであるLLM-Inference-Benchを紹介する。ベンチマークの結果、さまざまなモデル、ハードウェアプラットフォーム、推論フレームワークの長所と短所が明らかになりました。
参考スコア（独自算出の注目度）: 1.1028525384019312
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have propelled groundbreaking advancements across several domains and are commonly used for text generation applications. However, the computational demands of these complex models pose significant challenges, requiring efficient hardware acceleration. Benchmarking the performance of LLMs across diverse hardware platforms is crucial to understanding their scalability and throughput characteristics. We introduce LLM-Inference-Bench, a comprehensive benchmarking suite to evaluate the hardware inference performance of LLMs. We thoroughly analyze diverse hardware platforms, including GPUs from Nvidia and AMD and specialized AI accelerators, Intel Habana and SambaNova. Our evaluation includes several LLM inference frameworks and models from LLaMA, Mistral, and Qwen families with 7B and 70B parameters. Our benchmarking results reveal the strengths and limitations of various models, hardware platforms, and inference frameworks. We provide an interactive dashboard to help identify configurations for optimal performance for a given hardware platform.
Abstract（参考訳）: LLM(Large Language Models)は、複数のドメインにまたがる画期的な進歩を推進し、テキスト生成アプリケーションに一般的に使われている。しかし、これらの複雑なモデルの計算要求は、効率的なハードウェアアクセラレーションを必要とする、重大な問題を引き起こす。 LLMのパフォーマンスを様々なハードウェアプラットフォームでベンチマークすることは、スケーラビリティとスループットの特性を理解する上で非常に重要です。 LLMのハードウェア推論性能を評価するための総合ベンチマークスイートであるLLM-Inference-Benchを紹介する。 NvidiaやAMDのGPUや、Intel HabanaやSambaNovaといった専門的なAIアクセラレータなど、さまざまなハードウェアプラットフォームを徹底的に分析しています。評価にはLLaMA,Mistral,Qwenといった7Bおよび70BパラメータのLLM推論フレームワークとモデルが含まれる。ベンチマークの結果、さまざまなモデル、ハードウェアプラットフォーム、推論フレームワークの長所と短所が明らかになりました。ハードウェアプラットフォームの最適なパフォーマンスのための構成を特定するためのインタラクティブなダッシュボードを提供する。

関連論文リスト

RooflineBench: A Benchmarking Framework for On-Device LLMs via Roofline Analysis [53.90240071275054]
SLM(Small Language Models)によるローカライズドインテリジェンスへの移行により、リソース制約のあるエッジハードウェア上での厳密なパフォーマンス評価の必要性が高まっている。運用強度レンズ(OI)によるアーキテクチャプリミティブとハードウェア制約を統一する体系的フレームワークを提案する。推論-ポテンシャル領域を定義することにより、同一ハードウェア基板上のLarge Language Models(LLM)の効率差を比較するための新しい指標として、相対推論ポテンシャルを導入する。
論文参考訳（メタデータ） (2026-02-12T03:02:22Z)
NaViL: Rethinking Scaling Properties of Native Multimodal Large Language Models under Data Constraints [100.02131897927484]
本稿では,Multimodal Large Language Models(MLLM)のエンドツーエンドなネイティブトレーニングに焦点を当てる。そこで我々は,NaViLと呼ばれるネイティブMLLMと,シンプルで費用対効果の高いレシピを組み合わせて提案する。 14のマルチモーダルベンチマークによる実験結果から,既存のMLLMに対するNaViLの競合性能が確認された。
論文参考訳（メタデータ） (2025-10-09T17:59:37Z)
Forecasting LLM Inference Performance via Hardware-Agnostic Analytical Modeling [0.02091806248191979]
本稿では,演算子のモジュラー解析モデルからなる軽量でモジュラーな解析フレームワークLIFEを紹介する。 LIFEは、量子化、KVキャッシュ圧縮、LoRAアダプタ、チャンクされたプリフィル、異なる注意、演算子融合など、ソフトウェアとモデル最適化の影響を特徴づけている。我々は,AMD CPU,NPU,iGPU,NVIDIA V100 GPUにおけるLIFEの予測をLlama2-7B変種を用いて検証した。
論文参考訳（メタデータ） (2025-07-29T03:08:31Z)
MultiKernelBench: A Multi-Platform Benchmark for Kernel Generation [17.461533973039064]
MultiKernelBenchは、大規模言語モデル(LLM)を用いたディープラーニングカーネル生成のためのベンチマークである。 14の明確に定義されたカーネルカテゴリにまたがる285のタスクにまたがっており、3つの主要なハードウェアプラットフォームをサポートしている。課題の難易度, トレーニング露出の少ないプラットフォームへの一般化の低さ, ターゲット型プロンプト戦略の有効性について検討した。
論文参考訳（メタデータ） (2025-07-20T00:58:33Z)
LLMPerf: GPU Performance Modeling meets Large Language Models [0.22499166814992436]
大規模言語モデル(LLM)は、多様なプログラミング課題に対処する上で、その効果を実証している。我々の研究は、LLMと性能モデリングの関連性を確立し、LLMを性能推定器として利用する。我々のモデルは、利用可能なOpenCLプログラムのセットに対して、平均絶対的なパーセンテージエラーを46.1%で達成する。
論文参考訳（メタデータ） (2025-03-14T09:52:30Z)
Fine-tuning LLaMA 2 interference: a comparative study of language implementations for optimal efficiency [0.0]
PyTorch、Python、Mojo、C++、Javaなど、さまざまなプログラミング言語やフレームワークを評価します。 Apple Silicon上での大規模言語モデル(LLM)推論用に設計された新しいフレームワークであるMojo SDKについて検討する。 Apple M1 Max上で実施した実験では,Mojo SDKの競合性能,使いやすさ,Pythonとのシームレスな互換性が実証された。
論文参考訳（メタデータ） (2025-01-30T19:36:33Z)
Large Language Model Inference Acceleration: A Comprehensive Hardware Perspective [32.827076621809965]
大規模言語モデル(LLM)は、自然言語理解からテキスト生成に至るまで、様々な分野において顕著な能力を示している。生成LDMの進歩は、ハードウェア機能の開発と密接に絡み合っている。本稿では,異なるハードウェアプラットフォーム上での効率的なLLM推論を包括的に調査する。
論文参考訳（メタデータ） (2024-10-06T12:42:04Z)
ULLME: A Unified Framework for Large Language Model Embeddings with Generation-Augmented Learning [72.90823351726374]
我々は,LLM間の双方向の注目を可能にする,柔軟でプラグアンドプレイな実装であるLULME(Unified framework for Large Language Model Embedding)を紹介した。また,テキスト埋め込みタスクのLLMを向上する新しい微調整手法であるGRL(Generation-augmented Representation Learning)を提案する。フレームワークの柔軟性と有効性を示すために、異なるバックボーンアーキテクチャを持つULLMEから事前訓練された3つのモデルをリリースする。
論文参考訳（メタデータ） (2024-08-06T18:53:54Z)
MobileAIBench: Benchmarking LLMs and LMMs for On-Device Use Cases [81.70591346986582]
モバイル端末上でのLarge Language Models(LLM)とLarge Multimodal Models(LMM)を評価するためのベンチマークフレームワークであるMobileAIBenchを紹介する。 MobileAIBenchは、さまざまなサイズ、量子化レベル、タスクにわたるモデルを評価し、実際のデバイス上でのレイテンシとリソース消費を測定する。
論文参考訳（メタデータ） (2024-06-12T22:58:12Z)
Demystifying Platform Requirements for Diverse LLM Inference Use Cases [7.233203254714951]
本稿では,大規模言語モデル推論性能とプラットフォーム設計パラメータの関係を明らかにするための分析ツールGenZを提案する。 LLaMA や GPT-4 のような SOTA LLM モデルをサポートするためのプラットフォーム要件を,多様なサービス設定下で定量化する。結局のところ、この研究は、幅広いアプリケーションにまたがる大きな言語モデルの潜在能力を最大限に活用するためのプラットフォーム設計の考察に光を当てている。
論文参考訳（メタデータ） (2024-06-03T18:00:50Z)
PPTC-R benchmark: Towards Evaluating the Robustness of Large Language Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。 GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文参考訳（メタデータ） (2024-03-06T15:33:32Z)
LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文参考訳（メタデータ） (2024-02-26T07:33:05Z)
Video Understanding with Large Language Models: A Survey [97.29126722004949]
言語・マルチモーダルタスクにおける大規模言語モデル(LLM)の顕著な機能を考えると,近年の映像理解の進歩について概観する。 Vid-LLMの創発的能力は驚くほど進歩しており、特にオープンな多粒性推論能力がある。本調査は,Vid-LLMのタスク,データセット,ベンチマーク,評価方法論に関する総合的研究である。
論文参考訳（メタデータ） (2023-12-29T01:56:17Z)
A Performance Evaluation of a Quantized Large Language Model on Various Smartphones [0.0]
本稿では,Apple iPhoneの様々なモデルに対するデバイス上での大規模言語モデル (LLM) 推論の実現可能性と性能について検討する。資源制限装置上でのマルチビリオンパラメータLDMの動作に関する既存文献を活用し, 高性能LCMの熱的効果と相互作用速度について検討した。実世界のパフォーマンス結果を提示し、デバイス上での推論機能に関する洞察を提供する。
論文参考訳（メタデータ） (2023-12-19T10:19:39Z)
Dissecting the Runtime Performance of the Training, Fine-tuning, and Inference of Large Language Models [26.2566707495948]
大規模言語モデル(LLM)は、学術と産業の両方で大きく進歩している。我々は,事前学習,微調整,LLMを異なるサイズで提供する場合のエンドツーエンド性能をベンチマークする。次に,LLMにおける計算処理や通信演算子など,サブモジュールの詳細なランタイム解析を行う。
論文参考訳（メタデータ） (2023-11-07T03:25:56Z)
Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。 MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文参考訳（メタデータ） (2023-09-13T04:06:47Z)
QIGen: Generating Efficient Kernels for Quantized Inference on Large Language Models [22.055655390093722]
本稿では,LLaMA や OPT などの LLM 上の量子化生成推論をオフザシェルフ CPU 上で支援するための自動コード生成手法を提案する。 LLaMA モデルに対する CPU ベースの推論の結果から,我々のアプローチは,優れたオープンソースソリューションと比較して,高い性能と高い精度をもたらす可能性が示唆された。
論文参考訳（メタデータ） (2023-07-07T17:46:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。