論文の概要: A Hardware Evaluation Framework for Large Language Model Inference
- arxiv url: http://arxiv.org/abs/2312.03134v1
- Date: Tue, 5 Dec 2023 21:01:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 16:54:59.994935
- Title: A Hardware Evaluation Framework for Large Language Model Inference
- Title(参考訳): 大規模言語モデル推論のためのハードウェア評価フレームワーク
- Authors: Hengrui Zhang, August Ning, Rohan Prabhakar, David Wentzlaff
- Abstract要約: この研究は、LLM(Large Language Models)のハードウェア評価フレームワークを紹介します。
LLMは高速で正確で汎用的で、様々なハードウェアの設計を記述し評価することができる。
LLMの助けを借りて、この研究はアーキテクチャ上の意味を描き、新しいコスト効率のハードウェア設計を探求する。
- 参考スコア(独自算出の注目度): 9.073225245382854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The past year has witnessed the increasing popularity of Large Language
Models (LLMs). Their unprecedented scale and associated high hardware cost have
impeded their broader adoption, calling for efficient hardware designs. With
the large hardware needed to simply run LLM inference, evaluating different
hardware designs becomes a new bottleneck.
This work introduces LLMCompass, a hardware evaluation framework for LLM
inference workloads. LLMCompass is fast, accurate, versatile, and able to
describe and evaluate different hardware designs. LLMCompass includes a mapper
to automatically find performance-optimal mapping and scheduling. It also
incorporates an area-based cost model to help architects reason about their
design choices. Compared to real-world hardware, LLMCompass' estimated latency
achieves an average 10.4% error rate across various operators with various
input sizes and an average 4.1% error rate for LLM inference. With LLMCompass,
simulating a 4-NVIDIA A100 GPU node running GPT-3 175B inference can be done
within 16 minutes on commodity hardware, including 26,400 rounds of the
mapper's parameter search.
With the aid of LLMCompass, this work draws architectural implications and
explores new cost-effective hardware designs. By reducing the compute
capability or replacing High Bandwidth Memory (HBM) with traditional DRAM,
these new designs can achieve as much as 3.41x improvement in performance/cost
compared to an NVIDIA A100, making them promising choices for democratizing
LLMs.
LLMCompass is planned to be fully open-source.
- Abstract(参考訳): 過去1年間、大規模言語モデル(llm)の人気が高まっている。
彼らの前例のない規模と関連するハードウェアコストは、効率的なハードウェア設計を求める彼らの幅広い採用を妨げた。
LLM推論を実行するために大きなハードウェアを必要とするため、異なるハードウェア設計を評価することが新たなボトルネックとなる。
この研究は、LLM推論ワークロードのためのハードウェア評価フレームワークであるLLMCompassを紹介する。
LLMCompassは高速で正確で汎用的で、様々なハードウェアの設計を記述し評価することができる。
LLMCompassには、パフォーマンス最適化マッピングとスケジューリングを自動的に見つけるマッパーが含まれている。
エリアベースのコストモデルも組み込まれており、アーキテクトが設計の選択を判断するのに役立つ。
実世界のハードウェアと比較して、LLMCompassの推定レイテンシは、様々な入力サイズを持つ様々な演算子の平均10.4%のエラー率と、LLM推論の平均4.1%のエラー率を達成する。
LLMCompassでは、GPT-3 175B推論を実行している4-NVIDIA A100 GPUノードをシミュレートすることができる。
LLMCompassの助けを借りて、この研究はアーキテクチャ上の意味を描き、新しいコスト効率のハードウェア設計を探求した。
計算能力の低下や高帯域幅メモリ(hbm)を従来のdramに置き換えることで、これらの新設計はnvidia a100よりもパフォーマンス/コストが3.41倍向上し、llmの民主化に有望な選択肢となる。
LLMCompassは完全にオープンソースになる予定である。
関連論文リスト
- LLM-Pilot: Characterize and Optimize Performance of your LLM Inference Services [0.5143325455623888]
LLM-Pilot は LLM 推論サービスの性能を評価・予測するための第一種システムである。
予測モデルを学び、これまで見つからなかったLCMのために最もコスト効率の良いハードウェアを推奨することができる。
既存の方法と比較して、LLM-Pilotはパフォーマンス要件を33%頻繁に提供し、コストを平均60%削減できる。
論文 参考訳(メタデータ) (2024-10-03T12:19:06Z) - MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。
バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。
MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文 参考訳(メタデータ) (2024-08-21T16:10:41Z) - Scalable MatMul-free Language Modeling [8.672867887354977]
MatMul操作は大規模言語モデルから完全に除去可能であることを示す。
提案するMatMulフリーモデルは,最先端のトランスフォーマーと同等の性能を実現する。
論文 参考訳(メタデータ) (2024-06-04T17:50:34Z) - The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits [129.6765656933016]
我々は1ビットのLarge Language Models (LLMs) 、すなわちBitNet b1.58を導入する。
1.58ビット LLM は、新しい世代の LLM を訓練するための新しいスケーリング法則とレシピを定義している。
これは新しいパラダイムを可能にし、1ビットLLM向けに最適化された特定のハードウェアを設計するための扉を開く。
論文 参考訳(メタデータ) (2024-02-27T18:56:19Z) - Tiny Titans: Can Smaller Large Language Models Punch Above Their Weight in the Real World for Meeting Summarization? [7.674972936853123]
大規模言語モデル(LLM)は、タスク固有のデータセットを明示的に微調整することなく、幅広いタスクを解決できる印象的な機能を示している。
本研究では,LLM の小型化が,LLM の現実的利用に伴う大きなコストに対処するために,比較的大型の LLMs2 の代替となるかを検討する。
論文 参考訳(メタデータ) (2024-02-01T18:31:34Z) - Efficient LLM inference solution on Intel GPU [19.154403468201924]
トランスフォーマーベースの大規模言語モデル(LLM)は多くの分野で広く使われている。
低レイテンシかつ高スループットで効率的なLLM推論ソリューションを提案する。
標準的なHuggingFaceの実装と比較して、提案されたソリューションは最大で7倍のトークンレイテンシと27倍のスループットを実現している。
論文 参考訳(メタデータ) (2023-12-19T05:40:43Z) - Distributed Inference and Fine-tuning of Large Language Models Over The
Internet [91.00270820533272]
大規模言語モデル(LLM)は、多くのNLPタスクで有用であり、サイズが向上する。
これらのモデルはハイエンドのハードウェアを必要とするため、ほとんどの研究者にはアクセスできない。
本研究では,システムスループットの最大化のためにデバイスを自動的に割り当てるフォールトトレラント推論アルゴリズムとロードバランシングプロトコルを開発する。
論文 参考訳(メタデータ) (2023-12-13T18:52:49Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - Full Parameter Fine-tuning for Large Language Models with Limited Resources [55.794732214059806]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、トレーニングには大量のGPUリソースを必要としている。
我々は,メモリ使用量を削減するために,勾配とパラメータの更新を1ステップで融合する新しい計算,LOMO(LOw-Memory Optimization)を提案する。
論文 参考訳(メタデータ) (2023-06-16T11:37:15Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。