論文の概要: HW-GPT-Bench: Hardware-Aware Architecture Benchmark for Language Models
- arxiv url: http://arxiv.org/abs/2405.10299v2
- Date: Fri, 21 Jun 2024 11:21:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-06-24 19:16:56.835618
- Title: HW-GPT-Bench: Hardware-Aware Architecture Benchmark for Language Models
- Title(参考訳): HW-GPT-Bench: 言語モデルのためのハードウェア対応アーキテクチャベンチマーク
- Authors: Rhea Sanjay Sukthanker, Arber Zela, Benedikt Staffler, Aaron Klein, Lennart Purucker, Joerg K. H. Franke, Frank Hutter,
- Abstract要約: HW-GPT-Benchはハードウェア対応のベンチマークで、GPT-2ファミリ内の13のアーキテクチャデバイスにわたる様々なハードウェアメトリクスを近似する。
本稿では,HW-GPT-Benchの多目的最適化アルゴリズムの最適化軌道を数秒でシミュレーションすることで,HW-GPT-Benchの有用性を実証する。
- 参考スコア(独自算出の注目度): 39.76971266063881
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increasing size of language models necessitates a thorough analysis across multiple dimensions to assess trade-offs among crucial hardware metrics such as latency, energy consumption, GPU memory usage, and performance. Identifying optimal model configurations under specific hardware constraints is becoming essential but remains challenging due to the computational load of exhaustive training and evaluation on multiple devices. To address this, we introduce HW-GPT-Bench, a hardware-aware benchmark that utilizes surrogate predictions to approximate various hardware metrics across 13 devices of architectures in the GPT-2 family, with architectures containing up to 774M parameters. Our surrogates, via calibrated predictions and reliable uncertainty estimates, faithfully model the heteroscedastic noise inherent in the energy and latency measurements. To estimate perplexity, we employ weight-sharing techniques from Neural Architecture Search (NAS), inheriting pretrained weights from the largest GPT-2 model. Finally, we demonstrate the utility of HW-GPT-Bench by simulating optimization trajectories of various multi-objective optimization algorithms in just a few seconds.
- Abstract(参考訳): 言語モデルの増大は、レイテンシ、エネルギー消費、GPUメモリ使用量、パフォーマンスといった重要なハードウェアメトリクス間のトレードオフを評価するために、複数の次元にわたる徹底的な分析を必要とする。
特定のハードウェア制約下での最適モデル構成の同定は不可欠だが, 徹底的なトレーニングの計算負荷と複数のデバイスに対する評価が原因で, 依然として困難である。
そこで本研究では,GPT-2ファミリーの13種類のアーキテクチャにおいて,サロゲート予測を用いて,最大7億7400万のパラメータを含む各種ハードウェアメトリクスを近似するハードウェア対応ベンチマークであるHW-GPT-Benchを紹介する。
我々のサロゲートは、キャリブレーションされた予測と確実な不確実性推定を通じて、エネルギーと遅延測定に固有のヘテロセダスティックノイズを忠実にモデル化する。
パープレキシティを推定するために、ニューラルアーキテクチャサーチ(NAS)のウェイトシェアリング技術を使用し、最大のGPT-2モデルから事前訓練したウェイトを継承する。
最後に,HW-GPT-Benchの多目的最適化アルゴリズムの最適化軌道を数秒でシミュレーションすることで,HW-GPT-Benchの有用性を実証する。
関連論文リスト
- RooflineBench: A Benchmarking Framework for On-Device LLMs via Roofline Analysis [53.90240071275054]
SLM(Small Language Models)によるローカライズドインテリジェンスへの移行により、リソース制約のあるエッジハードウェア上での厳密なパフォーマンス評価の必要性が高まっている。
運用強度レンズ(OI)によるアーキテクチャプリミティブとハードウェア制約を統一する体系的フレームワークを提案する。
推論-ポテンシャル領域を定義することにより、同一ハードウェア基板上のLarge Language Models(LLM)の効率差を比較するための新しい指標として、相対推論ポテンシャルを導入する。
論文 参考訳(メタデータ) (2026-02-12T03:02:22Z) - Hardware Co-Design Scaling Laws via Roofline Modelling for On-Device LLMs [49.99513618431772]
本稿では,モデル精度と推論性能を捉えるハードウェア共同設計法を提案する。
我々はNVIDIA Jetson Orin上で1,942の候補アーキテクチャを実証的に評価した。
我々のアーキテクチャはWikiText-2で19.42%低いパープレキシティを実現している。
論文 参考訳(メタデータ) (2026-02-10T23:51:00Z) - NoiseFormer -- Noise Diffused Symmetric Attention Transformer [0.0]
本稿では,モデルの性能を向上させるため,ノイズ拡散対称アテンション変換器という新しい統一モデルアーキテクチャを提案する。
提案モデルはGPT2ベースモデルに基づいて検証され,その結果は平滑なSymmetric attentionとGPT2ベースモデルの間の性能向上を反映する。
論文 参考訳(メタデータ) (2026-01-10T14:10:48Z) - Cross-Platform Scaling of Vision-Language-Action Models from Edge to Cloud GPUs [24.657525276719365]
VLA(Vision-Language-Action)モデルは、ロボット制御のための強力なジェネラリストポリシーとして登場した。
本研究は,5つの代表的なVLAモデルの評価を行う。
レイテンシ、スループット、ピークメモリ使用量など、システムレベルのメトリクスとともに精度を測定します。
論文 参考訳(メタデータ) (2025-09-15T00:00:37Z) - ESM: A Framework for Building Effective Surrogate Models for Hardware-Aware Neural Architecture Search [4.9276746621153285]
ハードウェア対応ニューラルアーキテクチャサーチ(NAS)は、リソース制約のあるデバイスに効率的なディープニューラルネットワーク(DNN)を設計するための最も有望なテクニックの1つである。
我々は、異なる種類の代理モデルを研究し、その強みと弱みを強調します。
本稿では,モデル生成パイプラインの異なる段階の全体的なコストを考慮した,信頼性の高いデータセット生成と効率的なモデル生成を実現するための総合的なフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-02T22:06:39Z) - Scaling Intelligence: Designing Data Centers for Next-Gen Language Models [0.6168147650666682]
GPT-4のような1.8兆のパラメータを持つ大規模言語モデル(LLM)は、データセンターアーキテクチャの根本的な再考を要求する。
我々の研究は、FLOPS、帯域幅と容量、複数のネットワークトポロジを共同で探求する包括的な協調設計フレームワークを提供する。
我々は、重なり合う計算と通信の利点を定量化し、ハードウェアアクセラレーションされた集合体を活用し、スケールアウト領域を広げ、メモリ容量を増大させる。
論文 参考訳(メタデータ) (2025-06-17T22:29:37Z) - AI Accelerators for Large Language Model In-ference: Architecture Analysis and Scaling Strategies [10.520360508397237]
大規模言語モデル(LLM)は推論のための特別なハードウェアの新しい波を駆動している。
本稿では,商用AIアクセラレータのワークロード中心,クロスアーキテクチャ性能に関する最初の研究について述べる。
論文 参考訳(メタデータ) (2025-05-13T20:21:20Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Quasar-ViT: Hardware-Oriented Quantization-Aware Architecture Search for Vision Transformers [56.37495946212932]
視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、コンピュータビジョンタスクにおいて優れた精度を示す。
ハードウェア指向の量子化対応アーキテクチャ検索フレームワークであるQuasar-ViTを提案する。
論文 参考訳(メタデータ) (2024-07-25T16:35:46Z) - CHOSEN: Compilation to Hardware Optimization Stack for Efficient Vision Transformer Inference [4.523939613157408]
ビジョントランスフォーマー(ViT)は、コンピュータビジョンへの機械学習アプローチにおける画期的なシフトである。
本稿では,これらの課題に対処するソフトウェアハードウェアの共同設計フレームワークであるCHOSENを紹介し,FPGA上にViTをデプロイするための自動フレームワークを提供する。
ChoSENはDeiT-SとDeiT-Bモデルのスループットを1.5倍と1.42倍改善した。
論文 参考訳(メタデータ) (2024-07-17T16:56:06Z) - Model Quantization and Hardware Acceleration for Vision Transformers: A Comprehensive Survey [6.04807281619171]
ビジョントランスフォーマー(ViT)は近年、いくつかの視覚関連アプリケーションにおいて、畳み込みニューラルネットワーク(CNN)に代わる有望な選択肢として、かなりの注目を集めている。
本稿では,ViTs量子化とそのハードウェアアクセラレーションに関する包括的調査を行う。
論文 参考訳(メタデータ) (2024-05-01T04:32:07Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - MAPLE-X: Latency Prediction with Explicit Microprocessor Prior Knowledge [87.41163540910854]
ディープニューラルネットワーク(DNN)レイテンシのキャラクタリゼーションは、時間を要するプロセスである。
ハードウェアデバイスの事前知識とDNNアーキテクチャのレイテンシを具体化し,MAPLEを拡張したMAPLE-Xを提案する。
論文 参考訳(メタデータ) (2022-05-25T11:08:20Z) - Multi-Component Optimization and Efficient Deployment of Neural-Networks
on Resource-Constrained IoT Hardware [4.6095200019189475]
本稿では,エンドツーエンドのマルチコンポーネントモデル最適化シーケンスを提案し,その実装をオープンソース化する。
最適化コンポーネントは, (i) 12.06 x の圧縮, (ii) 0.13% から 0.27% の精度, (iii) 単位推定の桁数が 0.06 ms のモデルを生成することができる。
論文 参考訳(メタデータ) (2022-04-20T13:30:04Z) - MAPLE: Microprocessor A Priori for Latency Estimation [81.91509153539566]
現代のディープニューラルネットワークは、低レイテンシとエネルギー消費を示しながら最先端の精度を示す必要がある。
評価されたアーキテクチャのレイテンシの測定は、NASプロセスにかなりの時間を加えます。
転送学習やドメイン適応に依存しない推定用マイクロプロセッサAプライオリティを提案する。
論文 参考訳(メタデータ) (2021-11-30T03:52:15Z) - Generalized Latency Performance Estimation for Once-For-All Neural
Architecture Search [0.0]
特定のハードウェアとNAS検索空間で訓練されたベースモデルを用いた微調整を含む2つの汎用性戦略を紹介します。
ProxylessNASに比べて50%以上低いRMSE損失を達成できる待ち時間予測モデル群を提供する。
論文 参考訳(メタデータ) (2021-01-04T00:48:09Z) - Hardware-Centric AutoML for Mixed-Precision Quantization [34.39845532939529]
従来の量子化アルゴリズムは、異なるハードウェアアーキテクチャを無視し、すべてのレイヤを均一に量子化する。
本稿では、強化学習を利用して量子化ポリシーを自動的に決定するハードウェア・アウェア自動量子化(HAQ)フレームワークを紹介する。
本フレームワークは, 固定ビット幅(8ビット)の量子化と比較して, 遅延を1.4-1.95x, エネルギー消費を1.9x削減した。
論文 参考訳(メタデータ) (2020-08-11T17:30:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。