論文の概要: HW-GPT-Bench: Hardware-Aware Architecture Benchmark for Language Models
- arxiv url: http://arxiv.org/abs/2405.10299v1
- Date: Thu, 16 May 2024 17:53:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-17 13:23:28.333069
- Title: HW-GPT-Bench: Hardware-Aware Architecture Benchmark for Language Models
- Title(参考訳): HW-GPT-Bench: 言語モデルのためのハードウェア対応アーキテクチャベンチマーク
- Authors: Rhea Sanjay Sukthanker, Arber Zela, Benedikt Staffler, Jorg K. H. Franke, Frank Hutter,
- Abstract要約: HW-GPT-Benchはハードウェア対応言語モデルシュロゲートベンチマークである。
我々は、ニューラルネットワークサーチ(NAS)のウェイトシェアリング技術を活用して、スーパーネットプロキシを効率的にトレーニングする。
5つのハードウェアメトリクスと3つの異なるモデルスケールを考慮して、これらのモデルを13デバイスにわたってプロファイリングします。
- 参考スコア(独自算出の注目度): 42.10143769702169
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The expanding size of language models has created the necessity for a comprehensive examination across various dimensions that reflect the desiderata with respect to the tradeoffs between various hardware metrics, such as latency, energy consumption, GPU memory usage, and performance. There is a growing interest in establishing Pareto frontiers for different language model configurations to identify optimal models with specified hardware constraints. Notably, architectures that excel in latency on one device may not perform optimally on another. However, exhaustive training and evaluation of numerous architectures across diverse hardware configurations is computationally prohibitive. To this end, we propose HW-GPT-Bench, a hardware-aware language model surrogate benchmark, where we leverage weight-sharing techniques from Neural Architecture Search (NAS) to efficiently train a supernet proxy, encompassing language models of varying scales in a single model. We conduct profiling of these models across 13 devices, considering 5 hardware metrics and 3 distinct model scales. Finally, we showcase the usability of HW-GPT-Bench using 8 different multi-objective NAS algorithms and evaluate the quality of the resultant Pareto fronts. Through this benchmark, our objective is to propel and expedite research in the advancement of multi-objective methods for NAS and structural pruning in large language models.
- Abstract(参考訳): 言語モデルの拡大するサイズは、レイテンシ、エネルギー消費、GPUメモリ使用量、パフォーマンスなど、さまざまなハードウェアメトリクス間のトレードオフに関して、Desiderataを反映したさまざまな次元にわたる包括的な検査の必要性を生み出している。
特定のハードウェア制約のある最適なモデルを特定するために、異なる言語モデル構成のためのParetoフロンティアを確立することへの関心が高まっている。
特に、あるデバイスでレイテンシに優れたアーキテクチャは、別のデバイスで最適に動作しない可能性がある。
しかし、様々なハードウェア構成にわたる多数のアーキテクチャの徹底的なトレーニングと評価は、計算的に禁止されている。
この目的のために,ハードウェア対応言語モデルサロゲートベンチマークであるHW-GPT-Benchを提案する。このベンチマークでは,ニューラルネットワークサーチ(NAS)のウェイトシェアリング技術を利用して,異なるスケールの言語モデルを1つのモデルに含む,スーパーネットプロキシを効率的にトレーニングする。
5つのハードウェアメトリクスと3つの異なるモデルスケールを考慮して、これらのモデルを13デバイスにわたってプロファイリングします。
最後に、8つの異なる多目的NASアルゴリズムを用いてHW-GPT-Benchのユーザビリティを示し、その結果のParetoフロントの品質を評価する。
本研究の目的は,NASのための多目的手法の進歩と大規模言語モデルにおける構造的プルーニングの研究を促進・促進することである。
関連論文リスト
- Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Quasar-ViT: Hardware-Oriented Quantization-Aware Architecture Search for Vision Transformers [56.37495946212932]
視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、コンピュータビジョンタスクにおいて優れた精度を示す。
ハードウェア指向の量子化対応アーキテクチャ検索フレームワークであるQuasar-ViTを提案する。
論文 参考訳(メタデータ) (2024-07-25T16:35:46Z) - CHOSEN: Compilation to Hardware Optimization Stack for Efficient Vision Transformer Inference [4.523939613157408]
ビジョントランスフォーマー(ViT)は、コンピュータビジョンへの機械学習アプローチにおける画期的なシフトである。
本稿では,これらの課題に対処するソフトウェアハードウェアの共同設計フレームワークであるCHOSENを紹介し,FPGA上にViTをデプロイするための自動フレームワークを提供する。
ChoSENはDeiT-SとDeiT-Bモデルのスループットを1.5倍と1.42倍改善した。
論文 参考訳(メタデータ) (2024-07-17T16:56:06Z) - Model Quantization and Hardware Acceleration for Vision Transformers: A Comprehensive Survey [6.04807281619171]
ビジョントランスフォーマー(ViT)は近年、いくつかの視覚関連アプリケーションにおいて、畳み込みニューラルネットワーク(CNN)に代わる有望な選択肢として、かなりの注目を集めている。
本稿では,ViTs量子化とそのハードウェアアクセラレーションに関する包括的調査を行う。
論文 参考訳(メタデータ) (2024-05-01T04:32:07Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - MAPLE-X: Latency Prediction with Explicit Microprocessor Prior Knowledge [87.41163540910854]
ディープニューラルネットワーク(DNN)レイテンシのキャラクタリゼーションは、時間を要するプロセスである。
ハードウェアデバイスの事前知識とDNNアーキテクチャのレイテンシを具体化し,MAPLEを拡張したMAPLE-Xを提案する。
論文 参考訳(メタデータ) (2022-05-25T11:08:20Z) - Multi-Component Optimization and Efficient Deployment of Neural-Networks
on Resource-Constrained IoT Hardware [4.6095200019189475]
本稿では,エンドツーエンドのマルチコンポーネントモデル最適化シーケンスを提案し,その実装をオープンソース化する。
最適化コンポーネントは, (i) 12.06 x の圧縮, (ii) 0.13% から 0.27% の精度, (iii) 単位推定の桁数が 0.06 ms のモデルを生成することができる。
論文 参考訳(メタデータ) (2022-04-20T13:30:04Z) - MAPLE: Microprocessor A Priori for Latency Estimation [81.91509153539566]
現代のディープニューラルネットワークは、低レイテンシとエネルギー消費を示しながら最先端の精度を示す必要がある。
評価されたアーキテクチャのレイテンシの測定は、NASプロセスにかなりの時間を加えます。
転送学習やドメイン適応に依存しない推定用マイクロプロセッサAプライオリティを提案する。
論文 参考訳(メタデータ) (2021-11-30T03:52:15Z) - Generalized Latency Performance Estimation for Once-For-All Neural
Architecture Search [0.0]
特定のハードウェアとNAS検索空間で訓練されたベースモデルを用いた微調整を含む2つの汎用性戦略を紹介します。
ProxylessNASに比べて50%以上低いRMSE損失を達成できる待ち時間予測モデル群を提供する。
論文 参考訳(メタデータ) (2021-01-04T00:48:09Z) - Hardware-Centric AutoML for Mixed-Precision Quantization [34.39845532939529]
従来の量子化アルゴリズムは、異なるハードウェアアーキテクチャを無視し、すべてのレイヤを均一に量子化する。
本稿では、強化学習を利用して量子化ポリシーを自動的に決定するハードウェア・アウェア自動量子化(HAQ)フレームワークを紹介する。
本フレームワークは, 固定ビット幅(8ビット)の量子化と比較して, 遅延を1.4-1.95x, エネルギー消費を1.9x削減した。
論文 参考訳(メタデータ) (2020-08-11T17:30:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。