論文の概要: Performance and Power: Systematic Evaluation of AI Workloads on Accelerators with CARAML
- arxiv url: http://arxiv.org/abs/2409.12994v2
- Date: Tue, 29 Oct 2024 09:07:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 12:25:44.101421
- Title: Performance and Power: Systematic Evaluation of AI Workloads on Accelerators with CARAML
- Title(参考訳): 性能とパワー: CARAMLを用いた加速器上でのAIワークロードのシステム評価
- Authors: Chelsea Maria John, Stepan Nassyr, Carolin Penke, Andreas Herten,
- Abstract要約: CARAMLベンチマークスイートは、大規模言語モデルとコンピュータビジョンモデルのトレーニング中のパフォーマンスとエネルギー消費を評価するために使用される。
CarAMLは、MLワークロードのパフォーマンスとエネルギを評価するための、コンパクトで、自動化され、再現可能なフレームワークを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The rapid advancement of machine learning (ML) technologies has driven the development of specialized hardware accelerators designed to facilitate more efficient model training. This paper introduces the CARAML benchmark suite, which is employed to assess performance and energy consumption during the training of transformer-based large language models and computer vision models on a range of hardware accelerators, including systems from NVIDIA, AMD, and Graphcore. CARAML provides a compact, automated, extensible, and reproducible framework for assessing the performance and energy of ML workloads across various novel hardware architectures. The design and implementation of CARAML, along with a custom power measurement tool called jpwr, are discussed in detail.
- Abstract(参考訳): 機械学習(ML)技術の急速な進歩により、より効率的なモデルトレーニングを容易にするように設計された特別なハードウェアアクセラレータの開発が進められた。
本稿では,NVIDIA,AMD,Graphcoreなどのハードウェアアクセラレータ上で,トランスフォーマーベースの大規模言語モデルとコンピュータビジョンモデルのトレーニング中に,パフォーマンスとエネルギー消費を評価するためのベンチマークスイートCARAMLを紹介する。
CARAMLは、さまざまな新しいハードウェアアーキテクチャにわたるMLワークロードのパフォーマンスとエネルギを評価するための、コンパクトで、自動化され、拡張可能で、再現可能なフレームワークを提供する。
CARAMLの設計と実装、およびjpwrと呼ばれるカスタムパワー測定ツールについて詳述する。
関連論文リスト
- Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance [78.48606021719206]
Mini-InternVL は 1B から 4B までのパラメータを持つ一連の MLLM であり、パラメータの 5% しか持たない性能の90% を達成している。
我々は,ダウンストリームタスクにおける特化モデルの転送と性能向上を可能にする,Mini-InternVLの統一適応フレームワークを開発した。
論文 参考訳(メタデータ) (2024-10-21T17:58:20Z) - Inference Optimization of Foundation Models on AI Accelerators [68.24450520773688]
トランスフォーマーアーキテクチャを備えた大規模言語モデル(LLM)を含む強力な基礎モデルは、ジェネレーティブAIの新たな時代を支えている。
モデルパラメータの数が数十億に達すると、実際のシナリオにおける推論コストと高いレイテンシーが排除される。
このチュートリアルでは、AIアクセラレータを用いた補完推論最適化テクニックに関する包括的な議論を行っている。
論文 参考訳(メタデータ) (2024-07-12T09:24:34Z) - MobileAIBench: Benchmarking LLMs and LMMs for On-Device Use Cases [81.70591346986582]
モバイル端末上でのLarge Language Models(LLM)とLarge Multimodal Models(LMM)を評価するためのベンチマークフレームワークであるMobileAIBenchを紹介する。
MobileAIBenchは、さまざまなサイズ、量子化レベル、タスクにわたるモデルを評価し、実際のデバイス上でのレイテンシとリソース消費を測定する。
論文 参考訳(メタデータ) (2024-06-12T22:58:12Z) - Using the Abstract Computer Architecture Description Language to Model
AI Hardware Accelerators [77.89070422157178]
AI統合製品の製造者は、製品のパフォーマンス要件に適合するアクセラレータを選択するという、重大な課題に直面します。
抽象コンピュータアーキテクチャ記述言語(ACADL)は、コンピュータアーキテクチャブロック図の簡潔な形式化である。
本稿では,AIハードウェアアクセラレーションのモデル化にACADLを用いること,DNNのマッピングにACADL記述を使用し,タイミングシミュレーションのセマンティクスを解説し,性能評価結果の収集を行う。
論文 参考訳(メタデータ) (2024-01-30T19:27:16Z) - A Survey on Hardware Accelerators for Large Language Models [0.0]
大規模言語モデル(LLM)は自然言語処理タスクの強力なツールとして登場した。
スケールと複雑さに関連する計算上の課題に対処する必要がある。
論文 参考訳(メタデータ) (2024-01-18T11:05:03Z) - DEAP: Design Space Exploration for DNN Accelerator Parallelism [0.0]
大規模言語モデル(LLM)はますます複雑で、訓練やサービスにも強力になっています。
本稿では、ハードウェアとソフトウェアの共同設計がどのように連携し、カスタマイズされたハードウェアシステムを構築するかを示す。
論文 参考訳(メタデータ) (2023-12-24T02:43:01Z) - Evaluating Emerging AI/ML Accelerators: IPU, RDU, and NVIDIA/AMD GPUs [14.397623940689487]
Graphcore Intelligence Processing Unit (IPU)、Sambanova Reconfigurable Dataflow Unit (RDU)、拡張GPUプラットフォームについてレビューする。
この研究は、これらの商用AI/MLアクセラレータの予備評価と比較を提供する。
論文 参考訳(メタデータ) (2023-11-08T01:06:25Z) - SATAY: A Streaming Architecture Toolflow for Accelerating YOLO Models on
FPGA Devices [48.47320494918925]
この作業は、超低レイテンシアプリケーションのために、最先端のオブジェクト検出モデルをFPGAデバイスにデプロイする際の課題に対処する。
YOLOアクセラレータにはストリーミングアーキテクチャ設計を採用しており、チップ上で完全なモデルを深くパイプライン化して実装しています。
データフロー方式でYOLOモデルの動作をサポートする新しいハードウェアコンポーネントを導入し、オンチップメモリリソースの制限に対処するために、オフチップメモリバッファリングを導入する。
論文 参考訳(メタデータ) (2023-09-04T13:15:01Z) - Machine Learning Accelerators in 2.5D Chiplet Platforms with Silicon
Photonics [5.190207094732673]
GoogleのTPUやAppleのNeural Engineといったドメイン固有機械学習(ML)アクセラレータが、エネルギー効率の高いML処理のためにCPUとGPUを支配している。
我々は、光計算と通信を2.5Dチップレットプラットフォームに統合し、持続可能なスケーラブルなMLハードウェアアクセラレーターの全く新しいクラスを駆動するビジョンを提示する。
論文 参考訳(メタデータ) (2023-01-28T17:06:53Z) - SeLoC-ML: Semantic Low-Code Engineering for Machine Learning
Applications in Industrial IoT [9.477629856092218]
本稿では,Semantic Low-Code Engineering for ML Applications (SeLoC-ML) というフレームワークを提案する。
SeLoC-MLは、非専門家が大規模なMLモデルやデバイスをモデル化し、発見し、再利用することを可能にする。
開発者は、レシピと呼ばれるセマンティックなアプリケーションテンプレートから、エンドユーザアプリケーションのプロトタイプを高速に作成できる。
論文 参考訳(メタデータ) (2022-07-18T13:06:21Z) - Technology Readiness Levels for Machine Learning Systems [107.56979560568232]
機械学習システムの開発とデプロイは、現代のツールで簡単に実行できますが、プロセスは一般的に急ぎ、エンドツーエンドです。
私たちは、機械学習の開発と展開のための実証済みのシステムエンジニアリングアプローチを開発しました。
当社の「機械学習技術準備レベル」フレームワークは、堅牢で信頼性が高く、責任あるシステムを確保するための原則的なプロセスを定義します。
論文 参考訳(メタデータ) (2021-01-11T15:54:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。