論文の概要: Performance Analysis of Deep Learning Workloads on a Composable System
- arxiv url: http://arxiv.org/abs/2103.10911v1
- Date: Fri, 19 Mar 2021 17:15:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-22 14:26:33.402594
- Title: Performance Analysis of Deep Learning Workloads on a Composable System
- Title(参考訳): 構成可能なシステムにおける深層学習ワークロードの性能解析
- Authors: Kauotar El Maghraoui and Lorraine M. Herger and Chekuri Choudary and
Kim Tran and Todd Deshane and David Hanson
- Abstract要約: 構成可能なインフラストラクチャは、計算、ストレージ、アクセラレータ、ネットワークなどのリソースとして定義され、プール内で共有される。
本稿では、IBM Research AI Hardware Centerのパートナーが実装し、利用可能にしたエンタープライズ構成可能なインフラストラクチャの設計について説明します。
- 参考スコア(独自算出の注目度): 0.08388591755871731
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: A composable infrastructure is defined as resources, such as compute,
storage, accelerators and networking, that are shared in a pool and that can be
grouped in various configurations to meet application requirements. This
freedom to 'mix and match' resources dynamically allows for experimentation
early in the design cycle, prior to the final architectural design or hardware
implementation of a system. This design provides flexibility to serve a variety
of workloads and provides a dynamic co-design platform that allows experiments
and measurements in a controlled manner. For instance, key performance
bottlenecks can be revealed early on in the experimentation phase thus avoiding
costly and time consuming mistakes. Additionally, various system-level
topologies can be evaluated when experimenting with new System on Chip (SoCs)
and new accelerator types. This paper details the design of an enterprise
composable infrastructure that we have implemented and made available to our
partners in the IBM Research AI Hardware Center (AIHC). Our experimental
evaluations on the composable system give insights into how the system works
and evaluates the impact of various resource aggregations and reconfigurations
on representative deep learning benchmarks.
- Abstract(参考訳): 構成可能なインフラストラクチャは、計算、ストレージ、アクセラレータ、ネットワークなどのリソースとして定義され、プール内で共有され、アプリケーション要件を満たすためにさまざまな構成でグループ化される。
このリソースを「ミックス・アンド・マッチ」する自由は、システムの最終設計やハードウェア実装に先立って、設計サイクルの初期段階で動的に実験することができる。
この設計は、さまざまなワークロードに柔軟性を提供し、実験や測定を制御可能な動的共同設計プラットフォームを提供する。
例えば、重要なパフォーマンスボトルネックは実験段階で早期に明らかになるため、コストと時間のかかる間違いを避けることができる。
さらに、新しいシステムオンチップ(SoC)と新しいアクセラレータータイプを実験する際に、様々なシステムレベルのトポロジーを評価することができる。
本稿では,IBM Research AI Hardware Center(AIHC)のパートナが実装した,エンタープライズ構成可能なインフラストラクチャの設計について詳述する。
構成可能なシステムに対する実験的な評価は、システムがどのように機能するかを洞察し、様々なリソース集約と再構成が代表的ディープラーニングベンチマークに与える影響を評価する。
関連論文リスト
- A quantitative framework for evaluating architectural patterns in ML systems [49.1574468325115]
本研究では,MLシステムにおけるアーキテクチャパターンの定量的評価のための枠組みを提案する。
コスト効率のよいCPUベースの推論のためのスケーラビリティとパフォーマンスメトリクスに注目します。
論文 参考訳(メタデータ) (2025-01-20T15:30:09Z) - From Computation to Consumption: Exploring the Compute-Energy Link for Training and Testing Neural Networks for SED Systems [9.658615045493734]
本稿では,音事象検出システムの主要なコンポーネントであるニューラルネットワークアーキテクチャについて検討する。
我々は,小規模から大規模アーキテクチャの訓練および試験におけるエネルギー消費量を測定した。
我々は,エネルギー消費,浮動小数点演算数,パラメータ数,GPU/メモリ利用率の複雑な関係を確立する。
論文 参考訳(メタデータ) (2024-09-08T12:51:34Z) - Full-stack evaluation of Machine Learning inference workloads for RISC-V systems [0.2621434923709917]
本研究は,オープンソースのアーキテクチャシミュレータであるgem5を用いて,RISC-Vアーキテクチャ上での機械学習ワークロードの性能を評価する。
MLIR(Multi-Level Intermediate Representation)に基づいたオープンソースのコンパイルツールチェーンを活用することで、ディープラーニング推論ワークロードに特化したベンチマーク結果が提示される。
論文 参考訳(メタデータ) (2024-05-24T09:24:46Z) - PEFSL: A deployment Pipeline for Embedded Few-Shot Learning on a FPGA SoC [0.0]
FPGAシステム上でのオブジェクト分類のための数ショット学習プラットフォームのためのエンドツーエンドのオープンソースパイプラインを開発した。
データフローアーキテクチャを用いて,MiniImageNetデータセットでトレーニングした低消費電力で低レイテンシなデモレータを構築し,デプロイする。
提案システムは、PYNQ-Z1基板上で6.2Wを消費しながら、30ミリ秒のレイテンシを持つ。
論文 参考訳(メタデータ) (2024-04-30T08:33:52Z) - Multilayer Environment and Toolchain for Holistic NetwOrk Design and Analysis [2.7763199324745966]
本研究は分散システム評価の要件を詳細に分析する。
我々のアプローチは、より広い範囲の分散システムのセットアップと評価に重点を置いています。
さまざまなユースケースにまたがって価値ある洞察を提供するためのフレームワークの機能を示します。
論文 参考訳(メタデータ) (2023-10-24T21:18:25Z) - Reconfigurable Distributed FPGA Cluster Design for Deep Learning
Accelerators [59.11160990637615]
エッジコンピューティングアプリケーション用に設計された低消費電力組み込みFPGAに基づく分散システムを提案する。
提案システムは,様々なニューラルネットワーク(NN)モデルを同時に実行し,パイプライン構造にグラフを配置し,NNグラフの最も計算集約的な層により大きなリソースを手動で割り当てる。
論文 参考訳(メタデータ) (2023-05-24T16:08:55Z) - Distributed intelligence on the Edge-to-Cloud Continuum: A systematic
literature review [62.997667081978825]
このレビューは、現在利用可能な機械学習とデータ分析のための最先端ライブラリとフレームワークに関する包括的なビジョンを提供することを目的としている。
現在利用可能なEdge-to-Cloud Continuumに関する実験的な研究のための、主要なシミュレーション、エミュレーション、デプロイメントシステム、テストベッドも調査されている。
論文 参考訳(メタデータ) (2022-04-29T08:06:05Z) - An Extensible Benchmark Suite for Learning to Simulate Physical Systems [60.249111272844374]
我々は、統一されたベンチマークと評価プロトコルへの一歩を踏み出すために、一連のベンチマーク問題を導入する。
本稿では,4つの物理系と,広く使用されている古典的時間ベースおよび代表的なデータ駆動手法のコレクションを提案する。
論文 参考訳(メタデータ) (2021-08-09T17:39:09Z) - Elastic Architecture Search for Diverse Tasks with Different Resources [87.23061200971912]
本研究では,異なるリソースを持つ多様なタスクを効率的に配置する上で,クラス群に対応するリソース制約や関心のタスクをテスト時に動的に指定する,新たな課題について検討する。
従来のNASアプローチでは、全てのクラスのアーキテクチャを同時に設計することを模索しており、これはいくつかの個別のタスクに最適ではないかもしれない。
本稿では、様々なリソース制約のある多様なタスクに対して、実行時に即時特殊化を可能にする、Elastic Architecture Search (EAS)と呼ばれる斬新で一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-03T00:54:27Z) - Integrated Benchmarking and Design for Reproducible and Accessible
Evaluation of Robotic Agents [61.36681529571202]
本稿では,開発とベンチマークを統合した再現性ロボット研究の新しい概念について述べる。
このセットアップの中心的なコンポーネントの1つはDuckietown Autolabであり、これは比較的低コストで再現可能な標準化されたセットアップである。
本研究では,インフラを用いて実施した実験の再現性を解析し,ロボットのハードウェアや遠隔実験室間でのばらつきが低いことを示す。
論文 参考訳(メタデータ) (2020-09-09T15:31:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。