Fugu-MT 論文翻訳(概要): Performance Analysis of Deep Learning Workloads on a Composable System

論文の概要: Performance Analysis of Deep Learning Workloads on a Composable System

arxiv url: http://arxiv.org/abs/2103.10911v1
Date: Fri, 19 Mar 2021 17:15:42 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-22 14:26:33.402594
Title: Performance Analysis of Deep Learning Workloads on a Composable System
Title（参考訳）: 構成可能なシステムにおける深層学習ワークロードの性能解析
Authors: Kauotar El Maghraoui and Lorraine M. Herger and Chekuri Choudary and Kim Tran and Todd Deshane and David Hanson
Abstract要約: 構成可能なインフラストラクチャは、計算、ストレージ、アクセラレータ、ネットワークなどのリソースとして定義され、プール内で共有される。本稿では、IBM Research AI Hardware Centerのパートナーが実装し、利用可能にしたエンタープライズ構成可能なインフラストラクチャの設計について説明します。
参考スコア（独自算出の注目度）: 0.08388591755871731
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: A composable infrastructure is defined as resources, such as compute, storage, accelerators and networking, that are shared in a pool and that can be grouped in various configurations to meet application requirements. This freedom to 'mix and match' resources dynamically allows for experimentation early in the design cycle, prior to the final architectural design or hardware implementation of a system. This design provides flexibility to serve a variety of workloads and provides a dynamic co-design platform that allows experiments and measurements in a controlled manner. For instance, key performance bottlenecks can be revealed early on in the experimentation phase thus avoiding costly and time consuming mistakes. Additionally, various system-level topologies can be evaluated when experimenting with new System on Chip (SoCs) and new accelerator types. This paper details the design of an enterprise composable infrastructure that we have implemented and made available to our partners in the IBM Research AI Hardware Center (AIHC). Our experimental evaluations on the composable system give insights into how the system works and evaluates the impact of various resource aggregations and reconfigurations on representative deep learning benchmarks.
Abstract（参考訳）: 構成可能なインフラストラクチャは、計算、ストレージ、アクセラレータ、ネットワークなどのリソースとして定義され、プール内で共有され、アプリケーション要件を満たすためにさまざまな構成でグループ化される。このリソースを「ミックス・アンド・マッチ」する自由は、システムの最終設計やハードウェア実装に先立って、設計サイクルの初期段階で動的に実験することができる。この設計は、さまざまなワークロードに柔軟性を提供し、実験や測定を制御可能な動的共同設計プラットフォームを提供する。例えば、重要なパフォーマンスボトルネックは実験段階で早期に明らかになるため、コストと時間のかかる間違いを避けることができる。さらに、新しいシステムオンチップ(SoC)と新しいアクセラレータータイプを実験する際に、様々なシステムレベルのトポロジーを評価することができる。本稿では,IBM Research AI Hardware Center(AIHC)のパートナが実装した,エンタープライズ構成可能なインフラストラクチャの設計について詳述する。構成可能なシステムに対する実験的な評価は、システムがどのように機能するかを洞察し、様々なリソース集約と再構成が代表的ディープラーニングベンチマークに与える影響を評価する。

関連論文リスト

Understanding Multi-Agent LLM Frameworks: A Unified Benchmark and Experimental Analysis [2.903627214446312]
本稿では,マルチエージェント LLM フレームワークを基本次元に沿って体系的に比較するためのアーキテクチャ分類法を提案する。我々は,既存のベンチマークを標準化された実行パイプラインの下で統合する統合評価スイートを開発した。以上の結果から,フレームワークレベルの設計選択だけでレイテンシが100倍以上向上し,計画精度が最大30%向上し,調整成功率が90%以上から30%以下に低下する可能性が示唆された。
論文参考訳（メタデータ） (2026-02-03T05:37:56Z)
H-Model: Dynamic Neural Architectures for Adaptive Processing [0.0]
本稿では、入力データに基づいて内部構造を動的に調整できるニューラルネットワークアーキテクチャの設計と実験について述べる。提案モデルでは,各層がネットワークを介して出力がどのように伝搬されるかに影響を与えるルーティング機構を導入している。
論文参考訳（メタデータ） (2025-11-11T14:39:42Z)
Lessons from a Big-Bang Integration: Challenges in Edge Computing and Machine Learning [52.86213078016168]
プロジェクトはビッグバン統合のアプローチのため、重大な挫折に直面した。この研究は、コミュニケーションの貧弱さを含む技術的および組織的障壁を特定する。また、モックアップよりも完全に発達したコンポーネントに対するバイアスのような心理的要因も考慮している。
論文参考訳（メタデータ） (2025-07-23T07:16:45Z)
AXLearn: Modular Large Model Training on Heterogeneous Infrastructure [64.33868455931301]
AXLearnは大規模ディープラーニングモデルのスケーラブルで高性能なトレーニングを容易にする生産用ディープラーニングシステムである。他の最先端のディープラーニングシステムと比較して、AXLearnはモジュール性と異種ハードウェアインフラストラクチャのサポートにユニークな重点を置いている。
論文参考訳（メタデータ） (2025-07-07T18:50:58Z)
Learning Compatible Multi-Prize Subnetworks for Asymmetric Retrieval [62.904384887568284]
非対称検索は現実世界の検索システムにおいて典型的なシナリオである。我々は、開発者が任意のキャパシティで互換性のあるワークを生成できる自己互換性のあるPrunable Networkを提案する。
論文参考訳（メタデータ） (2025-04-16T08:59:47Z)
A quantitative framework for evaluating architectural patterns in ML systems [49.1574468325115]
本研究では,MLシステムにおけるアーキテクチャパターンの定量的評価のための枠組みを提案する。コスト効率のよいCPUベースの推論のためのスケーラビリティとパフォーマンスメトリクスに注目します。
論文参考訳（メタデータ） (2025-01-20T15:30:09Z)
From Computation to Consumption: Exploring the Compute-Energy Link for Training and Testing Neural Networks for SED Systems [9.658615045493734]
本稿では,音事象検出システムの主要なコンポーネントであるニューラルネットワークアーキテクチャについて検討する。我々は,小規模から大規模アーキテクチャの訓練および試験におけるエネルギー消費量を測定した。我々は,エネルギー消費,浮動小数点演算数,パラメータ数,GPU/メモリ利用率の複雑な関係を確立する。
論文参考訳（メタデータ） (2024-09-08T12:51:34Z)
Full-stack evaluation of Machine Learning inference workloads for RISC-V systems [0.2621434923709917]
本研究は,オープンソースのアーキテクチャシミュレータであるgem5を用いて,RISC-Vアーキテクチャ上での機械学習ワークロードの性能を評価する。 MLIR(Multi-Level Intermediate Representation)に基づいたオープンソースのコンパイルツールチェーンを活用することで、ディープラーニング推論ワークロードに特化したベンチマーク結果が提示される。
論文参考訳（メタデータ） (2024-05-24T09:24:46Z)
PEFSL: A deployment Pipeline for Embedded Few-Shot Learning on a FPGA SoC [0.0]
FPGAシステム上でのオブジェクト分類のための数ショット学習プラットフォームのためのエンドツーエンドのオープンソースパイプラインを開発した。データフローアーキテクチャを用いて,MiniImageNetデータセットでトレーニングした低消費電力で低レイテンシなデモレータを構築し,デプロイする。提案システムは、PYNQ-Z1基板上で6.2Wを消費しながら、30ミリ秒のレイテンシを持つ。
論文参考訳（メタデータ） (2024-04-30T08:33:52Z)
Multilayer Environment and Toolchain for Holistic NetwOrk Design and Analysis [2.7763199324745966]
本研究は分散システム評価の要件を詳細に分析する。我々のアプローチは、より広い範囲の分散システムのセットアップと評価に重点を置いています。さまざまなユースケースにまたがって価値ある洞察を提供するためのフレームワークの機能を示します。
論文参考訳（メタデータ） (2023-10-24T21:18:25Z)
Reconfigurable Distributed FPGA Cluster Design for Deep Learning Accelerators [59.11160990637615]
エッジコンピューティングアプリケーション用に設計された低消費電力組み込みFPGAに基づく分散システムを提案する。提案システムは,様々なニューラルネットワーク(NN)モデルを同時に実行し,パイプライン構造にグラフを配置し,NNグラフの最も計算集約的な層により大きなリソースを手動で割り当てる。
論文参考訳（メタデータ） (2023-05-24T16:08:55Z)
Distributed intelligence on the Edge-to-Cloud Continuum: A systematic literature review [62.997667081978825]
このレビューは、現在利用可能な機械学習とデータ分析のための最先端ライブラリとフレームワークに関する包括的なビジョンを提供することを目的としている。現在利用可能なEdge-to-Cloud Continuumに関する実験的な研究のための、主要なシミュレーション、エミュレーション、デプロイメントシステム、テストベッドも調査されている。
論文参考訳（メタデータ） (2022-04-29T08:06:05Z)
An Extensible Benchmark Suite for Learning to Simulate Physical Systems [60.249111272844374]
我々は、統一されたベンチマークと評価プロトコルへの一歩を踏み出すために、一連のベンチマーク問題を導入する。本稿では,4つの物理系と,広く使用されている古典的時間ベースおよび代表的なデータ駆動手法のコレクションを提案する。
論文参考訳（メタデータ） (2021-08-09T17:39:09Z)
Elastic Architecture Search for Diverse Tasks with Different Resources [87.23061200971912]
本研究では,異なるリソースを持つ多様なタスクを効率的に配置する上で,クラス群に対応するリソース制約や関心のタスクをテスト時に動的に指定する,新たな課題について検討する。従来のNASアプローチでは、全てのクラスのアーキテクチャを同時に設計することを模索しており、これはいくつかの個別のタスクに最適ではないかもしれない。本稿では、様々なリソース制約のある多様なタスクに対して、実行時に即時特殊化を可能にする、Elastic Architecture Search (EAS)と呼ばれる斬新で一般的なフレームワークを提案する。
論文参考訳（メタデータ） (2021-08-03T00:54:27Z)
Integrated Benchmarking and Design for Reproducible and Accessible Evaluation of Robotic Agents [61.36681529571202]
本稿では,開発とベンチマークを統合した再現性ロボット研究の新しい概念について述べる。このセットアップの中心的なコンポーネントの1つはDuckietown Autolabであり、これは比較的低コストで再現可能な標準化されたセットアップである。本研究では,インフラを用いて実施した実験の再現性を解析し,ロボットのハードウェアや遠隔実験室間でのばらつきが低いことを示す。
論文参考訳（メタデータ） (2020-09-09T15:31:29Z)
How to Train Your Super-Net: An Analysis of Training Heuristics in Weight-Sharing NAS [64.50415611717057]
我々は,スーパーネットトレーニングにおける一般的なベースラインが,スーパーネットとスタンドアローンのパフォーマンスの相関に負の影響を及ぼすことを示した。私たちのコードと実験は、将来の作業が構築できる、強く再現可能なベースラインを設定しました。
論文参考訳（メタデータ） (2020-03-09T17:34:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。