論文の概要: Strategies for Optimizing End-to-End Artificial Intelligence Pipelines
on Intel Xeon Processors
- arxiv url: http://arxiv.org/abs/2211.00286v1
- Date: Tue, 1 Nov 2022 05:45:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 12:41:34.099881
- Title: Strategies for Optimizing End-to-End Artificial Intelligence Pipelines
on Intel Xeon Processors
- Title(参考訳): Intel Xeonプロセッサ上でのエンドツーエンド人工知能パイプラインの最適化戦略
- Authors: Meena Arunachalam, Vrushabh Sanghavi, Yi A Yao, Yi A Zhou, Lifeng A
Wang, Zongru Wen, Niroop Ammbashankar, Ning W Wang, Fahim Mohammad
- Abstract要約: エンドツーエンド(E2E)の人工知能(AI)パイプラインは、データ前処理、データ取り込み、定義、トレーニング、デプロイメント、推論、後処理、続いて下流分析を含むいくつかのステージで構成されている。
8つの異なるE2Eパイプラインのセットで、Intel Xeonプロセッサでこのパフォーマンスを実現するために私たちが採用した最適化戦略を強調します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: End-to-end (E2E) artificial intelligence (AI) pipelines are composed of
several stages including data preprocessing, data ingestion, defining and
training the model, hyperparameter optimization, deployment, inference,
postprocessing, followed by downstream analyses. To obtain efficient E2E
workflow, it is required to optimize almost all the stages of pipeline. Intel
Xeon processors come with large memory capacities, bundled with AI acceleration
(e.g., Intel Deep Learning Boost), well suited to run multiple instances of
training and inference pipelines in parallel and has low total cost of
ownership (TCO). To showcase the performance on Xeon processors, we applied
comprehensive optimization strategies coupled with software and hardware
acceleration on variety of E2E pipelines in the areas of Computer Vision, NLP,
Recommendation systems, etc. We were able to achieve a performance improvement,
ranging from 1.8x to 81.7x across different E2E pipelines. In this paper, we
will be highlighting the optimization strategies adopted by us to achieve this
performance on Intel Xeon processors with a set of eight different E2E
pipelines.
- Abstract(参考訳): エンドツーエンド(E2E)の人工知能(AI)パイプラインは、データ前処理、データ取り込み、モデルの定義とトレーニング、ハイパーパラメータ最適化、デプロイメント、推論、後処理、続いて下流分析を含むいくつかのステージで構成されている。
効率的なE2Eワークフローを得るためには、パイプラインのほとんどすべてのステージを最適化する必要がある。
Intel Xeonプロセッサには、AIアクセラレーション(例えば、Intel Deep Learning Boost)がバンドルされた大きなメモリ容量があり、トレーニングと推論パイプラインの複数のインスタンスを並列に実行するのに適しており、総所有コスト(TCO)が低い。
Xeonプロセッサの性能を示すために,コンピュータビジョン,NLP,レコメンデーションシステムなど,さまざまなE2Eパイプライン上でのソフトウェアとハードウェアアクセラレーションを組み合わせた包括的な最適化戦略を適用した。
異なるE2Eパイプライン間で1.8xから81.7xまでのパフォーマンス改善を実現しました。
本稿では,Intel Xeonプロセッサ上で8種類のE2Eパイプラインを用いて,この性能を実現するための最適化戦略について紹介する。
関連論文リスト
- EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,新しいパイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法に比べて,プリフィルスループットが平均21%向上していることが判明した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Deep Learning Models on CPUs: A Methodology for Efficient Training [1.7150798380270715]
本稿では,CPUを用いた深層学習モデルの学習にいくつかの貢献をする。
これは、Intel CPU上でディープラーニングモデルのトレーニングを最適化する手法と、ProfileDNNと呼ばれるツールキットを提供する。
論文 参考訳(メタデータ) (2022-06-20T22:42:14Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - Where Is My Training Bottleneck? Hidden Trade-Offs in Deep Learning
Preprocessing Pipelines [77.45213180689952]
ディープラーニングにおける前処理パイプラインは、トレーニングプロセスを忙しくするための十分なデータスループットの提供を目的としている。
エンドツーエンドのディープラーニングパイプラインのためのデータセットを効率的に準備する新たな視点を導入する。
チューニングされていないシステムに比べてスループットが3倍から13倍に向上する。
論文 参考訳(メタデータ) (2022-02-17T14:31:58Z) - Automated Design Space Exploration for optimised Deployment of DNN on
Arm Cortex-A CPUs [13.628734116014819]
組み込みデバイスにおけるディープラーニングは、ディープニューラルネットワーク(DNN)のデプロイを最適化する多くの方法の開発を促している。
テストし、グローバルに最適化されたソリューションを得るには、アプローチの空間が大きすぎるため、クロスレベル最適化に関する研究が不足している。
我々は、Arm Cortex-A CPUプラットフォーム上での最先端DNNの一連の結果を示し、最大4倍の性能向上とメモリの2倍以上の削減を実現した。
論文 参考訳(メタデータ) (2020-06-09T11:00:06Z) - PolyScientist: Automatic Loop Transformations Combined with Microkernels
for Optimization of Deep Learning Primitives [55.79741270235602]
深層学習カーネル開発のためのハイブリッドソリューションを開発する。
我々は、高度な多面体技術を用いて、パフォーマンスのために外部ループを自動的に調整する。
論文 参考訳(メタデータ) (2020-02-06T08:02:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。