論文の概要: InferBench: Understanding Deep Learning Inference Serving with an
Automatic Benchmarking System
- arxiv url: http://arxiv.org/abs/2011.02327v3
- Date: Tue, 5 Jan 2021 05:08:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 23:07:06.908594
- Title: InferBench: Understanding Deep Learning Inference Serving with an
Automatic Benchmarking System
- Title(参考訳): inferbench: 自動ベンチマークシステムによるディープラーニング推論の理解
- Authors: Huaizheng Zhang, Yizheng Huang, Yonggang Wen, Jianxiong Yin and Kyle
Guan
- Abstract要約: ディープラーニング(DL)開発者のための,自動かつ包括的なベンチマークシステムを実装した。
我々のシステムは,DLクラスタ内のリーダサーバにデプロイされ,ユーザのベンチマークジョブをフォローワーワーカにディスパッチする。
開発者はシステム内のさまざまな分析ツールやモデルを活用して、さまざまなシステム構成のトレードオフに関する洞察を得ることができます。
- 参考スコア(独自算出の注目度): 15.473926972382241
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning (DL) models have become core modules for many applications.
However, deploying these models without careful performance benchmarking that
considers both hardware and software's impact often leads to poor service and
costly operational expenditure. To facilitate DL models' deployment, we
implement an automatic and comprehensive benchmark system for DL developers. To
accomplish benchmark-related tasks, the developers only need to prepare a
configuration file consisting of a few lines of code. Our system, deployed to a
leader server in DL clusters, will dispatch users' benchmark jobs to follower
workers. Next, the corresponding requests, workload, and even models can be
generated automatically by the system to conduct DL serving benchmarks.
Finally, developers can leverage many analysis tools and models in our system
to gain insights into the trade-offs of different system configurations. In
addition, a two-tier scheduler is incorporated to avoid unnecessary
interference and improve average job compilation time by up to 1.43x
(equivalent of 30\% reduction). Our system design follows the best practice in
DL clusters operations to expedite day-to-day DL service evaluation efforts by
the developers. We conduct many benchmark experiments to provide in-depth and
comprehensive evaluations. We believe these results are of great values as
guidelines for DL service configuration and resource allocation.
- Abstract(参考訳): ディープラーニング(dl)モデルは、多くのアプリケーションのコアモジュールになっています。
しかし、ハードウェアとソフトウェアの両方の影響を考慮に入れたパフォーマンスベンチマークなしでこれらのモデルをデプロイすると、サービス不足とコストのかかる運用費が発生することが多い。
DLモデルの展開を容易にするため,我々はDL開発者向けに,自動かつ包括的なベンチマークシステムを実装した。
ベンチマーク関連のタスクを実現するには、開発者は数行のコードからなる構成ファイルを用意するだけでよい。
我々のシステムは,DLクラスタ内のリーダサーバにデプロイされ,ユーザのベンチマークジョブをフォローワーワーカにディスパッチする。
次に、対応する要求、ワークロード、さらにはモデルもシステムが自動的に生成し、DLサービスベンチマークを実行する。
最後に、開発者はシステム内の多くの分析ツールやモデルを利用して、異なるシステム構成のトレードオフに関する洞察を得ることができる。
さらに、2層スケジューラが組み込まれ、不要な干渉を回避し、平均ジョブコンパイル時間を1.43倍に短縮する(30\%削減相当)。
システム設計は、開発者の日々のDLサービス評価作業を迅速化するために、DLクラスタ運用におけるベストプラクティスに従う。
詳細な評価を行うために,ベンチマーク実験を多数実施する。
これらの結果は、dlサービス設定とリソース割り当てのガイドラインとして、非常に価値があります。
関連論文リスト
- Characterization of Large Language Model Development in the Datacenter [57.49531095113406]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z) - QualEval: Qualitative Evaluation for Model Improvement [86.29905469151566]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Sparse-DySta: Sparsity-Aware Dynamic and Static Scheduling for Sparse
Multi-DNN Workloads [65.47816359465155]
複数のディープニューラルネットワーク(DNN)を並列に実行することは、両エッジデバイスで新たなワークロードとなっている。
スパースマルチDNNスケジューリングに静的なスケジューラパターンと動的スケジューラ情報の両方を利用する新しいスケジューラDystaを提案する。
提案手法は, 遅延制約違反率を最大10%削減し, 平均正規化ターンアラウンド時間で約4倍に向上する。
論文 参考訳(メタデータ) (2023-10-17T09:25:17Z) - Serving Deep Learning Model in Relational Databases [72.72372281808694]
リレーショナルデータ上での深層学習(DL)モデルの実現は、様々な商業分野や科学分野において重要な要件となっている。
最先端のDL-Centricアーキテクチャは、DL計算を専用のDLフレームワークにオフロードします。
UDF-Centricアーキテクチャは、データベースシステム内の1つ以上のテンソル計算をユーザ定義関数(UDF)にカプセル化する。
potentialRelation-Centricアーキテクチャは、演算子による大規模テンソル計算を表現することを目的としている。
論文 参考訳(メタデータ) (2023-10-07T06:01:35Z) - Saturn: An Optimized Data System for Large Model Deep Learning Workloads [6.377812618046872]
SPASEに取り組む: 並列性を選択し、リソースをアロケートし、スケジューリングする。
本研究では,SPASE問題に全体的に取り組むための新しい情報システムアーキテクチャを提案する。
また,MILPソルバの直接使用は,複数のベースラインよりも有意に有効であることがわかった。
論文 参考訳(メタデータ) (2023-09-03T17:19:11Z) - Towards Safe Automated Refactoring of Imperative Deep Learning Programs
to Graph Execution [4.786072763033669]
より自然な、エラーの少ない命令型DLフレームワークは、実行時のパフォーマンスを犠牲にして、熱心な実行を奨励しています。
我々は、開発者が命令型DLコードをグラフとして確実に効率的に実行できるかどうかを規定する自動化アプローチについて、現在進行中の作業について紹介する。
このアプローチはPyDev Eclipseプラグインとして実装されており、WALA Ariadne分析フレームワークを使用している。
論文 参考訳(メタデータ) (2023-08-22T20:50:19Z) - Efficient Device Scheduling with Multi-Job Federated Learning [64.21733164243781]
本稿では,複数のジョブの並列学習プロセスを実現するための,新しいマルチジョブフェデレーション学習フレームワークを提案する。
コストを最小化しつつ、複数のジョブに対してデバイスをスケジュールする強化学習法とベイズ最適化法を提案する。
提案手法は,トレーニング時間(最大8.67倍高速)と精度(最大44.6%高)において,ベースラインアプローチよりも有意に優れていた。
論文 参考訳(メタデータ) (2021-12-11T08:05:11Z) - LogLAB: Attention-Based Labeling of Log Data Anomalies via Weak
Supervision [63.08516384181491]
専門家の手作業を必要とせず,ログメッセージの自動ラベル付けのための新しいモデリング手法であるLogLABを提案する。
本手法は,監視システムが提供する推定故障時間ウィンドウを用いて,正確なラベル付きデータセットを振り返りに生成する。
我々の評価によると、LogLABは3つの異なるデータセットで9つのベンチマークアプローチを一貫して上回り、大規模な障害時ウィンドウでも0.98以上のF1スコアを維持している。
論文 参考訳(メタデータ) (2021-11-02T15:16:08Z) - High-performance, Distributed Training of Large-scale Deep Learning
Recommendation Models [18.63017668881868]
ディープラーニングレコメンデーションモデル(DLRM)は、Facebookの多くのビジネスクリティカルサービスで使用されている。
本稿では,大規模DLRMの高性能分散トレーニングのためのSW/HW共同設計ソリューションについて論じる。
我々は、最大12トリリオンパラメータで非常に大きなDLRMを訓練する能力を実証し、以前のシステムよりも解決策に時間の観点から40倍のスピードアップを達成できることを示しています。
論文 参考訳(メタデータ) (2021-04-12T02:15:55Z) - Bosch Deep Learning Hardware Benchmark [0.0]
科学や産業におけるディープラーニング(DL)の応用は、効率的な推論システムに対する大きな需要を生み出している。
これにより、ハードウェアアクセラレータ(HWA)が急速に増加し、比較が困難かつ困難になった。
本稿では、組込みHWAと自律運転に必要なタスクを推論するために特別に開発されたDLハードウェアベンチマークについて述べる。
論文 参考訳(メタデータ) (2020-08-24T09:50:24Z) - Effective Elastic Scaling of Deep Learning Workloads [3.345876096131764]
大規模学習プラットフォーム上でのDeep Learning(DL)ジョブの弾性スケーリングについて検討する。
本稿では,DLトレーニングジョブのための新たなリソース割り当て戦略を提案する。これにより,ジョブ実行時間の性能が向上し,クラスタ利用が向上する。
論文 参考訳(メタデータ) (2020-06-24T17:01:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。