論文の概要: InferBench: Understanding Deep Learning Inference Serving with an
Automatic Benchmarking System
- arxiv url: http://arxiv.org/abs/2011.02327v3
- Date: Tue, 5 Jan 2021 05:08:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 23:07:06.908594
- Title: InferBench: Understanding Deep Learning Inference Serving with an
Automatic Benchmarking System
- Title(参考訳): inferbench: 自動ベンチマークシステムによるディープラーニング推論の理解
- Authors: Huaizheng Zhang, Yizheng Huang, Yonggang Wen, Jianxiong Yin and Kyle
Guan
- Abstract要約: ディープラーニング(DL)開発者のための,自動かつ包括的なベンチマークシステムを実装した。
我々のシステムは,DLクラスタ内のリーダサーバにデプロイされ,ユーザのベンチマークジョブをフォローワーワーカにディスパッチする。
開発者はシステム内のさまざまな分析ツールやモデルを活用して、さまざまなシステム構成のトレードオフに関する洞察を得ることができます。
- 参考スコア(独自算出の注目度): 15.473926972382241
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning (DL) models have become core modules for many applications.
However, deploying these models without careful performance benchmarking that
considers both hardware and software's impact often leads to poor service and
costly operational expenditure. To facilitate DL models' deployment, we
implement an automatic and comprehensive benchmark system for DL developers. To
accomplish benchmark-related tasks, the developers only need to prepare a
configuration file consisting of a few lines of code. Our system, deployed to a
leader server in DL clusters, will dispatch users' benchmark jobs to follower
workers. Next, the corresponding requests, workload, and even models can be
generated automatically by the system to conduct DL serving benchmarks.
Finally, developers can leverage many analysis tools and models in our system
to gain insights into the trade-offs of different system configurations. In
addition, a two-tier scheduler is incorporated to avoid unnecessary
interference and improve average job compilation time by up to 1.43x
(equivalent of 30\% reduction). Our system design follows the best practice in
DL clusters operations to expedite day-to-day DL service evaluation efforts by
the developers. We conduct many benchmark experiments to provide in-depth and
comprehensive evaluations. We believe these results are of great values as
guidelines for DL service configuration and resource allocation.
- Abstract(参考訳): ディープラーニング(dl)モデルは、多くのアプリケーションのコアモジュールになっています。
しかし、ハードウェアとソフトウェアの両方の影響を考慮に入れたパフォーマンスベンチマークなしでこれらのモデルをデプロイすると、サービス不足とコストのかかる運用費が発生することが多い。
DLモデルの展開を容易にするため,我々はDL開発者向けに,自動かつ包括的なベンチマークシステムを実装した。
ベンチマーク関連のタスクを実現するには、開発者は数行のコードからなる構成ファイルを用意するだけでよい。
我々のシステムは,DLクラスタ内のリーダサーバにデプロイされ,ユーザのベンチマークジョブをフォローワーワーカにディスパッチする。
次に、対応する要求、ワークロード、さらにはモデルもシステムが自動的に生成し、DLサービスベンチマークを実行する。
最後に、開発者はシステム内の多くの分析ツールやモデルを利用して、異なるシステム構成のトレードオフに関する洞察を得ることができる。
さらに、2層スケジューラが組み込まれ、不要な干渉を回避し、平均ジョブコンパイル時間を1.43倍に短縮する(30\%削減相当)。
システム設計は、開発者の日々のDLサービス評価作業を迅速化するために、DLクラスタ運用におけるベストプラクティスに従う。
詳細な評価を行うために,ベンチマーク実験を多数実施する。
これらの結果は、dlサービス設定とリソース割り当てのガイドラインとして、非常に価値があります。
関連論文リスト
- Is the GPU Half-Empty or Half-Full? Practical Scheduling Techniques for LLMs [3.7758841366694353]
文献および実用サービスシステムからスケジューリング手法を調査する。
文献からのスケジューラは、しばしば優れたパフォーマンスを得るが、かなりの複雑さをもたらす。
対照的に、実際のデプロイメントにおけるスケジューラは、しばしばテーブルに簡単にパフォーマンス向上を残しますが、実装、デプロイ、設定が容易です。
論文 参考訳(メタデータ) (2024-10-23T13:05:46Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Align$^2$LLaVA: Cascaded Human and Large Language Model Preference Alignment for Multi-modal Instruction Curation [56.75665429851673]
本稿では,人間とLLMの選好アライメントという2つのユニークな視点から導いた,新しい命令キュレーションアルゴリズムを提案する。
実験により,合成マルチモーダル命令を最大90%圧縮することにより,モデル性能の維持や改善が可能であることが示された。
論文 参考訳(メタデータ) (2024-09-27T08:20:59Z) - RNR: Teaching Large Language Models to Follow Roles and Rules [153.6596303205894]
既存のIFT命令から多様な役割やルールを生成する自動データ生成パイプラインであるモデルを提案する。
このデータは、複雑なシステムプロンプトに従うモデルをトレーニングするために使用することができる。
我々のフレームワークは、大規模言語モデルにおける役割と規則に従う能力を大幅に改善します。
論文 参考訳(メタデータ) (2024-09-10T06:07:32Z) - AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models [95.09157454599605]
大規模言語モデル(LLM)はますます強力になってきていますが、それでも顕著ですが微妙な弱点があります。
従来のベンチマークアプローチでは、特定のモデルの欠陥を徹底的に特定することはできない。
さまざまなタスクにまたがるLLMの弱点を自動的に露呈する統合フレームワークであるAutoDetectを導入する。
論文 参考訳(メタデータ) (2024-06-24T15:16:45Z) - Serving Deep Learning Model in Relational Databases [70.53282490832189]
リレーショナルデータ上での深層学習(DL)モデルの実現は、様々な商業分野や科学分野において重要な要件となっている。
最先端のDL中心アーキテクチャは、DL計算を専用のDLフレームワークにオフロードします。
UDF中心アーキテクチャの可能性は、リレーショナルデータベース管理システム(RDBMS)内の1つ以上のテンソル計算をユーザ定義関数(UDF)にカプセル化する。
論文 参考訳(メタデータ) (2023-10-07T06:01:35Z) - Saturn: An Optimized Data System for Large Model Deep Learning Workloads [6.377812618046872]
SPASEに取り組む: 並列性を選択し、リソースをアロケートし、スケジューリングする。
本研究では,SPASE問題に全体的に取り組むための新しい情報システムアーキテクチャを提案する。
また,MILPソルバの直接使用は,複数のベースラインよりも有意に有効であることがわかった。
論文 参考訳(メタデータ) (2023-09-03T17:19:11Z) - Towards Safe Automated Refactoring of Imperative Deep Learning Programs
to Graph Execution [4.786072763033669]
より自然な、エラーの少ない命令型DLフレームワークは、実行時のパフォーマンスを犠牲にして、熱心な実行を奨励しています。
我々は、開発者が命令型DLコードをグラフとして確実に効率的に実行できるかどうかを規定する自動化アプローチについて、現在進行中の作業について紹介する。
このアプローチはPyDev Eclipseプラグインとして実装されており、WALA Ariadne分析フレームワークを使用している。
論文 参考訳(メタデータ) (2023-08-22T20:50:19Z) - Efficient Device Scheduling with Multi-Job Federated Learning [64.21733164243781]
本稿では,複数のジョブの並列学習プロセスを実現するための,新しいマルチジョブフェデレーション学習フレームワークを提案する。
コストを最小化しつつ、複数のジョブに対してデバイスをスケジュールする強化学習法とベイズ最適化法を提案する。
提案手法は,トレーニング時間(最大8.67倍高速)と精度(最大44.6%高)において,ベースラインアプローチよりも有意に優れていた。
論文 参考訳(メタデータ) (2021-12-11T08:05:11Z) - Bosch Deep Learning Hardware Benchmark [0.0]
科学や産業におけるディープラーニング(DL)の応用は、効率的な推論システムに対する大きな需要を生み出している。
これにより、ハードウェアアクセラレータ(HWA)が急速に増加し、比較が困難かつ困難になった。
本稿では、組込みHWAと自律運転に必要なタスクを推論するために特別に開発されたDLハードウェアベンチマークについて述べる。
論文 参考訳(メタデータ) (2020-08-24T09:50:24Z) - Effective Elastic Scaling of Deep Learning Workloads [3.345876096131764]
大規模学習プラットフォーム上でのDeep Learning(DL)ジョブの弾性スケーリングについて検討する。
本稿では,DLトレーニングジョブのための新たなリソース割り当て戦略を提案する。これにより,ジョブ実行時間の性能が向上し,クラスタ利用が向上する。
論文 参考訳(メタデータ) (2020-06-24T17:01:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。