論文の概要: Mystique: Accurate and Scalable Production AI Benchmarks Generation
- arxiv url: http://arxiv.org/abs/2301.04122v1
- Date: Fri, 16 Dec 2022 18:46:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-15 23:27:01.214870
- Title: Mystique: Accurate and Scalable Production AI Benchmarks Generation
- Title(参考訳): Mystique: 正確でスケーラブルなAIベンチマーク生成
- Authors: Mingyu Liang, Wenyin Fu, Louis Feng, Zhongyi Lin, Pavani Panakanti,
Srinivas Sridharan, Christina Delimitrou
- Abstract要約: Mystiqueは、プロダクションAIベンチマーク生成のための正確でスケーラブルなフレームワークである。
これは、オペレータの粒度でAIモデルの実行時情報をキャプチャする新機能であるPyTorch実行グラフ(EG)を活用する。
Mystiqueは、実行時のオーバーヘッドとユーザインスツルメンテーションの労力の観点から、軽量なデータ収集によってスケーラブルである。
我々は、本手法を複数の実運用AIワークロードで評価し、Mystiqueで生成されたベンチマークが元のAIモデルとよく似ていることを示す。
- 参考スコア(独自算出の注目度): 1.6484926458461044
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building and maintaining large AI fleets to efficiently support the
fast-growing DL workloads is an active research topic for modern cloud
infrastructure providers. Generating accurate benchmarks plays an essential
role in the design and evaluation of rapidly evoloving software and hardware
solutions in this area. Two fundamental challenges to make this process
scalable are (i) workload representativeness and (ii) the ability to quickly
incorporate changes to the fleet into the benchmarks.
To overcome these issues, we propose Mystique, an accurate and scalable
framework for production AI benchmark generation. It leverages the PyTorch
execution graph (EG), a new feature that captures the runtime information of AI
models at the granularity of operators, in a graph format, together with their
metadata. By sourcing EG traces from the fleet, we can build AI benchmarks that
are portable and representative. Mystique is scalable, with its lightweight
data collection, in terms of runtime overhead and user instrumentation efforts.
It is also adaptive, as the expressiveness and composability of EG format
allows flexible user control over benchmark creation.
We evaluate our methodology on several production AI workloads, and show that
benchmarks generated with Mystique closely resemble original AI models, both in
execution time and system-level metrics. We also showcase the portability of
the generated benchmarks across platforms, and demonstrate several use cases
enabled by the fine-grained composability of the execution graph.
- Abstract(参考訳): 急速に成長するDLワークロードを効率的にサポートするための大規模なAIフリートの構築とメンテナンスは、現代のクラウドインフラストラクチャプロバイダにとって活発な研究トピックである。
正確なベンチマークを生成することは、この分野で急速に発展するソフトウェアとハードウェアソリューションの設計と評価において重要な役割を果たす。
このプロセスをスケーラブルにする2つの基本的な課題
(i)ワークロードの代表性と
(ii)艦隊の変更をベンチマークに迅速に組み込む能力。
これらの問題を解決するために、我々は、AIベンチマーク生成の正確でスケーラブルなフレームワークであるMystiqueを提案する。
PyTorch実行グラフ(EG)は、演算子の粒度でAIモデルの実行時情報を、メタデータとともにグラフ形式でキャプチャする新機能である。
このフリートからEGトレースをソーシングすることで、ポータブルで代表的なAIベンチマークを構築することができます。
Mystiqueは、実行時のオーバーヘッドとユーザインスツルメンテーションの労力の観点から、軽量なデータ収集によってスケーラブルである。
EGフォーマットの表現性と構成性は、ベンチマーク作成に対する柔軟なユーザ制御を可能にするため、適応性も高い。
我々は、本手法を複数の実運用AIワークロードで評価し、Mystiqueで生成されたベンチマークが、実行時間とシステムレベルのメトリクスの両方において、元のAIモデルとよく似ていることを示す。
また、プラットフォーム間で生成されたベンチマークのポータビリティを示し、実行グラフのきめ細かい構成性によって実現されたいくつかのユースケースを示す。
関連論文リスト
- Large Language Models Can Self-Improve At Web Agent Tasks [37.17001438055515]
大規模言語モデル(LLM)は、ゼロショットまたは少数ショットの方法でエージェントとして新しい環境をナビゲートする機能を最近デモした。
WebArena ベンチマークを用いて,LLM が長期タスクにおけるエージェントとしての性能を自己向上する方法について検討した。
自己改善手順により,WebArenaベンチマークのベースモデルよりもタスク完了率を31%向上させる。
論文 参考訳(メタデータ) (2024-05-30T17:52:36Z) - Automating Dataset Updates Towards Reliable and Timely Evaluation of Large Language Models [81.27391252152199]
大規模言語モデル(LLM)は、さまざまな自然言語ベンチマークで素晴らしいパフォーマンスを実現している。
本稿では、データセットの自動更新と、その有効性に関する体系的な分析を提案する。
1) 類似したサンプルを生成するための戦略を模倣すること,2) 既存のサンプルをさらに拡張する戦略を拡張すること,である。
論文 参考訳(メタデータ) (2024-02-19T07:15:59Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Cheaply Evaluating Inference Efficiency Metrics for Autoregressive
Transformer APIs [66.30706841821123]
大規模言語モデル(LLM)は、自然言語処理において多くの最先端システムに電力を供給する。
LLMは、推論時でさえ非常に計算コストが高い。
モデル間での推論効率を比較するための新しい指標を提案する。
論文 参考訳(メタデータ) (2023-05-03T21:51:42Z) - A Benchmark Generative Probabilistic Model for Weak Supervised Learning [2.0257616108612373]
アノテーションの負担を軽減するために、弱監視学習アプローチが開発されている。
遅延変数モデル(PLVM)が4つのデータセット間で最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2023-03-31T07:06:24Z) - MONAI Label: A framework for AI-assisted Interactive Labeling of 3D
Medical Images [49.664220687980006]
注釈付きデータセットの欠如は、タスク固有の教師付き機械学習モデルをトレーニングする上で、大きなボトルネックとなる。
本稿では,人工知能(AI)モデルに基づくアプリケーション開発を支援する,フリーかつオープンソースなフレームワークであるmonAI Labelを紹介する。
論文 参考訳(メタデータ) (2022-03-23T12:33:11Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - Dynabench: Rethinking Benchmarking in NLP [82.26699038776812]
動的データセットの作成とモデルベンチマークのためのオープンソースプラットフォームであるdynabenchを紹介する。
DynabenchはWebブラウザで動作し、ループ内の人間とモデルデータセットの作成をサポートする。
私たちは、これらの概念を図示し、プラットフォームの約束を強調する4つの初期のNLPタスクを報告します。
論文 参考訳(メタデータ) (2021-04-07T17:49:17Z) - AIPerf: Automated machine learning as an AI-HPC benchmark [17.57686674304368]
自動機械学習(AutoML)を利用したエンドツーエンドベンチマークスイートを提案する。
アルゴリズムを並列かつ柔軟な方法で実装し、多様なシステムにおける効率性と最適化の可能性を保証する。
フレキシブルなワークロードと単一のメトリックによって、私たちのベンチマークはAI-HPCのスケールとランク付けが容易になります。
論文 参考訳(メタデータ) (2020-08-17T08:06:43Z) - AIBench Training: Balanced Industry-Standard AI Training Benchmarking [26.820244556465333]
新しいAIアーキテクチャ/システムのアーリーステージ評価には、安価なベンチマークが必要だ。
私たちは現実世界のベンチマークを使って、学習力学に影響を与える要因をカバーしています。
私たちは、最も包括的なAIトレーニングベンチマークスイートにコントリビュートしています。
論文 参考訳(メタデータ) (2020-04-30T11:08:49Z) - AIBench: An Agile Domain-specific Benchmarking Methodology and an AI
Benchmark Suite [26.820244556465333]
本稿では,アジャイルなドメイン固有のベンチマーク手法を提案する。
我々は10つの重要なエンドツーエンドアプリケーションシナリオを特定し、そのうち16の代表的なAIタスクをAIコンポーネントベンチマークとして抽出する。
最初のエンドツーエンドのインターネットサービスAIベンチマークを提示する。
論文 参考訳(メタデータ) (2020-02-17T07:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。