論文の概要: Mystique: Accurate and Scalable Production AI Benchmarks Generation
- arxiv url: http://arxiv.org/abs/2301.04122v1
- Date: Fri, 16 Dec 2022 18:46:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-15 23:27:01.214870
- Title: Mystique: Accurate and Scalable Production AI Benchmarks Generation
- Title(参考訳): Mystique: 正確でスケーラブルなAIベンチマーク生成
- Authors: Mingyu Liang, Wenyin Fu, Louis Feng, Zhongyi Lin, Pavani Panakanti,
Srinivas Sridharan, Christina Delimitrou
- Abstract要約: Mystiqueは、プロダクションAIベンチマーク生成のための正確でスケーラブルなフレームワークである。
これは、オペレータの粒度でAIモデルの実行時情報をキャプチャする新機能であるPyTorch実行グラフ(EG)を活用する。
Mystiqueは、実行時のオーバーヘッドとユーザインスツルメンテーションの労力の観点から、軽量なデータ収集によってスケーラブルである。
我々は、本手法を複数の実運用AIワークロードで評価し、Mystiqueで生成されたベンチマークが元のAIモデルとよく似ていることを示す。
- 参考スコア(独自算出の注目度): 1.6484926458461044
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building and maintaining large AI fleets to efficiently support the
fast-growing DL workloads is an active research topic for modern cloud
infrastructure providers. Generating accurate benchmarks plays an essential
role in the design and evaluation of rapidly evoloving software and hardware
solutions in this area. Two fundamental challenges to make this process
scalable are (i) workload representativeness and (ii) the ability to quickly
incorporate changes to the fleet into the benchmarks.
To overcome these issues, we propose Mystique, an accurate and scalable
framework for production AI benchmark generation. It leverages the PyTorch
execution graph (EG), a new feature that captures the runtime information of AI
models at the granularity of operators, in a graph format, together with their
metadata. By sourcing EG traces from the fleet, we can build AI benchmarks that
are portable and representative. Mystique is scalable, with its lightweight
data collection, in terms of runtime overhead and user instrumentation efforts.
It is also adaptive, as the expressiveness and composability of EG format
allows flexible user control over benchmark creation.
We evaluate our methodology on several production AI workloads, and show that
benchmarks generated with Mystique closely resemble original AI models, both in
execution time and system-level metrics. We also showcase the portability of
the generated benchmarks across platforms, and demonstrate several use cases
enabled by the fine-grained composability of the execution graph.
- Abstract(参考訳): 急速に成長するDLワークロードを効率的にサポートするための大規模なAIフリートの構築とメンテナンスは、現代のクラウドインフラストラクチャプロバイダにとって活発な研究トピックである。
正確なベンチマークを生成することは、この分野で急速に発展するソフトウェアとハードウェアソリューションの設計と評価において重要な役割を果たす。
このプロセスをスケーラブルにする2つの基本的な課題
(i)ワークロードの代表性と
(ii)艦隊の変更をベンチマークに迅速に組み込む能力。
これらの問題を解決するために、我々は、AIベンチマーク生成の正確でスケーラブルなフレームワークであるMystiqueを提案する。
PyTorch実行グラフ(EG)は、演算子の粒度でAIモデルの実行時情報を、メタデータとともにグラフ形式でキャプチャする新機能である。
このフリートからEGトレースをソーシングすることで、ポータブルで代表的なAIベンチマークを構築することができます。
Mystiqueは、実行時のオーバーヘッドとユーザインスツルメンテーションの労力の観点から、軽量なデータ収集によってスケーラブルである。
EGフォーマットの表現性と構成性は、ベンチマーク作成に対する柔軟なユーザ制御を可能にするため、適応性も高い。
我々は、本手法を複数の実運用AIワークロードで評価し、Mystiqueで生成されたベンチマークが、実行時間とシステムレベルのメトリクスの両方において、元のAIモデルとよく似ていることを示す。
また、プラットフォーム間で生成されたベンチマークのポータビリティを示し、実行グラフのきめ細かい構成性によって実現されたいくつかのユースケースを示す。
関連論文リスト
- BENCHAGENTS: Automated Benchmark Creation with Agent Interaction [16.4783894348333]
BENCHAGENTSは,大規模言語モデル(LLM)を体系的に活用し,複雑な機能のためのベンチマーク作成を自動化するフレームワークである。
我々は、BENCHAGENTSを用いて、テキスト生成時の計画と制約満足度に関連する機能を評価するベンチマークを作成する。
次に、これらのベンチマークを使用して、7つの最先端モデルを調査し、共通の障害モードとモデルの違いに関する新たな洞察を抽出する。
論文 参考訳(メタデータ) (2024-10-29T22:56:18Z) - LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。
LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。
ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文 参考訳(メタデータ) (2024-10-14T17:51:23Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Automating Dataset Updates Towards Reliable and Timely Evaluation of Large Language Models [81.27391252152199]
大規模言語モデル(LLM)は、さまざまな自然言語ベンチマークで素晴らしいパフォーマンスを実現している。
本稿では、データセットの自動更新と、その有効性に関する体系的な分析を提案する。
1) 類似したサンプルを生成するための戦略を模倣すること,2) 既存のサンプルをさらに拡張する戦略を拡張すること,である。
論文 参考訳(メタデータ) (2024-02-19T07:15:59Z) - Cheaply Evaluating Inference Efficiency Metrics for Autoregressive
Transformer APIs [66.30706841821123]
大規模言語モデル(LLM)は、自然言語処理において多くの最先端システムに電力を供給する。
LLMは、推論時でさえ非常に計算コストが高い。
モデル間での推論効率を比較するための新しい指標を提案する。
論文 参考訳(メタデータ) (2023-05-03T21:51:42Z) - A Benchmark Generative Probabilistic Model for Weak Supervised Learning [2.0257616108612373]
アノテーションの負担を軽減するために、弱監視学習アプローチが開発されている。
遅延変数モデル(PLVM)が4つのデータセット間で最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2023-03-31T07:06:24Z) - MONAI Label: A framework for AI-assisted Interactive Labeling of 3D
Medical Images [49.664220687980006]
注釈付きデータセットの欠如は、タスク固有の教師付き機械学習モデルをトレーニングする上で、大きなボトルネックとなる。
本稿では,人工知能(AI)モデルに基づくアプリケーション開発を支援する,フリーかつオープンソースなフレームワークであるmonAI Labelを紹介する。
論文 参考訳(メタデータ) (2022-03-23T12:33:11Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - AIPerf: Automated machine learning as an AI-HPC benchmark [17.57686674304368]
自動機械学習(AutoML)を利用したエンドツーエンドベンチマークスイートを提案する。
アルゴリズムを並列かつ柔軟な方法で実装し、多様なシステムにおける効率性と最適化の可能性を保証する。
フレキシブルなワークロードと単一のメトリックによって、私たちのベンチマークはAI-HPCのスケールとランク付けが容易になります。
論文 参考訳(メタデータ) (2020-08-17T08:06:43Z) - AIBench Training: Balanced Industry-Standard AI Training Benchmarking [26.820244556465333]
新しいAIアーキテクチャ/システムのアーリーステージ評価には、安価なベンチマークが必要だ。
私たちは現実世界のベンチマークを使って、学習力学に影響を与える要因をカバーしています。
私たちは、最も包括的なAIトレーニングベンチマークスイートにコントリビュートしています。
論文 参考訳(メタデータ) (2020-04-30T11:08:49Z) - AIBench: An Agile Domain-specific Benchmarking Methodology and an AI
Benchmark Suite [26.820244556465333]
本稿では,アジャイルなドメイン固有のベンチマーク手法を提案する。
我々は10つの重要なエンドツーエンドアプリケーションシナリオを特定し、そのうち16の代表的なAIタスクをAIコンポーネントベンチマークとして抽出する。
最初のエンドツーエンドのインターネットサービスAIベンチマークを提示する。
論文 参考訳(メタデータ) (2020-02-17T07:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。