論文の概要: IPA: Inference Pipeline Adaptation to Achieve High Accuracy and
Cost-Efficiency
- arxiv url: http://arxiv.org/abs/2308.12871v1
- Date: Thu, 24 Aug 2023 15:48:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-25 13:24:26.189882
- Title: IPA: Inference Pipeline Adaptation to Achieve High Accuracy and
Cost-Efficiency
- Title(参考訳): IPA: 高精度かつコスト効率を実現するための推論パイプライン適応
- Authors: Saeid Ghafouri, Kamran Razavi, Mehran Salmani, Alireza Sanaee, Tania
Lorido-Botran, Lin Wang, Joseph Doyle, Pooyan Jamshidi
- Abstract要約: 推論パイプライン適応(英: Inference Pipeline Adaptation、IPA)は、推論パイプラインにおけるモデル変種を効率的に管理するシステムである。
IPAはバッチサイズ、レプリケーション、モデルの変形を動的に設定し、精度を最適化し、コストを最小化し、ユーザ定義のレイテンシSLAを満たす。
IPAは通常の精度を最大35%改善し、最小コストは5%以下である。
- 参考スコア(独自算出の注目度): 5.450957667882506
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficiently optimizing multi-model inference pipelines for fast, accurate,
and cost-effective inference is a crucial challenge in ML production systems,
given their tight end-to-end latency requirements. To simplify the exploration
of the vast and intricate trade-off space of accuracy and cost in inference
pipelines, providers frequently opt to consider one of them. However, the
challenge lies in reconciling accuracy and cost trade-offs. To address this
challenge and propose a solution to efficiently manage model variants in
inference pipelines, we present IPA, an online deep-learning Inference Pipeline
Adaptation system that efficiently leverages model variants for each deep
learning task. Model variants are different versions of pre-trained models for
the same deep learning task with variations in resource requirements, latency,
and accuracy. IPA dynamically configures batch size, replication, and model
variants to optimize accuracy, minimize costs, and meet user-defined latency
SLAs using Integer Programming. It supports multi-objective settings for
achieving different trade-offs between accuracy and cost objectives while
remaining adaptable to varying workloads and dynamic traffic patterns.
Extensive experiments on a Kubernetes implementation with five real-world
inference pipelines demonstrate that IPA improves normalized accuracy by up to
35% with a minimal cost increase of less than 5%.
- Abstract(参考訳): 高速で正確で費用効果の高い推論のために効率よくマルチモデル推論パイプラインを最適化することは、エンドツーエンドのレイテンシ要件が厳しいことを考えると、MLプロダクションシステムにおいて重要な課題である。
推論パイプラインの精度とコストの広い、複雑なトレードオフ空間の探索を単純化するために、プロバイダはしばしばその1つを考えることを選択します。
しかし、課題は正確さとコストトレードオフの調整にある。
この課題に対処し、推論パイプラインにおけるモデル変種を効率的に管理するソリューションを提案するため、深層学習タスク毎にモデル変種を効率的に活用するオンラインディープラーニング推論パイプライン適応システムであるIPAを提案する。
モデル変種は、リソース要求、レイテンシ、精度の異なる同じディープラーニングタスクのために、トレーニング済みモデルの異なるバージョンである。
IPAはバッチサイズ、レプリケーション、モデルの変形を動的に設定し、精度を最適化し、コストを最小化し、Integer Programmingを使ってユーザ定義のレイテンシSLAを満たす。
さまざまなワークロードや動的トラフィックパターンに適応しながら、精度とコスト目標の異なるトレードオフを達成するための、多目的設定をサポートする。
実世界の5つの推論パイプラインによるKubernetes実装に関する大規模な実験は、IPAが通常の精度を最大35%改善し、コストが5%未満であることを示している。
関連論文リスト
- Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Prototype-based HyperAdapter for Sample-Efficient Multi-task Tuning [30.251155072822055]
Prototype-based HyperAdapter (PHA)は、アダプタチューニングとハイパーネットワーク上に構築された新しいフレームワークである。
サンプル効率のよい条件付きモジュールを生成するために、インスタンスdenseレトリバーとプロトタイプのハイパーネットワークを導入する。
PHAは、トレーニング可能なパラメータ、ストリームタスクの精度、サンプル効率のトレードオフをより良くすることを示す。
論文 参考訳(メタデータ) (2023-10-18T02:42:17Z) - Cheaply Evaluating Inference Efficiency Metrics for Autoregressive
Transformer APIs [66.30706841821123]
大規模言語モデル(LLM)は、自然言語処理において多くの最先端システムに電力を供給する。
LLMは、推論時でさえ非常に計算コストが高い。
モデル間での推論効率を比較するための新しい指標を提案する。
論文 参考訳(メタデータ) (2023-05-03T21:51:42Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - Cost-Effective Federated Learning in Mobile Edge Networks [37.16466118235272]
フェデレートラーニング(FL)は、多くのモバイルデバイスが生データを共有せずに協調的にモデルを学習できる分散ラーニングパラダイムである。
本研究は,モバイルエッジネットワークにおける適応FLの設計手法を解析し,本質的な制御変数を最適に選択し,総コストを最小化する。
我々は,収束関連未知パラメータを学習するために,低コストなサンプリングベースアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-09-12T03:02:24Z) - Cost-Effective Federated Learning Design [37.16466118235272]
フェデレーション学習(federated learning, fl)は、多数のデバイスが生のデータを共有することなく、協調的にモデルを学習できる分散学習パラダイムである。
その効率性と有効性にもかかわらず、反復的なオンデバイス学習プロセスは、学習時間とエネルギー消費の面でかなりのコストを伴います。
本稿では,本質的制御変数を最適に選択する適応型flの設計法を分析し,総コストを最小化し,収束性を確保した。
論文 参考訳(メタデータ) (2020-12-15T14:45:11Z) - Search What You Want: Barrier Panelty NAS for Mixed Precision
Quantization [51.26579110596767]
混合精度量子化のための新しいバリアペナルティベースNAS(BP-NAS)を提案する。
BP-NASは、分類(Cifar-10, ImageNet)と検出(COCO)の両方に基づいて芸術の新たな状態を設定する
論文 参考訳(メタデータ) (2020-07-20T12:00:48Z) - The Right Tool for the Job: Matching Model and Instance Complexities [62.95183777679024]
NLPモデルが大きくなればなるほど、訓練されたモデルを実行するには、金銭的・環境的なコストを発生させる重要な計算資源が必要である。
我々は、推論中、早期(かつ高速)の"exit"を可能にする文脈表現微調整の修正を提案する。
3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、5つの異なるデータセットに対して提案した修正を検証した。
論文 参考訳(メタデータ) (2020-04-16T04:28:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。