論文の概要: IPA: Inference Pipeline Adaptation to Achieve High Accuracy and
Cost-Efficiency
- arxiv url: http://arxiv.org/abs/2308.12871v2
- Date: Thu, 18 Jan 2024 21:20:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 19:06:36.899487
- Title: IPA: Inference Pipeline Adaptation to Achieve High Accuracy and
Cost-Efficiency
- Title(参考訳): IPA: 高精度かつコスト効率を実現するための推論パイプライン適応
- Authors: Saeid Ghafouri, Kamran Razavi, Mehran Salmani, Alireza Sanaee, Tania
Lorido-Botran, Lin Wang, Joseph Doyle, Pooyan Jamshidi
- Abstract要約: 推論パイプライン適応システムは、ディープラーニングタスク毎のモデル変種を効率的に活用する。
IPAはバッチサイズ、レプリケーション、モデルの変種を動的に設定し、精度を最適化し、コストを最小化し、ユーザ定義の遅延レベル合意を満たす。
- 参考スコア(独自算出の注目度): 5.450957667882506
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficiently optimizing multi-model inference pipelines for fast, accurate,
and cost-effective inference is a crucial challenge in machine learning
production systems, given their tight end-to-end latency requirements. To
simplify the exploration of the vast and intricate trade-off space of latency,
accuracy, and cost in inference pipelines, providers frequently opt to consider
one of them. However, the challenge lies in reconciling latency, accuracy, and
cost trade-offs. To address this challenge and propose a solution to
efficiently manage model variants in inference pipelines, we present IPA, an
online deep learning Inference Pipeline Adaptation system that efficiently
leverages model variants for each deep learning task. Model variants are
different versions of pre-trained models for the same deep learning task with
variations in resource requirements, latency, and accuracy. IPA dynamically
configures batch size, replication, and model variants to optimize accuracy,
minimize costs, and meet user-defined latency Service Level Agreements (SLAs)
using Integer Programming. It supports multi-objective settings for achieving
different trade-offs between accuracy and cost objectives while remaining
adaptable to varying workloads and dynamic traffic patterns. Navigating a wider
variety of configurations allows \namex{} to achieve better trade-offs between
cost and accuracy objectives compared to existing methods. Extensive
experiments in a Kubernetes implementation with five real-world inference
pipelines demonstrate that IPA improves end-to-end accuracy by up to 21% with a
minimal cost increase. The code and data for replications are available at
https://github.com/reconfigurable-ml-pipeline/ipa.
- Abstract(参考訳): 高速で正確で費用効果の高い推論のために効率的なマルチモデル推論パイプラインを最適化することは、エンドツーエンドのレイテンシ要件が厳しいことを考えると、機械学習生産システムにおいて重要な課題である。
推論パイプラインのレイテンシ、正確性、コストという巨大で複雑なトレードオフ空間の探索を単純化するため、プロバイダは、その1つをよく検討する。
しかし、課題はレイテンシ、正確性、コストトレードオフの調整にある。
この課題に対処し、推論パイプラインにおけるモデル変種を効率的に管理するソリューションを提案するため、深層学習タスク毎にモデル変種を効率的に活用するオンライン深層学習推論パイプライン適応システムであるIPAを提案する。
モデル変種は、リソース要求、レイテンシ、精度の異なる同じディープラーニングタスクのために、トレーニング済みモデルの異なるバージョンである。
IPAはバッチサイズ、レプリケーション、モデル変異を動的に設定し、精度を最適化し、コストを最小化し、Integer Programmingを使ってユーザ定義のレイテンシーサービスレベルアグリーメント(SLA)を満たす。
さまざまなワークロードや動的トラフィックパターンに適応しながら、精度とコスト目標の異なるトレードオフを達成するための、多目的設定をサポートする。
より広範なさまざまな構成をナビゲートすることで,既存の方法と比較して,コストと精度の目標とのトレードオフが向上する。
実世界の5つの推論パイプラインを備えたKubernetes実装の大規模な実験は、IPAが最小コストの増加でエンドツーエンドの精度を最大21%向上することを示した。
レプリケーションのためのコードとデータはhttps://github.com/reconfigurable-ml-pipeline/ipaで入手できる。
関連論文リスト
- Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Prototype-based HyperAdapter for Sample-Efficient Multi-task Tuning [30.251155072822055]
Prototype-based HyperAdapter (PHA)は、アダプタチューニングとハイパーネットワーク上に構築された新しいフレームワークである。
サンプル効率のよい条件付きモジュールを生成するために、インスタンスdenseレトリバーとプロトタイプのハイパーネットワークを導入する。
PHAは、トレーニング可能なパラメータ、ストリームタスクの精度、サンプル効率のトレードオフをより良くすることを示す。
論文 参考訳(メタデータ) (2023-10-18T02:42:17Z) - Cheaply Evaluating Inference Efficiency Metrics for Autoregressive
Transformer APIs [66.30706841821123]
大規模言語モデル(LLM)は、自然言語処理において多くの最先端システムに電力を供給する。
LLMは、推論時でさえ非常に計算コストが高い。
モデル間での推論効率を比較するための新しい指標を提案する。
論文 参考訳(メタデータ) (2023-05-03T21:51:42Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - Cost-Effective Federated Learning in Mobile Edge Networks [37.16466118235272]
フェデレートラーニング(FL)は、多くのモバイルデバイスが生データを共有せずに協調的にモデルを学習できる分散ラーニングパラダイムである。
本研究は,モバイルエッジネットワークにおける適応FLの設計手法を解析し,本質的な制御変数を最適に選択し,総コストを最小化する。
我々は,収束関連未知パラメータを学習するために,低コストなサンプリングベースアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-09-12T03:02:24Z) - Cost-Effective Federated Learning Design [37.16466118235272]
フェデレーション学習(federated learning, fl)は、多数のデバイスが生のデータを共有することなく、協調的にモデルを学習できる分散学習パラダイムである。
その効率性と有効性にもかかわらず、反復的なオンデバイス学習プロセスは、学習時間とエネルギー消費の面でかなりのコストを伴います。
本稿では,本質的制御変数を最適に選択する適応型flの設計法を分析し,総コストを最小化し,収束性を確保した。
論文 参考訳(メタデータ) (2020-12-15T14:45:11Z) - Search What You Want: Barrier Panelty NAS for Mixed Precision
Quantization [51.26579110596767]
混合精度量子化のための新しいバリアペナルティベースNAS(BP-NAS)を提案する。
BP-NASは、分類(Cifar-10, ImageNet)と検出(COCO)の両方に基づいて芸術の新たな状態を設定する
論文 参考訳(メタデータ) (2020-07-20T12:00:48Z) - The Right Tool for the Job: Matching Model and Instance Complexities [62.95183777679024]
NLPモデルが大きくなればなるほど、訓練されたモデルを実行するには、金銭的・環境的なコストを発生させる重要な計算資源が必要である。
我々は、推論中、早期(かつ高速)の"exit"を可能にする文脈表現微調整の修正を提案する。
3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、5つの異なるデータセットに対して提案した修正を検証した。
論文 参考訳(メタデータ) (2020-04-16T04:28:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。