論文の概要: Apparate: Rethinking Early Exits to Tame Latency-Throughput Tensions in
ML Serving
- arxiv url: http://arxiv.org/abs/2312.05385v1
- Date: Fri, 8 Dec 2023 21:49:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 21:08:09.656108
- Title: Apparate: Rethinking Early Exits to Tame Latency-Throughput Tensions in
ML Serving
- Title(参考訳): Apparate: MLにおける遅延スルートテンションの早期排除について
- Authors: Yinwei Dai, Rui Pan, Anand Iyer, Kai Li, Ravi Netravali
- Abstract要約: 本稿では,推論を行う粒度を変化させることでスループット-レイテンシトレードオフに取り組むための代替戦略について検討する。
本稿では,機械学習モデルにおける早期出口(EE)を自動的に適用し,管理するシステムであるApparateを紹介する。
EEがもたらす時間的なオーバーヘッドと正確性に対処するために、Apparateは出口を再利用して継続的なフィードバックを提供する。
- 参考スコア(独自算出の注目度): 11.578175527228769
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Machine learning (ML) inference platforms are tasked with balancing two
competing goals: ensuring high throughput given many requests, and delivering
low-latency responses to support interactive applications. Unfortunately,
existing platform knobs (e.g., batch sizes) fail to ease this fundamental
tension, and instead only enable users to harshly trade off one property for
the other. This paper explores an alternate strategy to taming
throughput-latency tradeoffs by changing the granularity at which inference is
performed. We present Apparate, a system that automatically applies and manages
early exits (EEs) in ML models, whereby certain inputs can exit with results at
intermediate layers. To cope with the time-varying overhead and accuracy
challenges that EEs bring, Apparate repurposes exits to provide continual
feedback that powers several novel runtime monitoring and adaptation
strategies. Apparate lowers median response latencies by 40.5-91.5% and
10.0-24.2% for diverse CV and NLP workloads, respectively, without affecting
throughputs or violating tight accuracy constraints.
- Abstract(参考訳): マシンラーニング(ml)推論プラットフォームは、多くのリクエストに対して高いスループットを保証することと、インタラクティブなアプリケーションをサポートするために低レイテンシのレスポンスを提供することという、2つの競合する目標のバランスを担います。
残念なことに、既存のプラットフォームノブ(バッチサイズなど)は、この基本的な緊張を和らげることができず、一方のプロパティを他方と厳格にトレードオフできるのみである。
本稿では,推論を行う粒度を変化させることでスループット-レイテンシトレードオフに取り組むための代替戦略について検討する。
本稿では,MLモデルにおける早期出口(EE)を自動的に適用し,管理するシステムであるApparateについて述べる。
eeがもたらした時間的なオーバーヘッドと正確さの課題に対処するため、apparateはエグジットを再利用して、いくつかの新しいランタイム監視と適応戦略を駆動する継続的なフィードバックを提供する。
CVおよびNLPワークロードの中央値応答遅延を40.5-91.5%と10.0-24.2%に下げる。
関連論文リスト
- SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping [49.66872823080736]
自己回帰型大規模言語モデル(LLaMa, GPT)は、言語理解と生成において顕著な成功を収めている。
発生時に発生する過負荷を軽減するため、いくつかの早期退避および層下降戦略が提案されている。
本稿では,入力適応型フィードフォワードスキップ戦略であるFFN-SkipLLMを提案する。
論文 参考訳(メタデータ) (2024-04-05T02:35:43Z) - ALTO: An Efficient Network Orchestrator for Compound AI Systems [20.880866765513066]
ALTOは、言語モデルのパイプラインのような複合AIシステムを効率的に提供するネットワークオーケストレータである。
言語モデルがトークン単位で出力トークンを生成すると、ALTOは可能であればステージ間で中間出力をストリームする機会を公開する。
我々は、分散パイプラインステージインスタンス間で中間データをストリーミングする際に発生する、正確性とロードバランシングという2つの新しい課題を強調した。
論文 参考訳(メタデータ) (2024-03-07T08:30:26Z) - Reliable, Adaptable, and Attributable Language Models with Retrieval [144.26890121729514]
パラメトリック言語モデル(LM)は大量のWebデータに基づいて訓練されている。
幻覚、新しいデータ分布への適応の困難、妥当性の欠如など、実践的な課題に直面している。
我々は、次世代のLMとしてパラメトリックLMを置き換えるための検索拡張LMを提唱する。
論文 参考訳(メタデータ) (2024-03-05T18:22:33Z) - Modality Plug-and-Play: Elastic Modality Adaptation in Multimodal LLMs
for Embodied AI [10.82017289243097]
LLM(Large Language Models)は、事前訓練されたエンコーダを通じて様々な入力データモダリティを推論することができる。
m-LLMは、既存の最良のスキームと比較してタスクの精度を最大4%改善する。
論文 参考訳(メタデータ) (2023-12-13T04:08:59Z) - Parameter and Computation Efficient Transfer Learning for
Vision-Language Pre-trained Models [79.34513906324727]
本稿では,視覚言語事前学習モデルのためのパラメータと効率的な伝達学習(PCETL)を提案する。
そこで本研究では,新しい動的アーキテクチャスキップ(DAS)アプローチを効果的PCETLに適用する。
論文 参考訳(メタデータ) (2023-09-04T09:34:33Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Reconciling High Accuracy, Cost-Efficiency, and Low Latency of Inference
Serving Systems [0.0]
InfAdapterは、レイテンシSLOを満たすために、リソース割り当てでMLモデルの一連の変種を積極的に選択する。
SLO違反を減らし、業界で人気のオートスケーラと比較して、それぞれ65%と33%に値下げする。
論文 参考訳(メタデータ) (2023-04-21T11:19:49Z) - DeepFT: Fault-Tolerant Edge Computing using a Self-Supervised Deep
Surrogate Model [12.335763358698564]
本稿では,システム過負荷とその悪影響を積極的に回避するためにDeepFTを提案する。
DeepFTは、システム内の障害を正確に予測し、診断するために、ディープサロゲートモデルを使用している。
モデルのサイズが1ユニットあたりわずか3~1%のスケールで、アクティブなタスクやホストの数が増えるため、非常にスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2022-12-02T16:51:58Z) - COST-EFF: Collaborative Optimization of Spatial and Temporal Efficiency
with Slenderized Multi-exit Language Models [16.586312156966635]
トランスフォーマーベースの事前訓練言語モデル(PLM)は、高い能力にもかかわらず過度のオーバーヘッドに悩まされている。
既存の静的圧縮モデルは、入力インスタンス間の様々な複雑さに気づいていない。
静的モデル圧縮と動的推論アクセラレーションを統合したPLMの協調最適化を提案する。
論文 参考訳(メタデータ) (2022-10-27T15:06:40Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。