論文の概要: Efficient Multi-stage Inference on Tabular Data
- arxiv url: http://arxiv.org/abs/2303.11580v2
- Date: Fri, 21 Jul 2023 19:24:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 23:31:56.159416
- Title: Efficient Multi-stage Inference on Tabular Data
- Title(参考訳): タブラルデータに基づく効率的な多段階推論
- Authors: Daniel S Johnson and Igor L Markov
- Abstract要約: 従来型の知恵は、MLコードをRPC API経由で製品コードによってクエリされるサービスに分離することを好む。
推論アルゴリズムを単純化し、それらを製品コードに組み込んでネットワーク通信を減らします。
トレーニングと推論の両方にAutoMLによる最適化を適用することで、推論遅延を1.3倍、CPUリソースを30%削減し、アプリケーションフロントエンドとMLバックエンド間のネットワーク通信を約50%削減します。
- 参考スコア(独自算出の注目度): 1.6371451481715193
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Many ML applications and products train on medium amounts of input data but
get bottlenecked in real-time inference. When implementing ML systems,
conventional wisdom favors segregating ML code into services queried by product
code via Remote Procedure Call (RPC) APIs. This approach clarifies the overall
software architecture and simplifies product code by abstracting away ML
internals. However, the separation adds network latency and entails additional
CPU overhead. Hence, we simplify inference algorithms and embed them into the
product code to reduce network communication. For public datasets and a
high-performance real-time platform that deals with tabular data, we show that
over half of the inputs are often amenable to such optimization, while the
remainder can be handled by the original model. By applying our optimization
with AutoML to both training and inference, we reduce inference latency by
1.3x, CPU resources by 30%, and network communication between application
front-end and ML back-end by about 50% for a commercial end-to-end ML platform
that serves millions of real-time decisions per second.
- Abstract(参考訳): 多くのMLアプリケーションや製品は、中程度の入力データをトレーニングするが、リアルタイム推論ではボトルネックになる。
MLシステムを実装する際、従来の知恵は、リモートプロシージャコール(RPC)APIを介して製品コードによってクエリされるサービスにMLコードを分離することを好んでいる。
このアプローチはソフトウェアアーキテクチャ全体を明確化し、ML内部を抽象化することでプロダクトコードを単純化する。
しかし、分離によってネットワークレイテンシが増加し、CPUオーバーヘッドが増大する。
したがって、推論アルゴリズムを単純化し、製品コードに組み込むことにより、ネットワーク通信の削減を図る。
グラフデータを扱う公開データセットと高性能リアルタイムプラットフォームでは、入力の半数以上がそのような最適化に適しており、残りの部分は元のモデルで処理可能であることを示す。
トレーニングと推論の両方にAutoMLによる最適化を適用することで、推論のレイテンシを1.3倍削減し、CPUリソースを30%削減し、アプリケーションフロントエンドとMLバックエンド間のネットワーク通信を、毎秒数百万のリアルタイム決定を提供する商用のエンドツーエンドMLプラットフォームで約50%削減します。
関連論文リスト
- Efficient Tool Use with Chain-of-Abstraction Reasoning [65.18096363216574]
大規模言語モデル(LLM)は、現実世界の知識に対する推論の基礎となる必要がある。
マルチステップ推論問題におけるツールの実行には,微調整LDMエージェントの課題が残されている。
マルチステップ推論におけるツールの活用方法として, LLM の新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-30T21:53:30Z) - Distributed Inference and Fine-tuning of Large Language Models Over The
Internet [91.00270820533272]
大規模言語モデル(LLM)は、多くのNLPタスクで有用であり、サイズが向上する。
これらのモデルはハイエンドのハードウェアを必要とするため、ほとんどの研究者にはアクセスできない。
本研究では,システムスループットの最大化のためにデバイスを自動的に割り当てるフォールトトレラント推論アルゴリズムとロードバランシングプロトコルを開発する。
論文 参考訳(メタデータ) (2023-12-13T18:52:49Z) - In Situ Framework for Coupling Simulation and Machine Learning with
Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。
シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。
この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文 参考訳(メタデータ) (2023-06-22T14:07:54Z) - Fast Distributed Inference Serving for Large Language Models [12.682341873843882]
大規模言語モデル(LLM)は、ChatGPTで実証された対話型AIアプリケーションの新しい世代のパワーである。
これらのアプリケーションのインタラクティブな性質は、モデル推論に低いジョブ完了時間(JCT)を必要とする。
LLMのための分散推論サービスシステムであるFastServeについて述べる。
論文 参考訳(メタデータ) (2023-05-10T06:17:50Z) - tf.data service: A Case for Disaggregating ML Input Data Processing [4.851146762916078]
機械学習(ML)計算はGPUやTPUなどの高価なハードウェア上で一般的に実行され、高いFLOPとワット当たりのパフォーマンスを提供する。
データストールを避けるため、ML計算に使用されるアクセラレータコア毎に入力データ処理に必要なホストCPUとRAMはジョブによって異なる。
tf.data 上に構築されたオープンソースの非集約型入力データ処理サービスである tf.data について述べる。
論文 参考訳(メタデータ) (2022-10-26T16:15:45Z) - MPC-Pipe: an Efficient Pipeline Scheme for Secure Multi-party Machine
Learning Inference [3.1853566662905943]
マルチパーティコンピューティング(MPC)は、セキュアなコンピューティングモデルとしてここ数年で人気を集めている。
MPCは、同型暗号化(HE)よりもオーバーヘッドが少なく、ハードウェアベースの信頼できる実行環境よりも堅牢な脅威モデルを持っている。
MPCプロトコルは、機械学習アルゴリズムに適用した場合の平文と比較して、かなりのパフォーマンス上のペナルティを被っている。
論文 参考訳(メタデータ) (2022-09-27T19:16:26Z) - NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。
これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。
LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文 参考訳(メタデータ) (2022-06-28T20:13:40Z) - Walle: An End-to-End, General-Purpose, and Large-Scale Production System
for Device-Cloud Collaborative Machine Learning [40.09527159285327]
We build the first end-to-end and general-purpose system, called Walle, for device-cloud collaborative machine learning (ML)
Walleはデプロイメントプラットフォームで構成され、MLタスクを10億規模のデバイスに分散する。データパイプラインはタスク入力を効率的に準備し、計算コンテナはクロスプラットフォームで高性能な実行環境を提供する。
我々はWalleを実践的なeコマースアプリケーションシナリオで評価し、その有効性、効率、スケーラビリティを実証する。
論文 参考訳(メタデータ) (2022-05-30T03:43:35Z) - Asynchronous Parallel Incremental Block-Coordinate Descent for
Decentralized Machine Learning [55.198301429316125]
機械学習(ML)は、巨大なIoT(Internet of Things)ベースのインテリジェントでユビキタスなコンピューティングのビッグデータ駆動モデリングと分析のための重要なテクニックである。
急成長するアプリケーションやデータ量にとって、分散学習は有望な新興パラダイムである。
本稿では,多くのユーザデバイスに分散した分散システム上でMLモデルをトレーニングする問題について検討する。
論文 参考訳(メタデータ) (2022-02-07T15:04:15Z) - Towards Efficient Post-training Quantization of Pre-trained Language
Models [85.68317334241287]
PLMのポストトレーニング量子化(PTQ)について検討し,モジュール単位の量子化誤差最小化(MREM)を提案する。
GLUEとSQuADベンチマークの実験により、提案したPTQソリューションはQATに近く動作するだけでなく、トレーニング時間、メモリオーバーヘッド、データ消費を大幅に削減できることがわかった。
論文 参考訳(メタデータ) (2021-09-30T12:50:06Z) - Multi-model Machine Learning Inference Serving with GPU Spatial
Partitioning [7.05946599544139]
高スループット機械学習(ML)推論サーバは、オンラインサービスアプリケーションには不可欠である。
これらのサーバは、一貫したサービスレベルの目的(SLO)をサポートするために、各リクエストに対してバウンドレイテンシを提供しなければならない。
本稿では,マルチモデルML推論サーバのための新しいML推論スケジューリングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-01T04:46:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。