論文の概要: AntBatchInfer: Elastic Batch Inference in the Kubernetes Cluster
- arxiv url: http://arxiv.org/abs/2404.09686v1
- Date: Mon, 15 Apr 2024 11:37:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 12:20:54.969550
- Title: AntBatchInfer: Elastic Batch Inference in the Kubernetes Cluster
- Title(参考訳): AntBatchInfer: KubernetesクラスタのElastic Batch推論
- Authors: Siyuan Li, Youshao Xiao, Fanzhuang Meng, Lin Ju, Lei Liang, Lin Wang, Jun Zhou,
- Abstract要約: AntBatchInferは、非専用クラスタ用に特別に最適化されたエラスティックバッチ推論フレームワークである。
マルチレベルのフォールトトレラント機能を提供し、多目的および長時間実行される推論タスクの安定した実行を可能にする。
Ant Groupでは、DLRM、CV、NLPなど、さまざまなシナリオから毎日数千のジョブが使用されている。
- 参考スコア(独自算出の注目度): 22.477723879021934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline batch inference is a common task in the industry for deep learning applications, but it can be challenging to ensure stability and performance when dealing with large amounts of data and complicated inference pipelines. This paper demonstrated AntBatchInfer, an elastic batch inference framework, which is specially optimized for the non-dedicated cluster. AntBatchInfer addresses these challenges by providing multi-level fault-tolerant capabilities, enabling the stable execution of versatile and long-running inference tasks. It also improves inference efficiency by pipelining, intra-node, and inter-node scaling. It further optimizes the performance in complicated multiple-model batch inference scenarios. Through extensive experiments and real-world statistics, we demonstrate the superiority of our framework in terms of stability and efficiency. In the experiment, it outperforms the baseline by at least $2\times$ and $6\times$ in the single-model or multiple-model batch inference. Also, it is widely used at Ant Group, with thousands of daily jobs from various scenarios, including DLRM, CV, and NLP, which proves its practicability in the industry.
- Abstract(参考訳): オフラインバッチ推論は、ディープラーニングアプリケーション業界では一般的なタスクだが、大量のデータと複雑な推論パイプラインを扱う場合、安定性とパフォーマンスを確保することは難しい。
本稿では,非専用クラスタに最適化された弾力性のあるバッチ推論フレームワークAntBatchInferを実証した。
AntBatchInferは、多レベルのフォールトトレラント機能を提供することで、これらの課題に対処する。
また、パイプライニング、ノード内、ノード間スケーリングによる推論効率も向上する。
さらに、複雑なマルチモデルバッチ推論シナリオのパフォーマンスを最適化する。
大規模な実験と実世界の統計を通じて、安定性と効率性の観点から、我々のフレームワークの優位性を実証する。
実験では、シングルモデルまたはマルチモデルバッチ推論において、ベースラインを少なくとも$2\times$と$6\times$で上回る。
また、Ant Groupでも広く使われており、DLRM、CV、NLPといった様々なシナリオから毎日何千ものジョブが使われており、業界におけるその実践性を示している。
関連論文リスト
- Residual Multi-Task Learner for Applied Ranking [11.774841918446137]
ResFlowは、効率的なクロスタスク情報共有を可能にする軽量なマルチタスク学習フレームワークである。
Shopee Searchのプレランクモジュールに完全にデプロイされている。
論文 参考訳(メタデータ) (2024-10-30T06:49:45Z) - SeBS-Flow: Benchmarking Serverless Cloud Function Workflows [51.4200085836966]
本稿では、最初のサーバーレスワークフローベンチマークスイートSeBS-Flowを提案する。
SeBS-Flowには6つの実世界のアプリケーションベンチマークと、異なる計算パターンを表す4つのマイクロベンチマークが含まれている。
当社では,パフォーマンス,コスト,スケーラビリティ,ランタイムの偏差など,3つの主要なクラウドプラットフォームに関する包括的な評価を実施しています。
論文 参考訳(メタデータ) (2024-10-04T14:52:18Z) - On the Worst Prompt Performance of Large Language Models [93.13542053835542]
大規模言語モデル(LLM)の性能は,プロンプトの表現に非常に敏感である。
セマンティックに等価なケースレベルのクエリで構成される新しいベンチマークであるRobustAlpacaEvalを紹介する。
RobustAlpacaEvalとChatGPT、およびLlama、Mistral、Gemmaファミリーの6つのオープンソースLLMによる実験により、モデル性能のかなりのばらつきが明らかになった。
論文 参考訳(メタデータ) (2024-06-08T13:40:38Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Balancing Speciality and Versatility: a Coarse to Fine Framework for Supervised Fine-tuning Large Language Model [25.54822836846494]
Aligned Large Language Models (LLMs) は、様々な現実世界のタスクを処理できる優れた汎用性を示す。
専門性を得るための一般的な慣行である余分なデータによる微調整は、しばしば、以前に獲得した多目的性を破滅的な忘れてしまう。
専門性と汎用性のバランスを崩そうとする,粗いフレームワークであるCoFiTuneを提案する。
論文 参考訳(メタデータ) (2024-04-16T06:27:39Z) - AntDT: A Self-Adaptive Distributed Training Framework for Leader and Straggler Nodes [27.423573962403367]
本稿では,トラグラー問題を適応的に解くための分散学習フレームワークAntDTを提案する。
フレームワークは、Stateful Dynamic Data Sharding Service、Monitor、Controller、Agentの4つのコンポーネントで構成されている。
総合的な実験と産業展開統計によって正当化されたAntDTは、訓練効率の点で、他のSOTAメソッドよりも3倍以上に優れています。
論文 参考訳(メタデータ) (2024-04-15T11:20:44Z) - Flover: A Temporal Fusion Framework for Efficient Autoregressive Model
Parallel Inference [3.005912820808423]
自己回帰モデル上の推論は、現在のトークンの確率分布が前のトークンに条件付けられている時間依存性を利用する。
並列に複数のリクエストを効率的に推測するための時間融合フレームワークであるFloverを提案する。
トークンレベルの並列性のオーケストレーションによって、Floverはハードウェアの最適効率を示し、システムリソースを著しく節約する。
論文 参考訳(メタデータ) (2023-05-22T20:58:09Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Distributed Deep Learning Inference Acceleration using Seamless
Collaboration in Edge Computing [93.67044879636093]
本稿では,コラボレーティブエッジコンピューティングにおける分散畳み込みニューラルネットワーク(CNN)を用いた推論高速化について検討する。
本研究では,第2エッジサーバ(ES)上のサブタスクの重なり合うゾーンをホストES上で実行し,HALPと命名した新しいタスク協調方式を設計する。
実験結果から,GTX 1080TIとJETSON AGX Xavierでは,単一のタスクに対して1.7-2.0x,バッチ毎に1.7-1.8x,バッチ毎に1.7-1.8x,VGG-16では1.7-2.0xのCNN推論を高速化できることがわかった。
論文 参考訳(メタデータ) (2022-07-22T18:39:09Z) - Low-Latency Federated Learning over Wireless Channels with Differential
Privacy [142.5983499872664]
フェデレートラーニング(FL)では、モデルトレーニングはクライアントに分散し、ローカルモデルは中央サーバによって集約される。
本稿では,各クライアントの差分プライバシ(DP)要件だけでなく,全体としてのトレーニング性能に制約された無線チャネル上でのFLトレーニング遅延を最小限に抑えることを目的とする。
論文 参考訳(メタデータ) (2021-06-20T13:51:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。