Fugu-MT 論文翻訳(概要): AntBatchInfer: Elastic Batch Inference in the Kubernetes Cluster

論文の概要: AntBatchInfer: Elastic Batch Inference in the Kubernetes Cluster

arxiv url: http://arxiv.org/abs/2404.09686v1
Date: Mon, 15 Apr 2024 11:37:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-16 12:20:54.969550
Title: AntBatchInfer: Elastic Batch Inference in the Kubernetes Cluster
Title（参考訳）: AntBatchInfer: KubernetesクラスタのElastic Batch推論
Authors: Siyuan Li, Youshao Xiao, Fanzhuang Meng, Lin Ju, Lei Liang, Lin Wang, Jun Zhou,
Abstract要約: AntBatchInferは、非専用クラスタ用に特別に最適化されたエラスティックバッチ推論フレームワークである。マルチレベルのフォールトトレラント機能を提供し、多目的および長時間実行される推論タスクの安定した実行を可能にする。 Ant Groupでは、DLRM、CV、NLPなど、さまざまなシナリオから毎日数千のジョブが使用されている。
参考スコア（独自算出の注目度）: 22.477723879021934
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Offline batch inference is a common task in the industry for deep learning applications, but it can be challenging to ensure stability and performance when dealing with large amounts of data and complicated inference pipelines. This paper demonstrated AntBatchInfer, an elastic batch inference framework, which is specially optimized for the non-dedicated cluster. AntBatchInfer addresses these challenges by providing multi-level fault-tolerant capabilities, enabling the stable execution of versatile and long-running inference tasks. It also improves inference efficiency by pipelining, intra-node, and inter-node scaling. It further optimizes the performance in complicated multiple-model batch inference scenarios. Through extensive experiments and real-world statistics, we demonstrate the superiority of our framework in terms of stability and efficiency. In the experiment, it outperforms the baseline by at least $2\times$ and $6\times$ in the single-model or multiple-model batch inference. Also, it is widely used at Ant Group, with thousands of daily jobs from various scenarios, including DLRM, CV, and NLP, which proves its practicability in the industry.
Abstract（参考訳）: オフラインバッチ推論は、ディープラーニングアプリケーション業界では一般的なタスクだが、大量のデータと複雑な推論パイプラインを扱う場合、安定性とパフォーマンスを確保することは難しい。本稿では,非専用クラスタに最適化された弾力性のあるバッチ推論フレームワークAntBatchInferを実証した。 AntBatchInferは、多レベルのフォールトトレラント機能を提供することで、これらの課題に対処する。また、パイプライニング、ノード内、ノード間スケーリングによる推論効率も向上する。さらに、複雑なマルチモデルバッチ推論シナリオのパフォーマンスを最適化する。大規模な実験と実世界の統計を通じて、安定性と効率性の観点から、我々のフレームワークの優位性を実証する。実験では、シングルモデルまたはマルチモデルバッチ推論において、ベースラインを少なくとも$2\times$と$6\times$で上回る。また、Ant Groupでも広く使われており、DLRM、CV、NLPといった様々なシナリオから毎日何千ものジョブが使われており、業界におけるその実践性を示している。

関連論文リスト

Federated Continual Instruction Tuning [39.344583304181135]
フェデレートラーニング(FL)は、すべての分散データとトレーニングリソースを活用して、共同トレーニングのオーバーヘッドを軽減する可能性がある。我々は,この現実的な課題をモデル化するために,FCIT(Federated Continual Instruction Tuning)ベンチマークを導入する。提案手法は, 様々なレベルのデータと大惨な忘れを伴って, モデル性能を著しく向上させる。
論文参考訳（メタデータ） (2025-03-17T07:58:06Z)
Residual Multi-Task Learner for Applied Ranking [11.774841918446137]
ResFlowは、効率的なクロスタスク情報共有を可能にする軽量なマルチタスク学習フレームワークである。 Shopee Searchのプレランクモジュールに完全にデプロイされている。
論文参考訳（メタデータ） (2024-10-30T06:49:45Z)
EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文参考訳（メタデータ） (2024-10-16T05:17:49Z)
IT$^3$: Idempotent Test-Time Training [95.78053599609044]
ディープラーニングモデルは、トレーニングデータとテストデータの間の分散シフトのために、現実世界の環境にデプロイする際に苦労することが多い。 Idempotent Test-Time Training (IT$3$) は、現在のテストインスタンスのみを使用して、分散シフトへのオンザフライ適応を可能にする新しいアプローチである。この結果から,イデオポテンスはドメインやアーキテクチャをまたいで一般化するテスト時間適応の普遍的原理を提供すると考えられる。
論文参考訳（メタデータ） (2024-10-05T15:39:51Z)
SeBS-Flow: Benchmarking Serverless Cloud Function Workflows [51.4200085836966]
本稿では、最初のサーバーレスワークフローベンチマークスイートSeBS-Flowを提案する。 SeBS-Flowには6つの実世界のアプリケーションベンチマークと、異なる計算パターンを表す4つのマイクロベンチマークが含まれている。当社では,パフォーマンス,コスト,スケーラビリティ,ランタイムの偏差など,3つの主要なクラウドプラットフォームに関する包括的な評価を実施しています。
論文参考訳（メタデータ） (2024-10-04T14:52:18Z)
On the Worst Prompt Performance of Large Language Models [93.13542053835542]
大規模言語モデル(LLM)の性能は,プロンプトの表現に非常に敏感である。セマンティックに等価なケースレベルのクエリで構成される新しいベンチマークであるRobustAlpacaEvalを紹介する。 RobustAlpacaEvalとChatGPT、およびLlama、Mistral、Gemmaファミリーの6つのオープンソースLLMによる実験により、モデル性能のかなりのばらつきが明らかになった。
論文参考訳（メタデータ） (2024-06-08T13:40:38Z)
Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文参考訳（メタデータ） (2024-06-07T11:37:45Z)
Balancing Speciality and Versatility: a Coarse to Fine Framework for Supervised Fine-tuning Large Language Model [25.54822836846494]
Aligned Large Language Models (LLMs) は、様々な現実世界のタスクを処理できる優れた汎用性を示す。専門性を得るための一般的な慣行である余分なデータによる微調整は、しばしば、以前に獲得した多目的性を破滅的な忘れてしまう。専門性と汎用性のバランスを崩そうとする,粗いフレームワークであるCoFiTuneを提案する。
論文参考訳（メタデータ） (2024-04-16T06:27:39Z)
AntDT: A Self-Adaptive Distributed Training Framework for Leader and Straggler Nodes [27.423573962403367]
本稿では,トラグラー問題を適応的に解くための分散学習フレームワークAntDTを提案する。フレームワークは、Stateful Dynamic Data Sharding Service、Monitor、Controller、Agentの4つのコンポーネントで構成されている。総合的な実験と産業展開統計によって正当化されたAntDTは、訓練効率の点で、他のSOTAメソッドよりも3倍以上に優れています。
論文参考訳（メタデータ） (2024-04-15T11:20:44Z)
Flover: A Temporal Fusion Framework for Efficient Autoregressive Model Parallel Inference [3.005912820808423]
自己回帰モデル上の推論は、現在のトークンの確率分布が前のトークンに条件付けられている時間依存性を利用する。並列に複数のリクエストを効率的に推測するための時間融合フレームワークであるFloverを提案する。トークンレベルの並列性のオーケストレーションによって、Floverはハードウェアの最適効率を示し、システムリソースを著しく節約する。
論文参考訳（メタデータ） (2023-05-22T20:58:09Z)
Energy-efficient Task Adaptation for NLP Edge Inference Leveraging Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文参考訳（メタデータ） (2023-03-25T14:40:59Z)
Distributed Deep Learning Inference Acceleration using Seamless Collaboration in Edge Computing [93.67044879636093]
本稿では,コラボレーティブエッジコンピューティングにおける分散畳み込みニューラルネットワーク(CNN)を用いた推論高速化について検討する。本研究では,第2エッジサーバ(ES)上のサブタスクの重なり合うゾーンをホストES上で実行し,HALPと命名した新しいタスク協調方式を設計する。実験結果から,GTX 1080TIとJETSON AGX Xavierでは,単一のタスクに対して1.7-2.0x,バッチ毎に1.7-1.8x,バッチ毎に1.7-1.8x,VGG-16では1.7-2.0xのCNN推論を高速化できることがわかった。
論文参考訳（メタデータ） (2022-07-22T18:39:09Z)
Low-Latency Federated Learning over Wireless Channels with Differential Privacy [142.5983499872664]
フェデレートラーニング(FL)では、モデルトレーニングはクライアントに分散し、ローカルモデルは中央サーバによって集約される。本稿では,各クライアントの差分プライバシ(DP)要件だけでなく,全体としてのトレーニング性能に制約された無線チャネル上でのFLトレーニング遅延を最小限に抑えることを目的とする。
論文参考訳（メタデータ） (2021-06-20T13:51:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。