論文の概要: AntBatchInfer: Elastic Batch Inference in the Kubernetes Cluster
- arxiv url: http://arxiv.org/abs/2404.09686v1
- Date: Mon, 15 Apr 2024 11:37:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 12:20:54.969550
- Title: AntBatchInfer: Elastic Batch Inference in the Kubernetes Cluster
- Title(参考訳): AntBatchInfer: KubernetesクラスタのElastic Batch推論
- Authors: Siyuan Li, Youshao Xiao, Fanzhuang Meng, Lin Ju, Lei Liang, Lin Wang, Jun Zhou,
- Abstract要約: AntBatchInferは、非専用クラスタ用に特別に最適化されたエラスティックバッチ推論フレームワークである。
マルチレベルのフォールトトレラント機能を提供し、多目的および長時間実行される推論タスクの安定した実行を可能にする。
Ant Groupでは、DLRM、CV、NLPなど、さまざまなシナリオから毎日数千のジョブが使用されている。
- 参考スコア(独自算出の注目度): 22.477723879021934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline batch inference is a common task in the industry for deep learning applications, but it can be challenging to ensure stability and performance when dealing with large amounts of data and complicated inference pipelines. This paper demonstrated AntBatchInfer, an elastic batch inference framework, which is specially optimized for the non-dedicated cluster. AntBatchInfer addresses these challenges by providing multi-level fault-tolerant capabilities, enabling the stable execution of versatile and long-running inference tasks. It also improves inference efficiency by pipelining, intra-node, and inter-node scaling. It further optimizes the performance in complicated multiple-model batch inference scenarios. Through extensive experiments and real-world statistics, we demonstrate the superiority of our framework in terms of stability and efficiency. In the experiment, it outperforms the baseline by at least $2\times$ and $6\times$ in the single-model or multiple-model batch inference. Also, it is widely used at Ant Group, with thousands of daily jobs from various scenarios, including DLRM, CV, and NLP, which proves its practicability in the industry.
- Abstract(参考訳): オフラインバッチ推論は、ディープラーニングアプリケーション業界では一般的なタスクだが、大量のデータと複雑な推論パイプラインを扱う場合、安定性とパフォーマンスを確保することは難しい。
本稿では,非専用クラスタに最適化された弾力性のあるバッチ推論フレームワークAntBatchInferを実証した。
AntBatchInferは、多レベルのフォールトトレラント機能を提供することで、これらの課題に対処する。
また、パイプライニング、ノード内、ノード間スケーリングによる推論効率も向上する。
さらに、複雑なマルチモデルバッチ推論シナリオのパフォーマンスを最適化する。
大規模な実験と実世界の統計を通じて、安定性と効率性の観点から、我々のフレームワークの優位性を実証する。
実験では、シングルモデルまたはマルチモデルバッチ推論において、ベースラインを少なくとも$2\times$と$6\times$で上回る。
また、Ant Groupでも広く使われており、DLRM、CV、NLPといった様々なシナリオから毎日何千ものジョブが使われており、業界におけるその実践性を示している。
関連論文リスト
- Balancing Speciality and Versatility: a Coarse to Fine Framework for Supervised Fine-tuning Large Language Model [25.54822836846494]
Aligned Large Language Models (LLMs) は、様々な現実世界のタスクを処理できる優れた汎用性を示す。
専門性を得るための一般的な慣行である余分なデータによる微調整は、しばしば、以前に獲得した多目的性を破滅的な忘れてしまう。
専門性と汎用性のバランスを崩そうとする,粗いフレームワークであるCoFiTuneを提案する。
論文 参考訳(メタデータ) (2024-04-16T06:27:39Z) - AntDT: A Self-Adaptive Distributed Training Framework for Leader and Straggler Nodes [27.423573962403367]
本稿では,トラグラー問題を適応的に解くための分散学習フレームワークAntDTを提案する。
フレームワークは、Stateful Dynamic Data Sharding Service、Monitor、Controller、Agentの4つのコンポーネントで構成されている。
総合的な実験と産業展開統計によって正当化されたAntDTは、訓練効率の点で、他のSOTAメソッドよりも3倍以上に優れています。
論文 参考訳(メタデータ) (2024-04-15T11:20:44Z) - Controllable Prompt Tuning For Balancing Group Distributional Robustness [59.94489781153899]
グループ間で優れたパフォーマンスを実現するための最適化スキームを導入し、それらの性能を著しく犠牲にすることなく、全員に良い解決策を見出す。
本稿では,制御可能なプロンプトチューニング(CPT)を提案する。
突発的相関ベンチマークでは, 変換器と非変換器の両アーキテクチャ, および非モーダルおよびマルチモーダルデータにまたがって, 最先端の結果が得られた。
論文 参考訳(メタデータ) (2024-03-05T06:23:55Z) - Prototype-based HyperAdapter for Sample-Efficient Multi-task Tuning [30.251155072822055]
Prototype-based HyperAdapter (PHA)は、アダプタチューニングとハイパーネットワーク上に構築された新しいフレームワークである。
サンプル効率のよい条件付きモジュールを生成するために、インスタンスdenseレトリバーとプロトタイプのハイパーネットワークを導入する。
PHAは、トレーニング可能なパラメータ、ストリームタスクの精度、サンプル効率のトレードオフをより良くすることを示す。
論文 参考訳(メタデータ) (2023-10-18T02:42:17Z) - Large-Batch, Iteration-Efficient Neural Bayesian Design Optimization [26.59961454274655]
本稿では,BOの限界に対処するための新しいベイズ最適化フレームワークを提案する。
我々の重要な貢献は、高度にスケーラブルでサンプルベースの取得機能であり、非支配的な目的のソートを実行する。
我々は,ベイズ型ニューラルネットワークサロゲートと組み合わせることで,最小限の反復数でデータ集約環境に有効であることを示す。
論文 参考訳(メタデータ) (2023-06-01T19:10:57Z) - Flover: A Temporal Fusion Framework for Efficient Autoregressive Model
Parallel Inference [3.005912820808423]
自己回帰モデル上の推論は、現在のトークンの確率分布が前のトークンに条件付けられている時間依存性を利用する。
並列に複数のリクエストを効率的に推測するための時間融合フレームワークであるFloverを提案する。
トークンレベルの並列性のオーケストレーションによって、Floverはハードウェアの最適効率を示し、システムリソースを著しく節約する。
論文 参考訳(メタデータ) (2023-05-22T20:58:09Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Distributed Deep Learning Inference Acceleration using Seamless
Collaboration in Edge Computing [93.67044879636093]
本稿では,コラボレーティブエッジコンピューティングにおける分散畳み込みニューラルネットワーク(CNN)を用いた推論高速化について検討する。
本研究では,第2エッジサーバ(ES)上のサブタスクの重なり合うゾーンをホストES上で実行し,HALPと命名した新しいタスク協調方式を設計する。
実験結果から,GTX 1080TIとJETSON AGX Xavierでは,単一のタスクに対して1.7-2.0x,バッチ毎に1.7-1.8x,バッチ毎に1.7-1.8x,VGG-16では1.7-2.0xのCNN推論を高速化できることがわかった。
論文 参考訳(メタデータ) (2022-07-22T18:39:09Z) - Low-Latency Federated Learning over Wireless Channels with Differential
Privacy [142.5983499872664]
フェデレートラーニング(FL)では、モデルトレーニングはクライアントに分散し、ローカルモデルは中央サーバによって集約される。
本稿では,各クライアントの差分プライバシ(DP)要件だけでなく,全体としてのトレーニング性能に制約された無線チャネル上でのFLトレーニング遅延を最小限に抑えることを目的とする。
論文 参考訳(メタデータ) (2021-06-20T13:51:18Z) - Dynamic Multi-Robot Task Allocation under Uncertainty and Temporal
Constraints [52.58352707495122]
本稿では,不確実性およびマルチエージェント協調の下での逐次意思決定における重要な計算課題を分離するマルチロボット割当アルゴリズムを提案する。
都市におけるマルチアームコンベヤベルトピック・アンド・プレイスとマルチドローン配送ディスパッチの2つの異なる領域における広範囲なシミュレーション結果について検証を行った。
論文 参考訳(メタデータ) (2020-05-27T01:10:41Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。