Fugu-MT 論文翻訳(概要): Scalable and Cost-Efficient ML Inference: Parallel Batch Processing with Serverless Functions

論文の概要: Scalable and Cost-Efficient ML Inference: Parallel Batch Processing with Serverless Functions

arxiv url: http://arxiv.org/abs/2502.12017v1
Date: Thu, 30 Jan 2025 15:47:55 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-23 06:00:26.831683
Title: Scalable and Cost-Efficient ML Inference: Parallel Batch Processing with Serverless Functions
Title（参考訳）: スケーラブルで費用効率のよいML推論:サーバレス関数による並列バッチ処理
Authors: Amine Barrak, Emna Ksontini,
Abstract要約: 本稿では、サーバレスアーキテクチャが大規模ML推論タスクを迅速かつ低コストで実現する方法について検討する。サーバレス並列処理は、モノリシックなアプローチと比較して、同じコストで、実行時間を95%以上削減できることを示した。
参考スコア（独自算出の注目度）: 0.36832029288386137
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As data-intensive applications grow, batch processing in limited-resource environments faces scalability and resource management challenges. Serverless computing offers a flexible alternative, enabling dynamic resource allocation and automatic scaling. This paper explores how serverless architectures can make large-scale ML inference tasks faster and cost-effective by decomposing monolithic processes into parallel functions. Through a case study on sentiment analysis using the DistilBERT model and the IMDb dataset, we demonstrate that serverless parallel processing can reduce execution time by over 95% compared to monolithic approaches, at the same cost.
Abstract（参考訳）: データ集約型アプリケーションが成長するにつれて、限られたリソース環境でのバッチ処理はスケーラビリティとリソース管理の課題に直面します。サーバレスコンピューティングは、動的リソース割り当てと自動スケーリングを可能にする柔軟な代替手段を提供する。本稿では、サーバーレスアーキテクチャがモノリシックプロセスを並列関数に分解することにより、大規模ML推論タスクを迅速かつコスト効率良くする方法について考察する。 DistilBERTモデルとIMDbデータセットを用いた感情分析のケーススタディを通じて、サーバレス並列処理は、モノリシックアプローチと比較して、同じコストで実行時間を95%以上削減できることを示した。

関連論文リスト

SMDP-Based Dynamic Batching for Improving Responsiveness and Energy Efficiency of Batch Services [12.600853777230185]
並列コンピューティングリソースは、より大きなバッチサイズで動作する場合の計算効率とエネルギー効率が向上する。オンラインサービスの世界では、より大きなバッチサイズを採用することで、レスポンス時間が長くなる可能性がある。本稿では,レイテンシと効率を微妙にバランスさせる動的スキームを提案する。
論文参考訳（メタデータ） (2025-01-04T04:14:09Z)
Online Parallel Multi-Task Relationship Learning via Alternating Direction Method of Multipliers [37.859185005986056]
オンラインマルチタスク学習(OMTL)は、複数のタスク間の固有の関係を活用することで、ストリーミングデータ処理を強化する。本研究では、分散コンピューティング環境に適した最近の最適化である交互方向乗算器法(ADMM)に基づく新しいOMTLフレームワークを提案する。
論文参考訳（メタデータ） (2024-11-09T10:20:13Z)
DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。 DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文参考訳（メタデータ） (2024-11-04T18:26:08Z)
Enabling Efficient On-Device Fine-Tuning of LLMs Using Only Inference Engines [17.539008562641303]
大規模言語モデル(LLM)は現在、大規模なクラウドサーバ上で事前トレーニングされ、微調整されている。次のフロンティアはLLMパーソナライズであり、ファンデーションモデルをユーザ/タスク固有のデータで微調整することができる。リソース制約のあるエッジデバイスの微調整は、かなりのメモリと計算要求のために大きな課題となる。
論文参考訳（メタデータ） (2024-09-23T20:14:09Z)
LoongServe: Efficiently Serving Long-Context Large Language Models with Elastic Sequence Parallelism [12.521026493432181]
既存の大規模言語モデル(LLM)は、異なるフェーズにおける可変長要求を効率的に提供できない。本稿では,異なる要求と位相の分散に対応するために,新しい並列性パラダイムである弾性列並列性(ESP)を提案する。 LoongServeは、チャンクプレフィルと比較して最大スループットを最大3.85$times$、プリフィルデコードデアグリゲーションと比較して5.81$times$に改善する。
論文参考訳（メタデータ） (2024-04-15T07:45:04Z)
Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文参考訳（メタデータ） (2024-03-12T13:31:14Z)
In Situ Framework for Coupling Simulation and Machine Learning with Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文参考訳（メタデータ） (2023-06-22T14:07:54Z)
Energy-efficient Task Adaptation for NLP Edge Inference Leveraging Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文参考訳（メタデータ） (2023-03-25T14:40:59Z)
Walle: An End-to-End, General-Purpose, and Large-Scale Production System for Device-Cloud Collaborative Machine Learning [40.09527159285327]
We build the first end-to-end and general-purpose system, called Walle, for device-cloud collaborative machine learning (ML) Walleはデプロイメントプラットフォームで構成され、MLタスクを10億規模のデバイスに分散する。データパイプラインはタスク入力を効率的に準備し、計算コンテナはクロスプラットフォームで高性能な実行環境を提供する。我々はWalleを実践的なeコマースアプリケーションシナリオで評価し、その有効性、効率、スケーラビリティを実証する。
論文参考訳（メタデータ） (2022-05-30T03:43:35Z)
Asynchronous Parallel Incremental Block-Coordinate Descent for Decentralized Machine Learning [55.198301429316125]
機械学習(ML)は、巨大なIoT(Internet of Things)ベースのインテリジェントでユビキタスなコンピューティングのビッグデータ駆動モデリングと分析のための重要なテクニックである。急成長するアプリケーションやデータ量にとって、分散学習は有望な新興パラダイムである。本稿では,多くのユーザデバイスに分散した分散システム上でMLモデルをトレーニングする問題について検討する。
論文参考訳（メタデータ） (2022-02-07T15:04:15Z)
SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文参考訳（メタデータ） (2021-12-22T14:45:37Z)
Optimal Resource Allocation for Serverless Queries [8.59568779761598]
以前の作業では、リソース割り当てと実行時の積極的なトレードオフを無視しながら、ピークアロケーションの予測に重点を置いていた。本稿では,新しいクエリと過去のクエリの両方に対して,アグレッシブなトレードオフでパフォーマンスを予測できる最適なリソース割り当てシステムを提案する。
論文参考訳（メタデータ） (2021-07-19T02:55:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。