論文の概要: Scalable AI Inference: Performance Analysis and Optimization of AI Model Serving
- arxiv url: http://arxiv.org/abs/2604.20420v1
- Date: Wed, 22 Apr 2026 10:39:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:11.087067
- Title: Scalable AI Inference: Performance Analysis and Optimization of AI Model Serving
- Title(参考訳): スケーラブルなAI推論:AIモデルサービングのパフォーマンス分析と最適化
- Authors: Hung Cuong Pham, Fatih Gedikli,
- Abstract要約: 本研究では,グラフワークス.aiと連携して開発されたスケーラブルなモデル提供のためのベントMLベースのAI推論システムの性能と最適化について検討する。
調査では、さまざまなワークロード下でのレイテンシとスループットのスケールアップ、ランタイム、サービス、デプロイメントレベルの最適化がレスポンス時間にどのように影響するか、単一ノードのK3sクラスタでのデプロイメントが障害時のレジリエンスに与える影響について検討した。
- 参考スコア(独自算出の注目度): 0.9167082845109437
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI research often emphasizes model design and algorithmic performance, while deployment and inference remain comparatively underexplored despite being critical for real-world use. This study addresses that gap by investigating the performance and optimization of a BentoML-based AI inference system for scalable model serving developed in collaboration with graphworks.ai. The evaluation first establishes baseline performance under three realistic workload scenarios. To ensure a fair and reproducible assessment, a pre-trained RoBERTa sentiment analysis model is used throughout the experiments. The system is subjected to traffic patterns following gamma and exponential distributions in order to emulate real-world usage conditions, including steady, bursty, and high-intensity workloads. Key performance metrics, such as latency percentiles and throughput, are collected and analyzed to identify bottlenecks in the inference pipeline. Based on the baseline results, optimization strategies are introduced at multiple levels of the serving stack to improve efficiency and scalability. The optimized system is then reevaluated under the same workload conditions, and the results are compared with the baseline using statistical analysis to quantify the impact of the applied improvements. The findings demonstrate practical strategies for achieving efficient and scalable AI inference with BentoML. The study examines how latency and throughput scale under varying workloads, how optimizations at the runtime, service, and deployment levels affect response time, and how deployment in a single-node K3s cluster influences resilience during disruptions.
- Abstract(参考訳): AI研究はしばしばモデル設計とアルゴリズムのパフォーマンスを強調している。
本研究では、グラフワークス.aiと共同で開発されたスケーラブルなモデル提供のためのベントMLベースのAI推論システムの性能と最適化を調査することでギャップを解消する。
評価はまず,3つの現実的なワークロードシナリオ下でのベースラインパフォーマンスを確立する。
公正かつ再現可能な評価を確実にするために、実験全体を通して事前訓練されたRoBERTa感情分析モデルが使用される。
このシステムは、安定、バースト、高強度のワークロードを含む現実世界の使用条件をエミュレートするために、ガンマ分布や指数分布に続くトラフィックパターンに従わなければならない。
レイテンシパーセンタイルやスループットなどの重要なパフォーマンス指標が収集され、推論パイプラインのボトルネックを特定するために分析される。
ベースライン結果に基づいて,サービススタックの複数のレベルで最適化戦略を導入し,効率性とスケーラビリティを向上する。
最適化されたシステムは、同じワークロード条件下で再評価され、その結果を統計解析を用いてベースラインと比較して、適用された改善の効果を定量化する。
この結果は、BentoMLで効率的でスケーラブルなAI推論を実現するための実践的な戦略を示している。
調査では、さまざまなワークロード下でのレイテンシとスループットのスケールアップ、ランタイム、サービス、デプロイメントレベルの最適化がレスポンス時間にどのように影響するか、単一ノードのK3sクラスタでのデプロイメントが障害時のレジリエンスに与える影響について検討した。
関連論文リスト
- Implicit Neural Representation-Based Continuous Single Image Super Resolution: An Empirical Study [50.15623093332659]
入射神経表現(INR)は任意のスケール画像超解像(ASSR)の標準的アプローチとなっている
既存の手法を多様な設定で比較し、複数の画像品質指標に対して集計結果を示す。
トレーニング中, エッジ, テクスチャ, 細部を保存しながら, 強度変化をペナライズする新たな損失関数について検討した。
論文 参考訳(メタデータ) (2026-01-25T07:09:20Z) - CurES: From Gradient Analysis to Efficient Curriculum Learning for Reasoning LLMs [53.749193998004166]
カリキュラム学習は,大規模言語モデルの学習効率を高める上で重要な役割を担っている。
収束を加速し,計算オーバーヘッドを最小限に抑えるためにベイズ後続推定を用いた効率的な学習法であるCurESを提案する。
論文 参考訳(メタデータ) (2025-10-01T15:41:27Z) - XQC: Well-conditioned Optimization Accelerates Deep Reinforcement Learning [26.063477716451512]
我々は,ソフトアクター・クリティックをベースとした,よく動機付けられた,サンプル効率の高いディープアクター・クリティックアルゴリズムであるXQCを紹介する。
55のプロプリセプションと15の視覚に基づく連続制御タスクにまたがる最先端のサンプル効率を実現する。
論文 参考訳(メタデータ) (2025-09-29T17:58:53Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - On Effective Scheduling of Model-based Reinforcement Learning [53.027698625496015]
実データ比率を自動的にスケジュールするAutoMBPOというフレームワークを提案する。
本稿ではまず,政策訓練における実データの役割を理論的に分析し,実際のデータの比率を徐々に高めれば,より優れた性能が得られることを示唆する。
論文 参考訳(メタデータ) (2021-11-16T15:24:59Z) - IOHanalyzer: Detailed Performance Analyses for Iterative Optimization
Heuristics [3.967483941966979]
IOHanalyzerは、IOHのパフォーマンスデータを分析、比較、視覚化するための新しいユーザフレンドリーなツールである。
IOHanalyzerは、固定目標実行時間とベンチマークアルゴリズムの固定予算性能に関する詳細な統計を提供する。
IOHanalyzerは、主要なベンチマークプラットフォームから直接パフォーマンスデータを処理できる。
論文 参考訳(メタデータ) (2020-07-08T08:20:19Z) - Dynamic Federated Learning [57.14673504239551]
フェデレートラーニング(Federated Learning)は、マルチエージェント環境における集中的なコーディネーション戦略の包括的用語として登場した。
我々は、各イテレーションにおいて、利用可能なエージェントのランダムなサブセットがそのデータに基づいてローカル更新を実行する、フェデレートされた学習モデルを考える。
集約最適化問題に対する真の最小化器上の非定常ランダムウォークモデルの下で、アーキテクチャの性能は、各エージェントにおけるデータ変動率、各エージェントにおけるモデル変動率、アルゴリズムの学習率に逆比例する追跡項の3つの要因によって決定されることを示す。
論文 参考訳(メタデータ) (2020-02-20T15:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。