論文の概要: Scalable and Secure AI Inference in Healthcare: A Comparative Benchmarking of FastAPI and Triton Inference Server on Kubernetes
- arxiv url: http://arxiv.org/abs/2602.00053v1
- Date: Mon, 19 Jan 2026 18:48:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 02:03:42.280167
- Title: Scalable and Secure AI Inference in Healthcare: A Comparative Benchmarking of FastAPI and Triton Inference Server on Kubernetes
- Title(参考訳): 医療におけるスケーラブルでセキュアなAI推論 - Kubernetes上のFastAPIとTriton推論サーバの比較ベンチマーク
- Authors: Ratul Ali,
- Abstract要約: 本稿では,FastAPIを用いた軽量なPythonベースのRESTサービスと,NVIDIA Triton Inference Serverという特殊な高性能サービスエンジンであるNVIDIA Triton Inference Serverを比較したベンチマーク分析を行う。
結果から,単一要求ワークロードに対するFastAPIとTritonの明確なトレードオフが示唆された。
本研究は、企業臨床AIのベストプラクティスとしてハイブリッドモデルを検証し、セキュアで高可用性なデプロイメントのための青写真を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficient and scalable deployment of machine learning (ML) models is a prerequisite for modern production environments, particularly within regulated domains such as healthcare and pharmaceuticals. In these settings, systems must balance competing requirements, including minimizing inference latency for real-time clinical decision support, maximizing throughput for batch processing of medical records, and ensuring strict adherence to data privacy standards such as HIPAA. This paper presents a rigorous benchmarking analysis comparing two prominent deployment paradigms: a lightweight, Python-based REST service using FastAPI, and a specialized, high-performance serving engine, NVIDIA Triton Inference Server. Leveraging a reference architecture for healthcare AI, we deployed a DistilBERT sentiment analysis model on Kubernetes to measure median (p50) and tail (p95) latency, as well as throughput, under controlled experimental conditions. Our results indicate a distinct trade-off. While FastAPI provides lower overhead for single-request workloads with a p50 latency of 22 ms, Triton achieves superior scalability through dynamic batching, delivering a throughput of 780 requests per second on a single NVIDIA T4 GPU, nearly double that of the baseline. Furthermore, we evaluate a hybrid architectural approach that utilizes FastAPI as a secure gateway for protected health information de-identification and Triton for backend inference. This study validates the hybrid model as a best practice for enterprise clinical AI and offers a blueprint for secure, high-availability deployments.
- Abstract(参考訳): 機械学習(ML)モデルの効率的かつスケーラブルなデプロイは、現代生産環境、特に医療や医薬品などの規制された領域において、必要不可欠である。
これらの設定では、リアルタイムな臨床診断支援のための推論レイテンシの最小化、医療記録のバッチ処理のスループットの最大化、HIPAAなどのデータプライバシ標準への厳格な準拠など、競合する要件のバランスをとる必要がある。
本稿では,FastAPIを用いた軽量なPythonベースのRESTサービスと,NVIDIA Triton Inference Serverという特殊な高性能サーブエンジンであるNVIDIA Triton Inference Serverという,2つのデプロイメントパラダイムを比較した厳密なベンチマーク分析を提案する。
医療AIのリファレンスアーキテクチャを活用して、中央値(p50)とテール(p95)のレイテンシ、スループットを制御された実験条件下で測定するために、KubernetesにDistilBERTの感情分析モデルをデプロイしました。
私たちの結果は、明確なトレードオフを示している。
FastAPIは、p50レイテンシが22msの単一要求ワークロードのオーバーヘッドを低くするが、Tritonは動的バッチ処理によって優れたスケーラビリティを実現し、単一のNVIDIA T4 GPU上で毎秒780リクエストのスループットを提供する。
さらに,FastAPIを保護された健康情報識別のためのセキュアなゲートウェイとして利用するハイブリッドアーキテクチャアプローチと,バックエンド推論のためのTritonを評価した。
本研究は、企業臨床AIのベストプラクティスとしてハイブリッドモデルを検証し、セキュアで高可用性なデプロイメントのための青写真を提供する。
関連論文リスト
- AI-NativeBench: An Open-Source White-Box Agentic Benchmark Suite for AI-Native Systems [52.65695508605237]
我々は、Model Context Protocol(MCP)とAgent-to-Agent(A2A)標準に基づいて、アプリケーション中心でホワイトボックスのAI-NativeベンチマークスイートであるAI-NativeBenchを紹介する。
エージェントスパンを分散トレース内の第一級市民として扱うことにより,本手法は,単純な機能以上の工学的特性の粒度解析を可能にする。
この研究は、モデル能力の測定から信頼性の高いAI-Nativeシステムへの移行を導く最初の体系的な証拠を提供する。
論文 参考訳(メタデータ) (2026-01-14T11:32:07Z) - FFP-300K: Scaling First-Frame Propagation for Generalizable Video Editing [97.35186681023025]
FFP-300Kは、720p解像度と81フレームの高忠実度ビデオペアの大規模データセットである。
本稿では,第1フレームの外観維持とソース映像の動作保存の緊張を解消する,真の誘導不要なFFPのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-05T01:46:22Z) - Serverless GPU Architecture for Enterprise HR Analytics: A Production-Scale BDaaS Implementation [6.240627892585199]
単一ノードのサーバレスGPUランタイムをTabNetに統合する,プロダクション指向のBig Data as a Service (BD) ブループリントを提案する。
HR、アダルト、BLSデータセット上でベンチマークを行い、SparkとCPUベースラインに対するアプローチを比較します。
以上の結果から,GPUパイプラインはSparkベースラインに比べて最大4.5倍高いスループット,98倍のレイテンシ,1K推論あたりのコスト90%の削減を実現している。
論文 参考訳(メタデータ) (2025-10-22T15:37:42Z) - Local Obfuscation by GLINER for Impartial Context Aware Lineage: Development and evaluation of PII Removal system [3.823253824850948]
LOGICALは、GLiNERモデルに基づいて開発された、効率的でローカルにデプロイ可能なPII除去システムである。
微調整のGLiNERモデルは、全体的なマイクロ平均F1スコア0.980で優れた性能を達成した。
LOGicalは95%の文書を正しく衛生し、次のベストソリューションは64%だった。
論文 参考訳(メタデータ) (2025-10-22T08:12:07Z) - Leveraging Generative Models for Real-Time Query-Driven Text Summarization in Large-Scale Web Search [54.987957691350665]
クエリ駆動テキスト要約(QDTS)は、与えられたクエリに基づいてテキスト文書から簡潔で情報的な要約を生成することを目的としている。
従来の抽出的要約モデルは、主にランク付け候補の要約セグメントに基づいており、産業応用において支配的なアプローチとなっている。
産業Web検索におけるリアルタイムQDTSに対処するための生成モデルの適用を開拓するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-28T08:51:51Z) - VAE-based Feature Disentanglement for Data Augmentation and Compression in Generalized GNSS Interference Classification [42.14439854721613]
干渉の正確な分類を可能にする重要な潜伏特徴を抽出するために, アンタングル化のための変分オートエンコーダ (VAE) を提案する。
提案するVAEは512から8,192の範囲のデータ圧縮率を実現し,99.92%の精度を実現している。
論文 参考訳(メタデータ) (2025-04-14T13:38:00Z) - ZIA: A Theoretical Framework for Zero-Input AI [0.0]
Zero-Input AI(ZIA)は、明示的なユーザコマンドを使わずに、積極的な意図予測を可能にすることによって、人間とコンピュータのインタラクションのための新しいフレームワークを導入している。
リアルタイム推論のためのマルチモーダルモデルに、視線追跡、バイオシグナル(EEG、心拍数)、コンテキストデータ(時間、位置、使用履歴)を統合する。
ZIAは、アクセシビリティ、ヘルスケア、消費者アプリケーションのためのスケーラブルでプライバシ保護フレームワークを提供し、AIを予測知性に向けて前進させる。
論文 参考訳(メタデータ) (2025-02-22T07:42:05Z) - Efficient Federated Prompt Tuning for Black-box Large Pre-trained Models [62.838689691468666]
我々は,各ローカルデータセットを最適に活用するためのフェデレートブラックボックス・プロンプト・チューニング(Fed-BBPT)を提案する。
Fed-BBPTは、ローカルユーザーがレギュラーアグリゲーションを通じてプロンプトジェネレータを協調的に訓練するのを支援する中央サーバーに重点を置いている。
大規模な微調整とは対照的に、Fed-BBPTは、PTMストレージとローカルマシンの微調整に関連するメモリの課題を、十分にサイドステップで解決している。
論文 参考訳(メタデータ) (2023-10-04T19:30:49Z) - HOLMES: Health OnLine Model Ensemble Serving for Deep Learning Models in
Intensive Care Units [31.368873375366213]
HOLMESは医療アプリケーションのためのオンラインモデルアンサンブルである。
HOLMESは精度/レイテンシのトレードオフを効率的にナビゲートし、アンサンブルを構成し、モデルアンサンブルパイプラインを提供することができることを示す。
HOLMESは, 小児心ICUデータにおけるリスク予測タスクにおいて, 64ベッドシミュレーションにおいて95%以上の予測精度とサブ秒レイテンシで検証した。
論文 参考訳(メタデータ) (2020-08-10T12:38:46Z) - A Privacy-Preserving-Oriented DNN Pruning and Mobile Acceleration
Framework [56.57225686288006]
モバイルエッジデバイスの限られたストレージとコンピューティング能力を満たすために、ディープニューラルネットワーク(DNN)の軽量プルーニングが提案されている。
従来のプルーニング手法は主に、ユーザデータのプライバシを考慮せずに、モデルのサイズを減らしたり、パフォーマンスを向上させることに重点を置いていた。
プライベートトレーニングデータセットを必要としないプライバシ保護指向のプルーニングおよびモバイルアクセラレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-13T23:52:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。