論文の概要: Serverless GPU Architecture for Enterprise HR Analytics: A Production-Scale BDaaS Implementation
- arxiv url: http://arxiv.org/abs/2510.19689v1
- Date: Wed, 22 Oct 2025 15:37:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:16.033359
- Title: Serverless GPU Architecture for Enterprise HR Analytics: A Production-Scale BDaaS Implementation
- Title(参考訳): エンタープライズHR分析のためのサーバレスGPUアーキテクチャ:プロダクションスケールのBDaaS実装
- Authors: Guilin Zhang, Wulan Guo, Ziqi Tan, Srinivas Vippagunta, Suchitra Raman, Shreeshankar Chatterjee, Ju Lin, Shang Liu, Mary Schladenhauffen, Jeffrey Luo, Hailong Jiang,
- Abstract要約: 単一ノードのサーバレスGPUランタイムをTabNetに統合する,プロダクション指向のBig Data as a Service (BD) ブループリントを提案する。
HR、アダルト、BLSデータセット上でベンチマークを行い、SparkとCPUベースラインに対するアプローチを比較します。
以上の結果から,GPUパイプラインはSparkベースラインに比べて最大4.5倍高いスループット,98倍のレイテンシ,1K推論あたりのコスト90%の削減を実現している。
- 参考スコア(独自算出の注目度): 6.240627892585199
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Industrial and government organizations increasingly depend on data-driven analytics for workforce, finance, and regulated decision processes, where timeliness, cost efficiency, and compliance are critical. Distributed frameworks such as Spark and Flink remain effective for massive-scale batch or streaming analytics but introduce coordination complexity and auditing overheads that misalign with moderate-scale, latency-sensitive inference. Meanwhile, cloud providers now offer serverless GPUs, and models such as TabNet enable interpretable tabular ML, motivating new deployment blueprints for regulated environments. In this paper, we present a production-oriented Big Data as a Service (BDaaS) blueprint that integrates a single-node serverless GPU runtime with TabNet. The design leverages GPU acceleration for throughput, serverless elasticity for cost reduction, and feature-mask interpretability for IL4/FIPS compliance. We conduct benchmarks on the HR, Adult, and BLS datasets, comparing our approach against Spark and CPU baselines. Our results show that GPU pipelines achieve up to 4.5x higher throughput, 98x lower latency, and 90% lower cost per 1K inferences compared to Spark baselines, while compliance mechanisms add only ~5.7 ms latency with p99 < 22 ms. Interpretability remains stable under peak load, ensuring reliable auditability. Taken together, these findings provide a compliance-aware benchmark, a reproducible Helm-packaged blueprint, and a decision framework that demonstrate the practicality of secure, interpretable, and cost-efficient serverless GPU analytics for regulated enterprise and government settings.
- Abstract(参考訳): 産業や政府の組織は、労働、財務、規制された意思決定プロセスのためのデータ駆動分析にますます依存しており、タイムライン、コスト効率、コンプライアンスが重要になっている。
SparkやFlinkといった分散フレームワークは、大規模なバッチやストリーミング分析には有効だが、調整の複雑さや、中規模でレイテンシに敏感な推論と不一致なオーバヘッドを導入している。
一方、クラウドプロバイダはサーバレスGPUを提供し、TabNetなどのモデルは解釈可能な表型MLを可能にし、規制された環境のための新しいデプロイメントブループリントを動機付けている。
本稿では,単一ノードのサーバレスGPUランタイムをTabNetに統合した,プロダクション指向のビッグデータ・アズ・ア・サービス(BDaaS)のブループリントを提案する。
この設計では、スループットのためのGPUアクセラレーション、コスト削減のためのサーバレス弾力性、IL4/FIPS準拠のためのフィーチャーマスク解釈性を活用している。
HR、アダルト、BLSデータセット上でベンチマークを行い、SparkとCPUベースラインに対するアプローチを比較します。
結果から,GPUパイプラインはSparkベースラインと比較して最大4.5倍のスループット,98倍のレイテンシ,1K推論あたりのコストの90%削減を実現している。
まとめると、これらの発見はコンプライアンスを意識したベンチマーク、再現可能なHelmパッケージングブループリント、および規制された企業および政府設定のためのセキュアで解釈可能でコスト効率の高いサーバレスGPU分析の実用性を示す決定フレームワークを提供する。
関連論文リスト
- Adaptive Dual-Weighting Framework for Federated Learning via Out-of-Distribution Detection [53.45696787935487]
Federated Learning (FL)は、大規模分散サービスノード間の協調的なモデルトレーニングを可能にする。
実世界のサービス指向デプロイメントでは、異種ユーザ、デバイス、アプリケーションシナリオによって生成されたデータは本質的にIIDではない。
FLoodは、オフ・オブ・ディストリビューション(OOD)検出にインスパイアされた新しいFLフレームワークである。
論文 参考訳(メタデータ) (2026-02-01T05:54:59Z) - Scalable and Secure AI Inference in Healthcare: A Comparative Benchmarking of FastAPI and Triton Inference Server on Kubernetes [0.0]
本稿では,FastAPIを用いた軽量なPythonベースのRESTサービスと,NVIDIA Triton Inference Serverという特殊な高性能サービスエンジンであるNVIDIA Triton Inference Serverを比較したベンチマーク分析を行う。
結果から,単一要求ワークロードに対するFastAPIとTritonの明確なトレードオフが示唆された。
本研究は、企業臨床AIのベストプラクティスとしてハイブリッドモデルを検証し、セキュアで高可用性なデプロイメントのための青写真を提供する。
論文 参考訳(メタデータ) (2026-01-19T18:48:29Z) - LUT-Compiled Kolmogorov-Arnold Networks for Lightweight DoS Detection on IoT Edge Devices [20.271194684947282]
Kolmogorov-Arnold Networks (KAN) は、MLP(Multi-Layer Perceptrons)に代わるコンパクトな代替品を提供する。
B-spline評価は、レイテンシクリティカルなIoTアプリケーションには適さない、大幅な計算オーバーヘッドをもたらす。
本稿では,高価なスプライン計算を事前計算した量子テーブルに置き換えるルックアップテーブル(LUT)コンパイルパイプラインを提案する。
論文 参考訳(メタデータ) (2026-01-12T22:32:18Z) - Viability and Performance of a Private LLM Server for SMBs: A Benchmark Analysis of Qwen3-30B on Consumer-Grade Hardware [0.0]
大規模言語モデル(LLM)には、クラウドベースのプロプライエタリなシステムへの依存が伴っている。
本稿では,中小企業に対して,高性能でプライベートなLLM推論サーバを低コストで展開する可能性について検討する。
論文 参考訳(メタデータ) (2025-12-28T18:08:01Z) - Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。
我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。
BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文 参考訳(メタデータ) (2025-11-04T01:15:44Z) - Metrics and evaluations for computational and sustainable AI efficiency [26.52588349722099]
現在のアプローチでは全体像の提供に失敗し、システムの比較と最適化が難しい。
本稿では,計算および環境メトリクスを統合するAIモデル推論のための統一的再現可能な方法論を提案する。
本フレームワークは, 遅延を系統的に測定し, スループット, エネルギー消費, 位置調整二酸化炭素排出量を計測することにより, 実用的で炭素を意識した評価を行う。
論文 参考訳(メタデータ) (2025-10-18T03:30:15Z) - RepoForge: Training a SOTA Fast-thinking SWE Agent with an End-to-End Data Curation Pipeline Synergizing SFT and RL at Scale [15.199441664697988]
トレーニングソフトウェアエンジニアリング(SWE) LLMは、高価なインフラストラクチャ、非効率な評価パイプライン、少ないトレーニングデータ、高価な品質管理によってボトルネックになっている。
本稿では,SWEエージェントを大規模に生成し,評価し,訓練する,自律的なエンドツーエンドパイプラインであるRepoForgeを紹介する。
論文 参考訳(メタデータ) (2025-08-03T02:34:16Z) - The Larger the Merrier? Efficient Large AI Model Inference in Wireless Edge Networks [56.37880529653111]
大規模計算モデル(LAIM)サービスの需要は、従来のクラウドベースの推論から、低レイテンシでプライバシ保護のアプリケーションのためのエッジベースの推論へのパラダイムシフトを推進している。
本稿では,事前学習したLAIMをデバイス上のサブモデルとサーバ上のサブモデルに分割して配置するLAIM推論方式について検討する。
論文 参考訳(メタデータ) (2025-05-14T08:18:55Z) - LONGER: Scaling Up Long Sequence Modeling in Industrial Recommenders [23.70714095931094]
GPU効率の良いリコメンダのための長時間最適化されたtraNsformer。
オフラインのメトリクスとオンラインのA/Bテストでは、一貫して強力なベースラインを上回ります。
論文 参考訳(メタデータ) (2025-05-07T13:54:26Z) - Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs [71.7892165868749]
LLM(Commercial Large Language Model) APIは基本的な信頼の問題を生み出します。
ユーザーは特定のモデルに課金するが、プロバイダが忠実に提供できることを保証することはない。
我々は,このモデル置換問題を定式化し,現実的な逆条件下での検出方法を評価する。
我々は,信頼された実行環境(TEE)を実用的で堅牢なソリューションとして使用し,評価する。
論文 参考訳(メタデータ) (2025-04-07T03:57:41Z) - Federated PCA and Estimation for Spiked Covariance Matrices: Optimal Rates and Efficient Algorithm [19.673557166734977]
フェデレートラーニング(FL)は、プライバシとデータセキュリティの強化により、機械学習において、近年大きな注目を集めている。
本稿では,分散差分プライバシー制約下でのフェデレーションPCAとスパイク共分散行列の推定について検討する。
我々は、集中サーバの最適レートがローカルクライアントのミニマックスレートの調和平均であることから、収束のミニマックスレートを確立する。
論文 参考訳(メタデータ) (2024-11-23T21:57:50Z) - SeBS-Flow: Benchmarking Serverless Cloud Function Workflows [51.4200085836966]
本稿では、最初のサーバーレスワークフローベンチマークスイートSeBS-Flowを提案する。
SeBS-Flowには6つの実世界のアプリケーションベンチマークと、異なる計算パターンを表す4つのマイクロベンチマークが含まれている。
当社では,パフォーマンス,コスト,スケーラビリティ,ランタイムの偏差など,3つの主要なクラウドプラットフォームに関する包括的な評価を実施しています。
論文 参考訳(メタデータ) (2024-10-04T14:52:18Z) - A Specialized Semismooth Newton Method for Kernel-Based Optimal
Transport [92.96250725599958]
カーネルベース最適輸送(OT)推定器は、サンプルからOT問題に対処するための代替的機能的推定手順を提供する。
SSN法は, 標準正規性条件下でのグローバル収束率$O (1/sqrtk)$, 局所二次収束率を達成できることを示す。
論文 参考訳(メタデータ) (2023-10-21T18:48:45Z) - Adaptive Federated Pruning in Hierarchical Wireless Networks [69.6417645730093]
Federated Learning(FL)は、サーバがプライベートデータセットにアクセスすることなく、複数のデバイスによって更新されたモデルを集約する、プライバシ保護の分散学習フレームワークである。
本稿では,無線ネットワークにおけるHFLのモデルプルーニングを導入し,ニューラルネットワークの規模を小さくする。
提案するHFLは,モデルプルーニングを伴わないHFLと比較して学習精度が良く,通信コストが約50%削減できることを示す。
論文 参考訳(メタデータ) (2023-05-15T22:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。