論文の概要: Serverless GPU Architecture for Enterprise HR Analytics: A Production-Scale BDaaS Implementation
- arxiv url: http://arxiv.org/abs/2510.19689v1
- Date: Wed, 22 Oct 2025 15:37:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:16.033359
- Title: Serverless GPU Architecture for Enterprise HR Analytics: A Production-Scale BDaaS Implementation
- Title(参考訳): エンタープライズHR分析のためのサーバレスGPUアーキテクチャ:プロダクションスケールのBDaaS実装
- Authors: Guilin Zhang, Wulan Guo, Ziqi Tan, Srinivas Vippagunta, Suchitra Raman, Shreeshankar Chatterjee, Ju Lin, Shang Liu, Mary Schladenhauffen, Jeffrey Luo, Hailong Jiang,
- Abstract要約: 単一ノードのサーバレスGPUランタイムをTabNetに統合する,プロダクション指向のBig Data as a Service (BD) ブループリントを提案する。
HR、アダルト、BLSデータセット上でベンチマークを行い、SparkとCPUベースラインに対するアプローチを比較します。
以上の結果から,GPUパイプラインはSparkベースラインに比べて最大4.5倍高いスループット,98倍のレイテンシ,1K推論あたりのコスト90%の削減を実現している。
- 参考スコア(独自算出の注目度): 6.240627892585199
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Industrial and government organizations increasingly depend on data-driven analytics for workforce, finance, and regulated decision processes, where timeliness, cost efficiency, and compliance are critical. Distributed frameworks such as Spark and Flink remain effective for massive-scale batch or streaming analytics but introduce coordination complexity and auditing overheads that misalign with moderate-scale, latency-sensitive inference. Meanwhile, cloud providers now offer serverless GPUs, and models such as TabNet enable interpretable tabular ML, motivating new deployment blueprints for regulated environments. In this paper, we present a production-oriented Big Data as a Service (BDaaS) blueprint that integrates a single-node serverless GPU runtime with TabNet. The design leverages GPU acceleration for throughput, serverless elasticity for cost reduction, and feature-mask interpretability for IL4/FIPS compliance. We conduct benchmarks on the HR, Adult, and BLS datasets, comparing our approach against Spark and CPU baselines. Our results show that GPU pipelines achieve up to 4.5x higher throughput, 98x lower latency, and 90% lower cost per 1K inferences compared to Spark baselines, while compliance mechanisms add only ~5.7 ms latency with p99 < 22 ms. Interpretability remains stable under peak load, ensuring reliable auditability. Taken together, these findings provide a compliance-aware benchmark, a reproducible Helm-packaged blueprint, and a decision framework that demonstrate the practicality of secure, interpretable, and cost-efficient serverless GPU analytics for regulated enterprise and government settings.
- Abstract(参考訳): 産業や政府の組織は、労働、財務、規制された意思決定プロセスのためのデータ駆動分析にますます依存しており、タイムライン、コスト効率、コンプライアンスが重要になっている。
SparkやFlinkといった分散フレームワークは、大規模なバッチやストリーミング分析には有効だが、調整の複雑さや、中規模でレイテンシに敏感な推論と不一致なオーバヘッドを導入している。
一方、クラウドプロバイダはサーバレスGPUを提供し、TabNetなどのモデルは解釈可能な表型MLを可能にし、規制された環境のための新しいデプロイメントブループリントを動機付けている。
本稿では,単一ノードのサーバレスGPUランタイムをTabNetに統合した,プロダクション指向のビッグデータ・アズ・ア・サービス(BDaaS)のブループリントを提案する。
この設計では、スループットのためのGPUアクセラレーション、コスト削減のためのサーバレス弾力性、IL4/FIPS準拠のためのフィーチャーマスク解釈性を活用している。
HR、アダルト、BLSデータセット上でベンチマークを行い、SparkとCPUベースラインに対するアプローチを比較します。
結果から,GPUパイプラインはSparkベースラインと比較して最大4.5倍のスループット,98倍のレイテンシ,1K推論あたりのコストの90%削減を実現している。
まとめると、これらの発見はコンプライアンスを意識したベンチマーク、再現可能なHelmパッケージングブループリント、および規制された企業および政府設定のためのセキュアで解釈可能でコスト効率の高いサーバレスGPU分析の実用性を示す決定フレームワークを提供する。
関連論文リスト
- Metrics and evaluations for computational and sustainable AI efficiency [26.52588349722099]
現在のアプローチでは全体像の提供に失敗し、システムの比較と最適化が難しい。
本稿では,計算および環境メトリクスを統合するAIモデル推論のための統一的再現可能な方法論を提案する。
本フレームワークは, 遅延を系統的に測定し, スループット, エネルギー消費, 位置調整二酸化炭素排出量を計測することにより, 実用的で炭素を意識した評価を行う。
論文 参考訳(メタデータ) (2025-10-18T03:30:15Z) - RepoForge: Training a SOTA Fast-thinking SWE Agent with an End-to-End Data Curation Pipeline Synergizing SFT and RL at Scale [15.199441664697988]
トレーニングソフトウェアエンジニアリング(SWE) LLMは、高価なインフラストラクチャ、非効率な評価パイプライン、少ないトレーニングデータ、高価な品質管理によってボトルネックになっている。
本稿では,SWEエージェントを大規模に生成し,評価し,訓練する,自律的なエンドツーエンドパイプラインであるRepoForgeを紹介する。
論文 参考訳(メタデータ) (2025-08-03T02:34:16Z) - The Larger the Merrier? Efficient Large AI Model Inference in Wireless Edge Networks [56.37880529653111]
大規模計算モデル(LAIM)サービスの需要は、従来のクラウドベースの推論から、低レイテンシでプライバシ保護のアプリケーションのためのエッジベースの推論へのパラダイムシフトを推進している。
本稿では,事前学習したLAIMをデバイス上のサブモデルとサーバ上のサブモデルに分割して配置するLAIM推論方式について検討する。
論文 参考訳(メタデータ) (2025-05-14T08:18:55Z) - LONGER: Scaling Up Long Sequence Modeling in Industrial Recommenders [23.70714095931094]
GPU効率の良いリコメンダのための長時間最適化されたtraNsformer。
オフラインのメトリクスとオンラインのA/Bテストでは、一貫して強力なベースラインを上回ります。
論文 参考訳(メタデータ) (2025-05-07T13:54:26Z) - Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs [71.7892165868749]
LLM(Commercial Large Language Model) APIは基本的な信頼の問題を生み出します。
ユーザーは特定のモデルに課金するが、プロバイダが忠実に提供できることを保証することはない。
我々は,このモデル置換問題を定式化し,現実的な逆条件下での検出方法を評価する。
我々は,信頼された実行環境(TEE)を実用的で堅牢なソリューションとして使用し,評価する。
論文 参考訳(メタデータ) (2025-04-07T03:57:41Z) - Federated PCA and Estimation for Spiked Covariance Matrices: Optimal Rates and Efficient Algorithm [19.673557166734977]
フェデレートラーニング(FL)は、プライバシとデータセキュリティの強化により、機械学習において、近年大きな注目を集めている。
本稿では,分散差分プライバシー制約下でのフェデレーションPCAとスパイク共分散行列の推定について検討する。
我々は、集中サーバの最適レートがローカルクライアントのミニマックスレートの調和平均であることから、収束のミニマックスレートを確立する。
論文 参考訳(メタデータ) (2024-11-23T21:57:50Z) - SeBS-Flow: Benchmarking Serverless Cloud Function Workflows [51.4200085836966]
本稿では、最初のサーバーレスワークフローベンチマークスイートSeBS-Flowを提案する。
SeBS-Flowには6つの実世界のアプリケーションベンチマークと、異なる計算パターンを表す4つのマイクロベンチマークが含まれている。
当社では,パフォーマンス,コスト,スケーラビリティ,ランタイムの偏差など,3つの主要なクラウドプラットフォームに関する包括的な評価を実施しています。
論文 参考訳(メタデータ) (2024-10-04T14:52:18Z) - Adaptive Federated Pruning in Hierarchical Wireless Networks [69.6417645730093]
Federated Learning(FL)は、サーバがプライベートデータセットにアクセスすることなく、複数のデバイスによって更新されたモデルを集約する、プライバシ保護の分散学習フレームワークである。
本稿では,無線ネットワークにおけるHFLのモデルプルーニングを導入し,ニューラルネットワークの規模を小さくする。
提案するHFLは,モデルプルーニングを伴わないHFLと比較して学習精度が良く,通信コストが約50%削減できることを示す。
論文 参考訳(メタデータ) (2023-05-15T22:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。