論文の概要: Predictive Autoscaling for Node.js on Kubernetes: Lower Latency, Right-Sized Capacity
- arxiv url: http://arxiv.org/abs/2604.19705v2
- Date: Wed, 22 Apr 2026 08:02:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:10.468297
- Title: Predictive Autoscaling for Node.js on Kubernetes: Lower Latency, Right-Sized Capacity
- Title(参考訳): Kubernetes上のNode.jsの予測自動スケーリング:低レイテンシ、右サイズの容量
- Authors: Ivan Tymoshenko, Luca Maraschi, Matteo Collina,
- Abstract要約: 新たなキャパシティの準備が整うまでに,負荷がどこにあるかを予測する,予測スケーリングアルゴリズムを提案する。
一方、KEDAは154ms、HPAは522msである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Kubernetes offers two default paths for scaling Nodejs workloads, and both have structural limitations. The Horizontal Pod Autoscaler scales on CPU utilization, which does not directly measure event loop saturation: a Node.js pod can queue requests and miss latency SLOs while CPU reports moderate usage. KEDA extends HPA with richer triggers, including event-loop metrics, but inherits the same reactive control loop, detecting overload only after it has begun. By the time new pods start and absorb traffic, the system may already be degraded. Lowering thresholds shifts the operating point but does not change the dynamic: the scaler still reacts to a value it has already crossed, at the cost of permanent over-provisioning. We propose a predictive scaling algorithm that forecasts where load will be by the time new capacity is ready and scales proactively based on that forecast. Per-instance metrics are corrupted by the scaler's own actions: adding an instance redistributes load and changes every metric, even if external traffic is unchanged. We observe that operating on a cluster-wide aggregate that is approximately invariant under scaling eliminates this feedback loop, producing a stable signal suitable for short-term extrapolation. We define a metric model (a set of three functions that encode how a specific metric relates to scaling) and a five-stage pipeline that transforms raw, irregularly-timed, partial metric data into a clean prediction signal. In benchmarks against HPA and KEDA under steady ramp and sudden spike, the algorithm keeps per-instance load near the target threshold throughout. Under the steady ramp, median latency is 26ms, compared to 154ms for KEDA and 522ms for HPA.
- Abstract(参考訳): Kubernetesは、Nodejsワークロードのスケーリングに2つのデフォルトパスを提供し、どちらも構造的な制限がある。
Horizontal Pod AutoscalerはCPU利用をスケールし、イベントループ飽和を直接測定しない。Node.jsポッドはリクエストをキューし、レイテンシSLOを見逃すことができるが、CPUは適度な使用を報告している。
KEDAは、イベントループメトリクスを含むよりリッチなトリガでHPAを拡張するが、同じリアクティブコントロールループを継承し、開始後のみオーバーロードを検出する。
新しいポッドがトラフィックを開始して吸収する頃には、システムは既に劣化している可能性がある。
閾値の低下はオペレーションポイントをシフトするが、動的に変化しない。スケーラは、既に渡した値に、恒久的なオーバープロビジョンのコストで反応する。
本稿では,新しいキャパシティの準備が整った時点で負荷がどこにあるかを予測し,その予測に基づいて積極的にスケールする予測スケーリングアルゴリズムを提案する。
インスタンスの追加は、外部トラフィックが変更されても、すべてのメトリックを再配布し、変更する。
クラスタ全体の集合をスケールでほぼ不変にすることで、このフィードバックループを排除し、短期的外挿に適した安定な信号を生成する。
パラメータモデル(特定のメトリックがスケーリングとどのように関係しているかを符号化する3つの関数の集合)と、生の、不規則な、部分的なメトリックデータをクリーンな予測信号に変換する5段階のパイプラインを定義する。
HPAとKEDAのベンチマークでは、安定な傾斜と急激なスパイクの下で、アルゴリズムは目標しきい値付近でインスタンスごとの負荷を抑える。
一方、KEDAは154ms、HPAは522msである。
関連論文リスト
- Neural Neural Scaling Laws [40.38002195911611]
我々は,時系列外挿としてスケール法則を予測するニューラルネットワークであるNeuNeu(NeuNeu)を提案する。
NeuNeuは66の下流タスクでモデル精度を予測する場合、2.04%の平均絶対誤差を達成している。
我々の研究は、データから直接下流のスケーリング法則を予測することはパラメトリックな代替法よりも優れていることを示唆している。
論文 参考訳(メタデータ) (2026-01-27T17:38:11Z) - Network-Optimised Spiking Neural Network for Event-Driven Networking [2.5941336499463383]
スパイキングニューラルネットワークは、異常検出、ローカルルーティング制御、エッジでの混雑管理など、時間クリティカルなネットワークタスクに適したイベント駆動型計算を提供する。
本稿では,正規化された待ち行列の占有状態と回復資源を符号化したコンパクトな2変数ユニットであるNetwork-Optimized Spiking (NOS)を紹介する。
我々は、データ駆動初期化、リセットシャープネスに基づくホモトピーによる代理段階トレーニング、リソース制約されたデプロイメントのための境界のトポロジによる明確な安定性チェックのガイダンスを提供する。
論文 参考訳(メタデータ) (2025-09-27T22:31:24Z) - SNAP-UQ: Self-supervised Next-Activation Prediction for Single-Pass Uncertainty in TinyML [0.0]
我々は、TinyMLのシングルパスラベルなし不確実性手法である textbfSNAP-UQ を導入する。
int8ヘッドは、前者の圧縮されたビューから次の層の統計を予測します。
この設計では、一時バッファ、補助出口、または繰り返しフォワードパスを必要とせず、MCUデプロイメントに数キロバイトの追加しか必要としない。
論文 参考訳(メタデータ) (2025-08-18T13:14:20Z) - $\texttt{SPECS}$: Faster Test-Time Scaling through Speculative Drafts [55.231201692232894]
$textttSPECS$は、投機的デコードにインスパイアされた遅延対応のテスト時間スケーリングメソッドである。
我々の結果は、$textttSPECS$matchはビームサーチの精度を上回り、最大$sim$19.1%のレイテンシを削減していることを示している。
論文 参考訳(メタデータ) (2025-06-15T05:50:05Z) - PreRoutGNN for Timing Prediction with Order Preserving Partition: Global
Circuit Pre-training, Local Delay Learning and Attentional Cell Modeling [84.34811206119619]
本稿では,事前のタイミング予測に対する2段階のアプローチを提案する。
まず、回路網リストからグローバルグラフ埋め込みを学習するグラフオートエンコーダを事前学習するためのグローバル回路トレーニングを提案する。
第2に、GCN上のメッセージパッシングのための新しいノード更新方式を、学習したグラフ埋め込みと回路グラフのトポロジ的ソートシーケンスに従って使用する。
21個の実世界の回路の実験では、スラック予測のための新しいSOTA R2が0.93で達成され、以前のSOTA法では0.59をはるかに上回っている。
論文 参考訳(メタデータ) (2024-02-27T02:23:07Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Predictive Auto-scaling with OpenStack Monasca [8.631793985356286]
近日中にシステムが進化すると予想される状況に基づいて,クラウドサービスを自動スケーリングするアーキテクチャを提案する。
私たちは、Monascaが提供するモニタリング機能に依存し、拡張するオープンソースコンポーネントとして、私たちのアプローチをプロトタイプにしました。
論文 参考訳(メタデータ) (2021-11-03T11:02:08Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z) - Superiority of Simplicity: A Lightweight Model for Network Device
Workload Prediction [58.98112070128482]
本稿では,歴史観測に基づく時系列予測のための軽量な解を提案する。
ニューラルネットワークと平均予測器という2つのモデルからなる異種アンサンブル法で構成されている。
利用可能なFedCSIS 2020チャレンジデータセットの総合的なR2$スコア0.10を達成している。
論文 参考訳(メタデータ) (2020-07-07T15:44:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。