論文の概要: RetryGuard: Preventing Self-Inflicted Retry Storms in Cloud Microservices Applications
- arxiv url: http://arxiv.org/abs/2511.23278v1
- Date: Fri, 28 Nov 2025 15:31:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.964218
- Title: RetryGuard: Preventing Self-Inflicted Retry Storms in Cloud Microservices Applications
- Title(参考訳): RetryGuard: クラウドネイティブアプリケーションにおける自己導入型リトライストーミングの防止
- Authors: Jhonatan Tavori, Anat Bremler-Barr, Hanoch Levy, Ofek Lavi,
- Abstract要約: RetryGuardは、相互依存サービス間でリトライパターンを生産的に制御するための分散フレームワークである。
RetryGuardは、AWS標準や高度なリトライポリシと比較して、リソース使用量やコストを大幅に削減します。
- 参考スコア(独自算出の注目度): 7.18640054120351
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern cloud applications are built on independent, diverse microservices, offering scalability, flexibility, and usage-based billing. However, the structural design of these varied services, along with their reliance on auto-scalers for dynamic internet traffic, introduces significant coordination challenges. As we demonstrate in this paper, common default retry patterns used between misaligned services can turn into retry storms which drive up resource usage and costs, leading to self-inflicted Denial-of-Wallet (DoW) scenarios. To overcome these problems we introduce RetryGuard, a distributed framework for productive control of retry patterns across interdependent microservices. By managing retry policy on a per-service basis and making parallel decisions, RetryGuard prevents retry storms, curbs resource contention, and mitigates escalating operational costs. RetryGuard makes its decisions based on an analytic model that captures the relationships among retries, throughput (rejections), delays, and costs. Experimental results show that RetryGuard significantly reduces resource usage and costs compared to AWS standard and advanced retry policies. We further demonstrate its scalability and superior performance in a more complex Kubernetes deployment with the Istio service mesh, where it achieves substantial improvements.
- Abstract(参考訳): 現代的なクラウドアプリケーションは、独立して多様なマイクロサービス上に構築されており、スケーラビリティ、柔軟性、使用量ベースの課金を提供する。
しかし、これらの様々なサービスの構造設計は、動的インターネットトラフィックのためのオートスケーラに依存するとともに、大きな調整課題をもたらす。
この論文で示すように、不整合サービス間で使用される一般的なデフォルトのリトライパターンは、リソース使用量とコストを上昇させるリトライストームとなり、自己導入型のDenial-of-Wallet(DoW)シナリオにつながります。
RetryGuardは、相互依存マイクロサービス間のリトライパターンを生産的に制御するための分散フレームワークである。
RetryGuardは、サービス単位のリトライポリシを管理し、並列決定を行うことで、リトライの嵐を防ぎ、リソース競合を抑制し、運用コストの増大を軽減します。
RetryGuardは、リトライ、スループット(リジェクション)、遅延、コストの関係をキャプチャする分析モデルに基づいて、その決定を行う。
実験の結果、RetryGuardはAWS標準や高度なリトライポリシと比較して、リソース使用量とコストを大幅に削減している。
さらに私たちは、Istioサービスメッシュによるより複雑なKubernetesデプロイメントにおいて、そのスケーラビリティと優れたパフォーマンスを実証しています。
関連論文リスト
- Cost-Aware Contrastive Routing for LLMs [57.30288453580456]
我々は、プロンプトとモデルの両方を共有埋め込み空間にマッピングする軽量フレームワークであるコストスペクトルコントラストルーティング(CSCR)を紹介します。
CSCRはベースラインを一貫して上回り、精度とコストのトレードオフを最大25%改善した。
論文 参考訳(メタデータ) (2025-08-17T20:16:44Z) - Leveraging Interpretability in the Transformer to Automate the Proactive Scaling of Cloud Resources [1.1470070927586018]
我々は、エンドツーエンドのレイテンシ、フロントエンドレベルの要求、リソース利用の関係をキャプチャするモデルを開発する。
次に、開発したモデルを使用して、エンドツーエンドのレイテンシを予測します。
マイクロサービスベースのアプリケーションのメリットを示し、デプロイメントのロードマップを提供します。
論文 参考訳(メタデータ) (2024-09-04T22:03:07Z) - URegM: a unified prediction model of resource consumption for
refactoring software smells in open source cloud [3.9704849108478704]
我々は、コードの臭いがクラウドリソースの利用に与える影響を予測する、Unified Regression Modelling (URegM) というフレームワークを提案する。
その結果,URegMはコードの臭いによる資源消費を正確に予測できることがわかった。
論文 参考訳(メタデータ) (2023-10-22T23:03:35Z) - FIRE: A Failure-Adaptive Reinforcement Learning Framework for Edge Computing Migrations [54.34189781923818]
FIREは、エッジコンピューティングのディジタルツイン環境でRLポリシーをトレーニングすることで、まれなイベントに適応するフレームワークである。
ImREは重要なサンプリングに基づくQ-ラーニングアルゴリズムであり、希少事象をその値関数への影響に比例してサンプリングする。
FIREは故障時にバニラRLやグリーディベースラインと比較してコストを削減できることを示す。
論文 参考訳(メタデータ) (2022-09-28T19:49:39Z) - Model-based Reinforcement Learning for Service Mesh Fault Resiliency in
a Web Application-level [0.7519872646378836]
サービスメッシュのフォールトレジリエンスに対するモデルベース強化学習ワークフローを提案する。
我々のアプローチは、Webアプリケーションレベルで最も重要なフォールトレジリエンス動作の予測を可能にします。
論文 参考訳(メタデータ) (2021-10-21T23:30:40Z) - Utilizing Redundancy in Cost Functions for Resilience in Distributed
Optimization and Learning [1.8414221462731502]
本稿では,サーバアーキテクチャにおけるレジリエントな分散最適化と機械学習の問題について考察する。
システムはサーバと複数のエージェントから構成され、各エージェントはローカルなコスト関数を持つ。
エージェントのいくつかが非同期で、/またはビザンティンの欠陥がある場合を考えます。
論文 参考訳(メタデータ) (2021-10-21T02:41:19Z) - Structure-aware reinforcement learning for node-overload protection in
mobile edge computing [3.3865605512957457]
本研究は,エッジノードの過負荷を防止するための適応型入出力制御ポリシーを提案する。
このフレームワークは,ノードオーバーロード保護問題に対して,割引価格設定で動作するように拡張する。
実験により, SALMUTにより得られた全割引コストは, 最先端の深部RLアルゴリズムに類似していることが判明した。
論文 参考訳(メタデータ) (2021-06-29T18:11:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。