論文の概要: Scaling Mobile Chaos Testing with AI-Driven Test Execution
- arxiv url: http://arxiv.org/abs/2602.06223v1
- Date: Thu, 05 Feb 2026 22:01:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.126671
- Title: Scaling Mobile Chaos Testing with AI-Driven Test Execution
- Title(参考訳): AI駆動テスト実行によるモバイルカオステストのスケールアップ
- Authors: Juan Marcano, Ashish Samant, Kai Song, Lingchao Chen, Kaelan Mikowicz, Tim Smyth, Mengdie Zhang, Ali Zamani, Arturo Bravo Rovirosa, Sowjanya Puligadda, Srikanth Prodduturi, Mayank Bansal,
- Abstract要約: 大規模分散システムのモバイルアプリケーションは、バックエンドのサービス障害の影響を受けやすい。
従来のカオスエンジニアリングアプローチでは,フローやロケーション,障害シナリオの爆発によるモバイルテストのスケールアップは不可能だ。
LLMベースのモバイルテストプラットフォームであるDragonCrawlとサービスレベルの障害注入システムであるuHavocを統合した,自動モバイルカオステストシステムを提案する。
- 参考スコア(独自算出の注目度): 2.7786234871633995
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mobile applications in large-scale distributed systems are susceptible to backend service failures, yet traditional chaos engineering approaches cannot scale mobile testing due to the combinatorial explosion of flows, locations, and failure scenarios that need validation. We present an automated mobile chaos testing system that integrates DragonCrawl, an LLM-based mobile testing platform, with uHavoc, a service-level fault injection system. The key insight is that adaptive AI-driven test execution can navigate mobile applications under degraded backend conditions, eliminating the need to manually write test cases for each combination of user flow, city, and failure type. Since Q1 2024, our system has executed over 180,000 automated chaos tests across 47 critical flows in Uber's Rider, Driver, and Eats applications, representing approximately 39,000 hours of manual testing effort that would be impractical at this scale. We identified 23 resilience risks, with 70% being architectural dependency violations where non-critical service failures degraded core user flows. Twelve issues were severe enough to prevent trip requests or food orders. Two caused application crashes detectable only through mobile chaos testing, not backend testing alone. Automated root cause analysis reduced debugging time from hours to minutes, achieving 88% precision@5 in attributing mobile failures to specific backend services. This paper presents the system design, evaluates its performance under fault injection (maintaining 99% test reliability), and reports operational experience demonstrating that continuous mobile resilience validation is achievable at production scale.
- Abstract(参考訳): 大規模な分散システムのモバイルアプリケーションは、バックエンドのサービス障害の影響を受けやすいが、従来のカオスエンジニアリングアプローチでは、バリデーションを必要とするフローやロケーション、障害シナリオの組合せによるモバイルテストのスケールアップが不可能である。
LLMベースのモバイルテストプラットフォームであるDragonCrawlとサービスレベルの障害注入システムであるuHavocを統合した,自動モバイルカオステストシステムを提案する。
重要な洞察は、アダプティブAI駆動のテスト実行は、劣化したバックエンド条件下でモバイルアプリケーションをナビゲートし、ユーザフロー、都市、障害タイプの組み合わせ毎に手動でテストケースを記述する必要をなくすことである。
2024年の第1四半期以降、当社のシステムは、UberのRider, Driver, Eatsアプリケーションにおいて、47のクリティカルフローにまたがる180,000以上の自動カオステストを実行しています。
私たちは23のレジリエンスリスクを特定しました。70%はアーキテクチャ上の依存関係違反で、非クリティカルなサービス障害がコアユーザフローを低下させていました。
12の問題は、旅行の要求や食料の注文を防ぐのに十分なものだった。
2つの原因となったアプリケーションのクラッシュは、バックエンドテストのみではなく、モバイルカオステストによってのみ検出できる。
自動ルート原因分析は、デバッグ時間を数時間から数分に短縮し、特定のバックエンドサービスにモバイル障害を帰属させることで88%の精度@5を達成した。
本稿では, システム設計を行い, 故障注入時の性能(テスト信頼性99%)を評価し, 連続的なモバイルレジリエンス検証が実運用規模で実現可能であることを示す運用経験を報告する。
関連論文リスト
- Cast: Automated Resilience Testing for Production Cloud Service Systems [38.54479293660192]
Castはマイクロサービスのレジリエンスを本番環境でテストするための、エンドツーエンドの自動化フレームワークです。
アプリケーションレベルの障害の包括的なライブラリに対して、プロダクショントラフィックを再生することで、高いテスト忠実性を達成する。
Castは、レジリエンスの脆弱性に積極的に対処するために、多くのサービスチームによって採用されている。
論文 参考訳(メタデータ) (2026-02-01T02:29:25Z) - Predicting Intermittent Job Failure Categories for Diagnosis Using Few-Shot Fine-Tuned Language Models [1.2744523252873348]
FlaXifyerは、事前訓練された言語モデルを使用して、間欠的なジョブ失敗カテゴリを予測するための、数ショットの学習アプローチである。
LogSiftは、影響力のあるログステートメントを1秒未満で識別する、解釈可能性技術である。
TELUSによる2,458件のジョブ障害の評価は、FraXifyerとLogSiftが効果的な自動トリアージを可能にし、障害診断を加速し、断続的なジョブ障害の自動解決への道を開くことを実証している。
論文 参考訳(メタデータ) (2026-01-29T19:34:34Z) - Misbehavior Forecasting for Focused Autonomous Driving Systems Testing [2.7733556309376692]
既存のバグフィニング技術は信頼性が低いか高価なかのどちらかだ。
本稿では,誤動作予測器を用いて近距離ミスを識別する手法であるForeseeを提案する。
フォアシーは、これまで未知の障害に遭遇した候補者の近辺で、局所的なファジッシングを行う。
論文 参考訳(メタデータ) (2025-12-21T17:17:49Z) - An Automated Blackbox Noncompliance Checker for QUIC Server Implementations [2.9248916859490173]
QUICtesterは、承認されたQUICプロトコル実装(RFC 9000/)における非準拠の動作を明らかにするための自動化アプローチである。
我々はQUICtesterを用いて、19のQUIC実装から得られた186個の学習モデルを5つのセキュリティ設定で解析し、55個の実装エラーを発見した。
論文 参考訳(メタデータ) (2025-05-19T04:28:49Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - Systemic Flakiness: An Empirical Analysis of Co-Occurring Flaky Test Failures [6.824747267214373]
不安定なテストは、コードの変更なしに一貫性のない結果をもたらす。
開発者は、毎月2250ドル(約2万5000円)の費用で、不気味なテストの修理に1.28%を費やしている。
フラキーテストは、しばしばクラスタ内に存在し、同じ根本原因を共有する共起失敗は、系統的なフレキネス(systemic flakiness)と呼ばれる。
論文 参考訳(メタデータ) (2025-04-23T14:51:23Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z) - AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。
以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文 参考訳(メタデータ) (2024-11-02T13:24:30Z) - Neural Embeddings for Web Testing [49.66745368789056]
既存のクローラは、状態等価性を評価するために、アプリ固有のしきい値ベースのアルゴリズムに依存している。
ニューラルネットワークの埋め込みとしきい値のない分類器に基づく新しい抽象関数WEBEMBEDを提案する。
WEBEMBEDは,9つのWebアプリケーションに対する評価の結果,近距離検出により最先端技術よりも精度が高いことがわかった。
論文 参考訳(メタデータ) (2023-06-12T19:59:36Z) - SUPERNOVA: Automating Test Selection and Defect Prevention in AAA Video
Games Using Risk Based Testing and Machine Learning [62.997667081978825]
従来の手法では、成長するソフトウェアシステムではスケールできないため、ビデオゲームのテストはますます難しいタスクになります。
自動化ハブとして機能しながら,テスト選択と欠陥防止を行うシステム SUPERNOVA を提案する。
この直接的な影響は、未公表のスポーツゲームタイトルの55%以上のテスト時間を減らすことが観察されている。
論文 参考訳(メタデータ) (2022-03-10T00:47:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。