論文の概要: ErrorPrism: Reconstructing Error Propagation Paths in Cloud Service Systems
- arxiv url: http://arxiv.org/abs/2509.26463v1
- Date: Tue, 30 Sep 2025 16:13:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.61546
- Title: ErrorPrism: Reconstructing Error Propagation Paths in Cloud Service Systems
- Title(参考訳): ErrorPrism: クラウドサービスにおけるエラー伝搬パスの再構築
- Authors: Junsong Pu, Yichen Li, Zhuangbin Chen, Jinyang Liu, Zhihan Jiang, Jianjun Chen, Rui Shi, Zibin Zheng, Tieying Zhang,
- Abstract要約: 実運用マイクロサービスシステムにおけるエラー伝搬経路の自動再構築であるErrorPrismを提案する。
ErrorPrismは、102の現実世界のエラーに対するパスの再構築において97.0%の精度を実現し、既存の静的解析やLLMベースのアプローチよりも優れている。
- 参考スコア(独自算出の注目度): 47.267532913327706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reliability management in cloud service systems is challenging due to the cascading effect of failures. Error wrapping, a practice prevalent in modern microservice development, enriches errors with context at each layer of the function call stack, constructing an error chain that describes a failure from its technical origin to its business impact. However, this also presents a significant traceability problem when recovering the complete error propagation path from the final log message back to its source. Existing approaches are ineffective at addressing this problem. To fill this gap, we present ErrorPrism in this work for automated reconstruction of error propagation paths in production microservice systems. ErrorPrism first performs static analysis on service code repositories to build a function call graph and map log strings to relevant candidate functions. This significantly reduces the path search space for subsequent analysis. Then, ErrorPrism employs an LLM agent to perform an iterative backward search to accurately reconstruct the complete, multi-hop error path. Evaluated on 67 production microservices at ByteDance, ErrorPrism achieves 97.0% accuracy in reconstructing paths for 102 real-world errors, outperforming existing static analysis and LLM-based approaches. ErrorPrism provides an effective and practical tool for root cause analysis in industrial microservice systems.
- Abstract(参考訳): 障害のカスケード効果のため、クラウドサービスシステムの信頼性管理は困難である。
現代的なマイクロサービス開発で一般的なError wrappingは、関数コールスタックの各レイヤにおけるコンテキストによるエラーを強化し、技術的起源からビジネスへの影響に至るまでの障害を記述したエラーチェーンを構築する。
しかし、これはまた、最終ログメッセージからソースへの完全なエラー伝搬パスを復元する際の重大なトレーサビリティの問題も示している。
既存のアプローチではこの問題に対処できない。
このギャップを埋めるために、本研究では、実運用マイクロサービスシステムにおけるエラー伝搬パスの自動再構築について、ErrorPrismを提示する。
ErrorPrismは、まずサービスコードリポジトリで静的解析を行い、関数コールグラフを構築し、ログ文字列を関連する候補関数にマップする。
これにより、その後の解析のための経路探索空間が大幅に減少する。
次に、ErrorPrismはLLMエージェントを使用して反復的な後方探索を行い、完全なマルチホップエラーパスを正確に再構築する。
ByteDanceで67のプロダクションマイクロサービスを評価すると、ErrorPrismは102の現実世界のエラーに対するパスの再構築において97.0%の精度を実現し、既存の静的分析とLLMベースのアプローチを上回っている。
ErrorPrismは、産業用マイクロサービスシステムにおいて、根本原因分析のための効果的かつ実用的なツールを提供する。
関連論文リスト
- Where LLM Agents Fail and How They can Learn From Failures [62.196870049524364]
大規模言語モデル(LLM)エージェントは、複雑なマルチステップタスクの解決において有望であることを示す。
単一ルート原因エラーがその後の決定を通じて伝播する、障害のカスケードに対する脆弱性を増幅する。
現在のシステムは、モジュール的で体系的な方法でエージェントエラーを包括的に理解できるフレームワークを欠いている。
AgentErrorTaxonomyは、メモリ、リフレクション、計画、アクション、システムレベルの操作にまたがる障害モードのモジュール分類である。
論文 参考訳(メタデータ) (2025-09-29T18:20:27Z) - LLM-Based Repair of Static Nullability Errors [14.857404348789201]
我々は、nullability Checkerからnullabilityエラーを解決するための構造化ワークフローにLLMを統合するシステムであるNullRepairを提案する。
NullRepairは、最先端のアノテーション推論技術を適用した後に残るエラーの平均72%を解決している。
NullRepair は、ナリープロップされた LLM とは異なり、プログラムのセマンティクスもほとんど保存している。
論文 参考訳(メタデータ) (2025-07-28T09:55:04Z) - Efficient Detection of Intermittent Job Failures Using Few-Shot Learning [2.8402080392117757]
数ショット学習を用いた断続的ジョブ故障検出のための新しい手法を提案する。
提案手法は70~88%のF1スコアを達成し,全プロジェクトで12ショットしか達成できず,SOTA(State-of-the-art)アプローチよりも優れていた。
論文 参考訳(メタデータ) (2025-07-05T22:04:01Z) - Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems [50.29939179830491]
LLMマルチエージェントシステムにおける障害帰属は、まだ調査が過小評価されており、労働集約的である。
本稿では,3つの自動故障帰属手法の開発と評価を行い,その欠点と欠点を要約する。
最良の方法は、障害に応答するエージェントを特定する際に53.5%の精度を達成するが、故障の特定には14.2%しか役に立たない。
論文 参考訳(メタデータ) (2025-04-30T23:09:44Z) - Teaching Your Models to Understand Code via Focal Preference Alignment [50.5876666815306]
既存の手法では、テストケースの成功率に基づいてn個の候補解が評価される。
このアプローチは、特定のエラーを特定するのではなく、失敗するコードブロック全体を整列するので、意味のあるエラーと訂正の関係を捉えるのに必要な粒度が欠けている。
我々は、人間の反復デバッグを模倣してコードLLMを洗練させる新しい優先順位調整フレームワークであるTarget-DPOを提案する。
論文 参考訳(メタデータ) (2025-03-04T16:56:34Z) - ROCODE: Integrating Backtracking Mechanism and Program Analysis in Large Language Models for Code Generation [31.363781211927947]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。
LLMはコード生成時にエラーの蓄積に影響を受けやすい。
コード生成のためのLLMにバックトラック機構とプログラム解析を統合したROCODEを提案する。
論文 参考訳(メタデータ) (2024-11-11T16:39:13Z) - REDO: Execution-Free Runtime Error Detection for COding Agents [3.9903610503301072]
Execution-free Error Detection for Coding Agents (REDO)は、実行時のエラーと静的解析ツールを統合する方法である。
我々はREDOが11.0%の精度と9.1%の重み付きF1スコアを達成し、最先端の手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2024-10-10T18:06:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。