論文の概要: Ekka: Automated Diagnosis of Silent Errors in LLM Inference
- arxiv url: http://arxiv.org/abs/2606.04594v1
- Date: Wed, 03 Jun 2026 08:32:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.631737
- Title: Ekka: Automated Diagnosis of Silent Errors in LLM Inference
- Title(参考訳): Ekka: LLM推論におけるサイレントエラーの自動診断
- Authors: Yile Gu, Zhen Zhang, Shaowei Zhu, Xinwei Fu, Jun Wu, Yida Wang, Baris Kasikci,
- Abstract要約: サイレントエラーの診断は、高レベルな症状と低レベルな根本原因との間に意味的なギャップがあるため、非常に難しい。
中間実行状態を体系的に整列し比較することにより根本原因を同定する自動診断システムであるEkkaを提案する。
Ekkaは80%のパス@1診断精度と88%のパス@5診断精度を示し、最先端システムを上回っている。
- 参考スコア(独自算出の注目度): 13.232208959993331
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM serving frameworks are quickly evolving with a complex software stack and a vast number of optimizations. The rapid development process can introduce silent errors where output quality silently degrades without any explicit error signals. Diagnosing silent errors is notoriously difficult due to the substantial semantic gap between the high-level symptoms and the low-level root causes. We observe that diagnosis of silent errors can be effectively framed as a differential debugging problem by leveraging the existence of semantically correct reference implementations. We propose Ekka, an automated diagnosis system that identifies root causes by systematically aligning and comparing intermediate execution states between a target and a reference framework. We constructed a benchmark of real-world silent errors from popular serving frameworks, where Ekka shows 80% pass@1 diagnosis accuracy and 88% pass@5 diagnosis accuracy, outperforming state-of-the-art systems. Ekka also diagnoses 4 new silent errors from serving frameworks, all of which have been confirmed by the developers.
- Abstract(参考訳): LLMサービスフレームワークは、複雑なソフトウェアスタックと膨大な数の最適化によって急速に進化しています。
迅速な開発プロセスでは、明示的なエラー信号なしで出力品質が静かに劣化するサイレントエラーを導入することができる。
サイレントエラーの診断は、高レベルな症状と低レベルな根本原因との間に意味的なギャップがあるため、非常に難しい。
我々は,意味論的に正しい参照実装の存在を利用して,サイレントエラーの診断をディファレンシャルデバッギング問題として効果的に行うことができることを観察した。
対象と参照フレームワーク間の中間実行状態を体系的に整列し,比較することにより,根本原因を同定する自動診断システムであるEkkaを提案する。
Ekkaは80%パス@1の診断精度と88%パス@5の診断精度を示し、最先端のシステムよりも優れています。
Ekkaはまた、4つの新しいサイレントエラーをサービスフレームワークから診断する。
関連論文リスト
- Proactive for Uncertainty: Cause-Aware Error Diagnosis and Interactive Clarification for Spoken Dialogue Systems [40.265250435329456]
本稿では,SDSにおけるロバスト性を根本的に再考する原因認識型エラー回復パラダイムを提案する。
従来の信頼度フィルタリングとは異なり、我々は小さな精度に焦点を絞った検出器群を導入している。
この微細な診断知能は、LLMがターゲットとするマルチターンの明確化戦略を編成する権限を与える。
論文 参考訳(メタデータ) (2026-05-25T03:57:38Z) - Towards Self-Improving Error Diagnosis in Multi-Agent Systems [31.04613892300063]
セマンティック障害帰属のための自己改善フレームワークであるErrorProbeを紹介する。
ErrorProbeは、責任あるエージェントと発生したエラーステップを特定する。
検証されたエピソードメモリを維持しており、実行可能証拠によってエラーパターンが確認された場合にのみ更新される。
論文 参考訳(メタデータ) (2026-04-19T23:13:05Z) - Kunlun Anomaly Troubleshooter: Enabling Kernel-Level Anomaly Detection and Causal Reasoning for Large Model Distributed Inference [15.448826510384302]
大規模モデル分散推論(LMDI)の異常なトラブルシューティングは依然として重要な課題である。
LMDIに適した最初の異常トラブルシューティングフレームワークであるKunlun Anomaly Troubleshooter(KAT)を紹介する。
論文 参考訳(メタデータ) (2025-11-08T11:53:08Z) - InspectCoder: Dynamic Analysis-Enabled Self Repair through interactive LLM-Debugger Collaboration [71.18377595277018]
大きな言語モデル(LLM)は、診断が難しい複雑なロジックエラーを伴うバグの多いコードを生成することが多い。
対話型デバッガ制御による動的解析を LLM に委ねる初のエージェントプログラム修復システムである InspectCoder を提案する。
論文 参考訳(メタデータ) (2025-10-21T06:26:29Z) - Where LLM Agents Fail and How They can Learn From Failures [62.196870049524364]
大規模言語モデル(LLM)エージェントは、複雑なマルチステップタスクの解決において有望であることを示す。
単一ルート原因エラーがその後の決定を通じて伝播する、障害のカスケードに対する脆弱性を増幅する。
現在のシステムは、モジュール的で体系的な方法でエージェントエラーを包括的に理解できるフレームワークを欠いている。
AgentErrorTaxonomyは、メモリ、リフレクション、計画、アクション、システムレベルの操作にまたがる障害モードのモジュール分類である。
論文 参考訳(メタデータ) (2025-09-29T18:20:27Z) - Towards Automated Error Discovery: A Study in Conversational AI [48.735443116662026]
本稿では,会話型AIにおけるエラーの検出と定義のためのフレームワークであるAutomated Error Discoveryを紹介する。
また,その実装に対するエンコーダに基づくアプローチとして,SEEED(Soft Clustering Extended-Based Error Detection)を提案する。
論文 参考訳(メタデータ) (2025-09-13T14:53:22Z) - GALA: Can Graph-Augmented Large Language Model Agentic Workflows Elevate Root Cause Analysis? [9.394057684388027]
本稿では,マイクロサービスシステムにおける根本原因分析の新しいフレームワークであるGALAを紹介する。
GALAはオープンソースのベンチマークで評価され、最先端のメソッドよりも大幅に改善されている。
GALAは自動故障診断と実用的なインシデント解決のギャップを埋めることを示す。
論文 参考訳(メタデータ) (2025-08-17T19:12:05Z) - Hide and Seek with LLMs: An Adversarial Game for Sneaky Error Generation and Self-Improving Diagnosis [51.88592148135258]
本稿では,エラー生成と診断のための動的対向フレームワークであるHie and Seek Game (HSG)を提案する。
HSGには2つの敵対的役割がある: Sneakyは、微妙で偽りの推論エラーを発生させることで「隠す」ことと、それらを正確に検出するために「探す」診断である。
いくつかの数学推論タスクの実験では、HSGはエラー診断を著しく向上し、GPT-4oのようなベースラインよりも16.8%--31.4%高い精度を達成している。
論文 参考訳(メタデータ) (2025-08-05T12:45:21Z) - Causal Disentanglement Hidden Markov Model for Fault Diagnosis [55.90917958154425]
本研究では, 軸受破壊機構の因果性を学ぶために, 因果解離隠れマルコフモデル (CDHM) を提案する。
具体的には、時系列データをフル活用し、振動信号を断層関連要因と断層関連要因に段階的に分解する。
アプリケーションの範囲を広げるために、学習された非絡み合った表現を他の作業環境に転送するために、教師なしのドメイン適応を採用する。
論文 参考訳(メタデータ) (2023-08-06T05:58:45Z) - Understanding Factual Errors in Summarization: Errors, Summarizers,
Datasets, Error Detectors [105.12462629663757]
本研究では、既存の9つのデータセットから事実性エラーアノテーションを集約し、基礎となる要約モデルに従ってそれらを階層化する。
本稿では,この階層化ベンチマークにおいて,最近のChatGPTベースの指標を含む最先端の事実性指標の性能を比較し,その性能が様々な種類の要約モデルで大きく異なることを示す。
論文 参考訳(メタデータ) (2022-05-25T15:26:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。