論文の概要: Walk the Talk: Is Your Log-based Software Reliability Maintenance System Really Reliable?
- arxiv url: http://arxiv.org/abs/2509.24352v1
- Date: Mon, 29 Sep 2025 06:52:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.797773
- Title: Walk the Talk: Is Your Log-based Software Reliability Maintenance System Really Reliable?
- Title(参考訳): Walk the Talk:あなたのログベースのソフトウェア信頼性メンテナンスシステムは本当に信頼性があるか?
- Authors: Minghua He, Tong Jia, Chiming Duan, Pei Xiao, Lingzhe Zhang, Kangjin Wang, Yifan Wu, Ying Li, Gang Huang,
- Abstract要約: 本稿では、サービス提供者の信頼を得るためのモデルに対する信頼性基準、診断忠実度を定義する。
本稿では,忠実なログに基づく異常検出システムであるFaithLogを提案する。
- 参考スコア(独自算出の注目度): 18.587739647424716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Log-based software reliability maintenance systems are crucial for sustaining stable customer experience. However, existing deep learning-based methods represent a black box for service providers, making it impossible for providers to understand how these methods detect anomalies, thereby hindering trust and deployment in real production environments. To address this issue, this paper defines a trustworthiness metric, diagnostic faithfulness, for models to gain service providers' trust, based on surveys of SREs at a major cloud provider. We design two evaluation tasks: attention-based root cause localization and event perturbation. Empirical studies demonstrate that existing methods perform poorly in diagnostic faithfulness. Consequently, we propose FaithLog, a faithful log-based anomaly detection system, which achieves faithfulness through a carefully designed causality-guided attention mechanism and adversarial consistency learning. Evaluation results on two public datasets and one industrial dataset demonstrate that the proposed method achieves state-of-the-art performance in diagnostic faithfulness.
- Abstract(参考訳): ログベースのソフトウェア信頼性維持システムは、安定した顧客エクスペリエンスを維持するために不可欠である。
しかし、既存のディープラーニングベースのメソッドはサービスプロバイダにとってブラックボックスであり、これらのメソッドが異常を検出する方法を理解することは不可能であり、実際の運用環境での信頼性とデプロイメントを妨げる。
本稿では,大手クラウドプロバイダにおけるSREの調査に基づいて,サービス提供者の信頼を得るためのモデルの信頼性基準,診断忠実度を定義する。
我々は注意に基づく根本原因の局所化とイベント摂動の2つの評価タスクを設計する。
実証的研究は、既存の方法が診断の忠実性において不十分であることを示した。
その結果,忠実なログに基づく異常検出システムであるFaithLogを提案する。
2つの公開データセットと1つの産業データセットによる評価結果から,本手法が診断忠実度において最先端の性能を達成することを示す。
関連論文リスト
- Towards Reliable Medical LLMs: Benchmarking and Enhancing Confidence Estimation of Large Language Models in Medical Consultation [97.36081721024728]
本稿では,現実的な医療相談におけるマルチターンインタラクションの信頼性を評価するための最初のベンチマークを提案する。
本ベンチマークでは,3種類の医療データを統合し,診断を行う。
本稿では,エビデンスを基盤とした言語自己評価フレームワークであるMedConfを紹介する。
論文 参考訳(メタデータ) (2026-01-22T04:51:39Z) - Why Does the LLM Stop Computing: An Empirical Study of User-Reported Failures in Open-Source LLMs [50.075587392477935]
オープンソースのDeepSeek、Llama、Qwenのエコシステムから、705の現実世界の失敗に関する大規模な実証的研究を行った。
ホワイトボックスオーケストレーションは、モデルアルゴリズムの欠陥からデプロイメントスタックのシステム的脆弱性へと、信頼性のボトルネックを移動させます。
論文 参考訳(メタデータ) (2026-01-20T06:42:56Z) - Reliable and Reproducible Demographic Inference for Fairness in Face Analysis [63.46525489354455]
本稿では、従来のエンドツーエンドトレーニングをモジュラートランスファー学習アプローチで置き換える、完全に再現可能なDAIパイプラインを提案する。
このパイプラインは、正確性、公正性、そしてアイデンティティ内整合性によって定義される、新たに導入された堅牢性の概念の3つの次元にわたって監査する。
以上の結果から,提案手法は特に民族性において,強い基準線を上回り,その特性はより困難であることが示唆された。
論文 参考訳(メタデータ) (2025-10-23T12:22:02Z) - RationAnomaly: Log Anomaly Detection with Rationality via Chain-of-Thought and Reinforcement Learning [27.235259453535537]
RationAnomalyは、Chain-of-Thoughtファインチューニングと強化学習を相乗化することにより、ログの異常検出を強化する新しいフレームワークである。
コードとデータセットを含む、対応するリソースをリリースしました。
論文 参考訳(メタデータ) (2025-09-18T07:35:58Z) - Aurora: Are Android Malware Classifiers Reliable and Stable under Distribution Shift? [51.12297424766236]
AURORAは、その信頼性と運用上のレジリエンスに基づいて、マルウェア分類器を評価するためのフレームワークである。
AURORAは、ポイント・イン・タイムのパフォーマンスを超えるように設計されたメトリクスのセットによって補完される。
さまざまなドリフトのデータセットにわたるSOTAフレームワークの脆弱性は、ホワイトボードへの復帰の必要性を示唆している。
論文 参考訳(メタデータ) (2025-05-28T20:22:43Z) - Advancing Embodied Agent Security: From Safety Benchmarks to Input Moderation [52.83870601473094]
エンボディード・エージェントは、複数のドメインにまたがって大きな潜在能力を示す。
既存の研究は主に、一般的な大言語モデルのセキュリティに重点を置いている。
本稿では, エンボディエージェントの保護を目的とした新しい入力モデレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-22T08:34:35Z) - Trustworthiness for an Ultra-Wideband Localization Service [2.4979362117484714]
本稿では,超広帯域自己ローカライゼーションのための総合的信頼性評価フレームワークを提案する。
我々の目標は、客観的な証拠に基づいてシステムの信頼性を評価するためのガイダンスを提供することである。
我々のアプローチは、結果の信頼性指標が、選択された現実世界の脅威に対応することを保証します。
論文 参考訳(メタデータ) (2024-08-10T11:57:10Z) - A Holistic Assessment of the Reliability of Machine Learning Systems [30.638615396429536]
本稿では,機械学習(ML)システムの信頼性に関する総合評価手法を提案する。
本フレームワークは, 分散精度, 分散シフト堅牢性, 対向ロバスト性, キャリブレーション, 分布外検出の5つの重要な特性を評価する。
異なるアルゴリズムアプローチの性能に関する洞察を提供するため、我々は最先端技術を特定し分類する。
論文 参考訳(メタデータ) (2023-07-20T05:00:13Z) - Demonstrating Software Reliability using Possibly Correlated Tests:
Insights from a Conservative Bayesian Approach [2.152298082788376]
我々は、実行が独立したことを「疑う」という非公式な概念を定式化する。
我々は、独立仮定が、評価において保守主義を損なうことができる範囲を明らかにする技術を開発する。
論文 参考訳(メタデータ) (2022-08-16T20:27:47Z) - Reliability Testing for Natural Language Processing Systems [14.393308846231083]
信頼性テストの必要性を議論し、説明責任の改善に関する既存の作業の中でコンテキスト化しています。
我々は,この目的のために,信頼性テストを開発するためのフレームワークを通じて,敵の攻撃を再構築する方法を示す。
論文 参考訳(メタデータ) (2021-05-06T11:24:58Z) - Adversarial Robustness under Long-Tailed Distribution [93.50792075460336]
敵対的ロバスト性はディープネットワークの脆弱性と本質的特徴を明らかにすることで近年広く研究されている。
本研究では,長尾分布下における敵対的脆弱性と防御について検討する。
我々は、スケール不変とデータ再分散という2つの専用モジュールからなるクリーンで効果的なフレームワークであるRoBalを提案する。
論文 参考訳(メタデータ) (2021-04-06T17:53:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。