論文の概要: PACE-LM: Prompting and Augmentation for Calibrated Confidence Estimation
with GPT-4 in Cloud Incident Root Cause Analysis
- arxiv url: http://arxiv.org/abs/2309.05833v2
- Date: Sat, 16 Sep 2023 00:12:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 22:06:11.031905
- Title: PACE-LM: Prompting and Augmentation for Calibrated Confidence Estimation
with GPT-4 in Cloud Incident Root Cause Analysis
- Title(参考訳): PACE-LM:クラウドインシデント根本原因解析におけるGPT-4による信頼度推定の実証と増大
- Authors: Dylan Zhang, Xuchao Zhang, Chetan Bansal, Pedro Las-Casas, Rodrigo
Fonseca, Saravan Rajmohan
- Abstract要約: ITセクターにおけるクラウドベースのプラットフォームへの移行は、クラウドインシデント根本原因分析の重要性を強調している。
根本原因同定のためのAI駆動ツールの普及にもかかわらず、その適用性は出力の矛盾した品質によって制限されている。
本稿では,検索強化された大規模言語モデルにより,根本原因分析ツールの信頼度を向上する手法を提案する。
- 参考スコア(独自算出の注目度): 17.362895895214344
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In recent years, the transition to cloud-based platforms in the IT sector has
emphasized the significance of cloud incident root cause analysis to ensure
service reliability and maintain customer trust. Central to this process is the
efficient determination of root causes, a task made challenging due to the
complex nature of contemporary cloud infrastructures. Despite the proliferation
of AI-driven tools for root cause identification, their applicability remains
limited by the inconsistent quality of their outputs. This paper introduces a
method for enhancing confidence estimation in root cause analysis tools by
prompting retrieval-augmented large language models (LLMs). This approach
operates in two phases. Initially, the model evaluates its confidence based on
historical incident data, considering its assessment of the evidence strength.
Subsequently, the model reviews the root cause generated by the predictor. An
optimization step then combines these evaluations to determine the final
confidence assignment. Experimental results illustrate that our method enables
the model to articulate its confidence effectively, providing a more calibrated
score. We address research questions evaluating the ability of our method to
produce calibrated confidence scores using LLMs, the impact of domain-specific
retrieved examples on confidence estimates, and its potential generalizability
across various root cause analysis models. Through this, we aim to bridge the
confidence estimation gap, aiding on-call engineers in decision-making and
bolstering the efficiency of cloud incident management.
- Abstract(参考訳): 近年、it部門におけるクラウドベースのプラットフォームへの移行は、サービスの信頼性を確保し顧客信頼を維持するために、クラウドインシデント根本原因分析の重要性を強調している。
このプロセスの中心はルート原因の効率的な決定であり、現代のクラウドインフラの複雑な性質のために課題となった。
根本原因同定のためのAI駆動ツールの普及にもかかわらず、その適用性は出力の不整合品質によって制限されている。
本稿では,検索強化大言語モデル (LLM) を推進し,根本原因分析ツールの信頼度を向上する手法を提案する。
このアプローチは2つのフェーズで動作します。
当初, 証拠強度の評価を考慮し, 過去の事件データに基づく信頼度の評価を行った。
その後、モデルは、予測者が生成した根本原因をレビューする。
最適化ステップは、これらの評価を組み合わせて最終信頼割り当てを決定する。
実験結果から,本手法はモデルの信頼性を効果的に表現し,より校正されたスコアを与える。
本研究では, LLMを用いた校正信頼度スコアの作成能力, ドメイン固有検索例が信頼度推定に与える影響, および根本原因分析モデルにおける潜在的な一般化可能性について検討する。
そこで本研究では,クラウドインシデント管理の効率化を図るとともに,信頼性評価のギャップを埋めることを目的としている。
関連論文リスト
- Formal Logic-guided Robust Federated Learning against Poisoning Attacks [6.997975378492098]
Federated Learning (FL)は、集中型機械学習(ML)に関連するプライバシー問題に対して、有望な解決策を提供する。
FLは、敵クライアントがトレーニングデータやモデル更新を操作して全体的なモデルパフォーマンスを低下させる、毒殺攻撃など、さまざまなセキュリティ上の脅威に対して脆弱である。
本稿では,時系列タスクにおけるフェデレート学習における中毒攻撃の軽減を目的とした防御機構を提案する。
論文 参考訳(メタデータ) (2024-11-05T16:23:19Z) - Confidence Estimation for LLM-Based Dialogue State Tracking [9.305763502526833]
大規模言語モデル(LLM)に基づく会話型AIシステムでは,モデルの出力に対する信頼度の推定が重要である。
オープン・アンド・クローズド・ウェイト LLM に提案するアプローチを含む,手法の徹底的な探索を行う。
以上の結果から, 微調整式オープンウェイトLLMはAUC性能が向上し, 信頼性スコアの校正精度が向上することが示唆された。
論文 参考訳(メタデータ) (2024-09-15T06:44:26Z) - Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models [79.76293901420146]
大規模言語モデル(LLM)は、出力の信頼性が不可欠である様々な高い領域で採用されている。
本研究では,不確実性推定の脆弱性を調査し,攻撃の可能性を探る。
攻撃者がLSMにバックドアを埋め込むことができ、入力中の特定のトリガーによって起動されると、最終的な出力に影響を与えることなくモデルの不確実性を操作できることを示す。
論文 参考訳(メタデータ) (2024-07-15T23:41:11Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Evaluating Uncertainty-based Failure Detection for Closed-Loop LLM Planners [10.746821861109176]
大型言語モデル(LLM)は、ロボットタスクのためのゼロショットタスクプランナーとして、目覚ましいパフォーマンスをみせている。
しかし、以前の研究のオープンループの性質は、LSMベースの計画がエラーを起こしやすく、脆弱である。
本研究では,不確実性に基づくMLLM故障検出装置をベースとした,閉ループLLMに基づくKnowLoop計画のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-01T12:52:06Z) - Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は、システムの異なる部分への介入の下で因果効果を推定することができる。
LLMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを実証分析して評価する。
我々は、様々な因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成し、介入に基づく推論の研究を可能にする。
論文 参考訳(メタデータ) (2024-04-08T14:15:56Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - LMD: Light-weight Prediction Quality Estimation for Object Detection in
Lidar Point Clouds [3.927702899922668]
Lidarのクラウドデータのオブジェクト検出は、自動運転とロボット工学にとって有望な技術だ。
不確実性推定は下流タスクにとって重要な要素であり、ディープニューラルネットワークは信頼性の高い予測であってもエラーを起こしやすい。
予測品質推定のための軽量後処理方式LidarMetaDetectを提案する。
本実験は,偽予測から真を分離する際の統計的信頼性を著しく向上させることを示した。
論文 参考訳(メタデータ) (2023-06-13T15:13:29Z) - Toward Reliable Human Pose Forecasting with Uncertainty [51.628234388046195]
我々は、複数のモデルを含む人間のポーズ予測のためのオープンソースのライブラリを開発し、複数のデータセットをサポートする。
我々は、パフォーマンスを高め、より良い信頼をもたらすために、問題の2つの不確実性を考案する。
論文 参考訳(メタデータ) (2023-04-13T17:56:08Z) - Surrogate uncertainty estimation for your time series forecasting black-box: learn when to trust [2.0393477576774752]
本研究では不確実性推定手法を紹介する。
妥当な不確実性推定を伴うベース回帰モデルを強化する。
各種時系列予測データを用いて, 代理モデルに基づく手法により, 精度の高い信頼区間が得られることがわかった。
論文 参考訳(メタデータ) (2023-02-06T14:52:56Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。