論文の概要: PACE-LM: Prompting and Augmentation for Calibrated Confidence Estimation
with GPT-4 in Cloud Incident Root Cause Analysis
- arxiv url: http://arxiv.org/abs/2309.05833v3
- Date: Fri, 29 Sep 2023 16:25:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-02 17:25:14.659836
- Title: PACE-LM: Prompting and Augmentation for Calibrated Confidence Estimation
with GPT-4 in Cloud Incident Root Cause Analysis
- Title(参考訳): PACE-LM:クラウドインシデント根本原因解析におけるGPT-4による信頼度推定の実証と増大
- Authors: Dylan Zhang, Xuchao Zhang, Chetan Bansal, Pedro Las-Casas, Rodrigo
Fonseca, Saravan Rajmohan
- Abstract要約: 大規模言語モデル(LLM)は、人間がクラウドインシデントの根本原因を特定するのに役立つ。
そこで本研究では,オンコール技術者がモデル予測を採用するかどうかの判断を支援するために,予測に対する信頼度推定を行うことを提案する。
提案手法は,推定された根本原因に対する校正された信頼度を推定し,検索した履歴データの有用性と促進戦略を検証できることを示す。
- 参考スコア(独自算出の注目度): 17.362895895214344
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Major cloud providers have employed advanced AI-based solutions like large
language models to aid humans in identifying the root causes of cloud
incidents. Despite the growing prevalence of AI-driven assistants in the root
cause analysis process, their effectiveness in assisting on-call engineers is
constrained by low accuracy due to the intrinsic difficulty of the task, a
propensity for LLM-based approaches to hallucinate, and difficulties in
distinguishing these well-disguised hallucinations. To address this challenge,
we propose to perform confidence estimation for the predictions to help on-call
engineers make decisions on whether to adopt the model prediction. Considering
the black-box nature of many LLM-based root cause predictors, fine-tuning or
temperature-scaling-based approaches are inapplicable. We therefore design an
innovative confidence estimation framework based on prompting
retrieval-augmented large language models (LLMs) that demand a minimal amount
of information from the root cause predictor. This approach consists of two
scoring phases: the LLM-based confidence estimator first evaluates its
confidence in making judgments in the face of the current incident that
reflects its ``grounded-ness" level in reference data, then rates the root
cause prediction based on historical references. An optimization step combines
these two scores for a final confidence assignment. We show that our method is
able to produce calibrated confidence estimates for predicted root causes,
validate the usefulness of retrieved historical data and the prompting strategy
as well as the generalizability across different root cause prediction models.
Our study takes an important move towards reliably and effectively embedding
LLMs into cloud incident management systems.
- Abstract(参考訳): 主要なクラウドプロバイダは、大規模な言語モデルのような高度なAIベースのソリューションを使用して、クラウドインシデントの根本原因を特定する。
根本原因分析プロセスにおけるai駆動アシスタントの普及にもかかわらず、オンコールエンジニアの補助効果は、タスクの本質的な難易度、llmベースの幻覚アプローチの推進、これらよく知られた幻覚の識別の困難などにより、低い精度で制限されている。
この課題に対処するために,オンコールエンジニアがモデル予測を採用するかどうかを判断するために,予測に対する信頼度推定を行うことを提案する。
多くのLSMベースの根本原因予測器のブラックボックスの性質を考えると、微調整や温度スケーリングに基づくアプローチは適用できない。
そこで我々は,根本原因予測器から最小限の情報を要求する検索強化大言語モデル (LLM) に基づく,革新的な信頼度推定フレームワークを設計する。
このアプローチは、2つのスコアリングフェーズから構成される: LLMベースの信頼度推定器は、まず、参照データにおける「接地感」レベルを反映した現在のインシデントに対する判断の信頼性を評価し、その後、歴史的参照に基づいて根本原因予測を評価する。
最適化ステップは、これらの2つのスコアを組み合わせて最終信頼割り当てを行う。
本手法は,予測された根本原因に対する信頼度の推定を校正し,検索履歴データの有用性と促進戦略を検証し,異なる根本原因予測モデルにまたがる一般化可能性を示す。
本研究は,LLMをクラウドインシデント管理システムに確実に効果的に組み込むための重要な動きである。
関連論文リスト
- Formal Logic-guided Robust Federated Learning against Poisoning Attacks [6.997975378492098]
Federated Learning (FL)は、集中型機械学習(ML)に関連するプライバシー問題に対して、有望な解決策を提供する。
FLは、敵クライアントがトレーニングデータやモデル更新を操作して全体的なモデルパフォーマンスを低下させる、毒殺攻撃など、さまざまなセキュリティ上の脅威に対して脆弱である。
本稿では,時系列タスクにおけるフェデレート学習における中毒攻撃の軽減を目的とした防御機構を提案する。
論文 参考訳(メタデータ) (2024-11-05T16:23:19Z) - Confidence Estimation for LLM-Based Dialogue State Tracking [9.305763502526833]
大規模言語モデル(LLM)に基づく会話型AIシステムでは,モデルの出力に対する信頼度の推定が重要である。
オープン・アンド・クローズド・ウェイト LLM に提案するアプローチを含む,手法の徹底的な探索を行う。
以上の結果から, 微調整式オープンウェイトLLMはAUC性能が向上し, 信頼性スコアの校正精度が向上することが示唆された。
論文 参考訳(メタデータ) (2024-09-15T06:44:26Z) - Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models [79.76293901420146]
大規模言語モデル(LLM)は、出力の信頼性が不可欠である様々な高い領域で採用されている。
本研究では,不確実性推定の脆弱性を調査し,攻撃の可能性を探る。
攻撃者がLSMにバックドアを埋め込むことができ、入力中の特定のトリガーによって起動されると、最終的な出力に影響を与えることなくモデルの不確実性を操作できることを示す。
論文 参考訳(メタデータ) (2024-07-15T23:41:11Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Evaluating Uncertainty-based Failure Detection for Closed-Loop LLM Planners [10.746821861109176]
大型言語モデル(LLM)は、ロボットタスクのためのゼロショットタスクプランナーとして、目覚ましいパフォーマンスをみせている。
しかし、以前の研究のオープンループの性質は、LSMベースの計画がエラーを起こしやすく、脆弱である。
本研究では,不確実性に基づくMLLM故障検出装置をベースとした,閉ループLLMに基づくKnowLoop計画のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-01T12:52:06Z) - Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は、システムの異なる部分への介入の下で因果効果を推定することができる。
LLMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを実証分析して評価する。
我々は、様々な因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成し、介入に基づく推論の研究を可能にする。
論文 参考訳(メタデータ) (2024-04-08T14:15:56Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - LMD: Light-weight Prediction Quality Estimation for Object Detection in
Lidar Point Clouds [3.927702899922668]
Lidarのクラウドデータのオブジェクト検出は、自動運転とロボット工学にとって有望な技術だ。
不確実性推定は下流タスクにとって重要な要素であり、ディープニューラルネットワークは信頼性の高い予測であってもエラーを起こしやすい。
予測品質推定のための軽量後処理方式LidarMetaDetectを提案する。
本実験は,偽予測から真を分離する際の統計的信頼性を著しく向上させることを示した。
論文 参考訳(メタデータ) (2023-06-13T15:13:29Z) - Toward Reliable Human Pose Forecasting with Uncertainty [51.628234388046195]
我々は、複数のモデルを含む人間のポーズ予測のためのオープンソースのライブラリを開発し、複数のデータセットをサポートする。
我々は、パフォーマンスを高め、より良い信頼をもたらすために、問題の2つの不確実性を考案する。
論文 参考訳(メタデータ) (2023-04-13T17:56:08Z) - Surrogate uncertainty estimation for your time series forecasting black-box: learn when to trust [2.0393477576774752]
本研究では不確実性推定手法を紹介する。
妥当な不確実性推定を伴うベース回帰モデルを強化する。
各種時系列予測データを用いて, 代理モデルに基づく手法により, 精度の高い信頼区間が得られることがわかった。
論文 参考訳(メタデータ) (2023-02-06T14:52:56Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。