論文の概要: PACE-LM: Prompting and Augmentation for Calibrated Confidence Estimation
with GPT-4 in Cloud Incident Root Cause Analysis
- arxiv url: http://arxiv.org/abs/2309.05833v2
- Date: Sat, 16 Sep 2023 00:12:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 22:06:11.031905
- Title: PACE-LM: Prompting and Augmentation for Calibrated Confidence Estimation
with GPT-4 in Cloud Incident Root Cause Analysis
- Title(参考訳): PACE-LM:クラウドインシデント根本原因解析におけるGPT-4による信頼度推定の実証と増大
- Authors: Dylan Zhang, Xuchao Zhang, Chetan Bansal, Pedro Las-Casas, Rodrigo
Fonseca, Saravan Rajmohan
- Abstract要約: ITセクターにおけるクラウドベースのプラットフォームへの移行は、クラウドインシデント根本原因分析の重要性を強調している。
根本原因同定のためのAI駆動ツールの普及にもかかわらず、その適用性は出力の矛盾した品質によって制限されている。
本稿では,検索強化された大規模言語モデルにより,根本原因分析ツールの信頼度を向上する手法を提案する。
- 参考スコア(独自算出の注目度): 17.362895895214344
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In recent years, the transition to cloud-based platforms in the IT sector has
emphasized the significance of cloud incident root cause analysis to ensure
service reliability and maintain customer trust. Central to this process is the
efficient determination of root causes, a task made challenging due to the
complex nature of contemporary cloud infrastructures. Despite the proliferation
of AI-driven tools for root cause identification, their applicability remains
limited by the inconsistent quality of their outputs. This paper introduces a
method for enhancing confidence estimation in root cause analysis tools by
prompting retrieval-augmented large language models (LLMs). This approach
operates in two phases. Initially, the model evaluates its confidence based on
historical incident data, considering its assessment of the evidence strength.
Subsequently, the model reviews the root cause generated by the predictor. An
optimization step then combines these evaluations to determine the final
confidence assignment. Experimental results illustrate that our method enables
the model to articulate its confidence effectively, providing a more calibrated
score. We address research questions evaluating the ability of our method to
produce calibrated confidence scores using LLMs, the impact of domain-specific
retrieved examples on confidence estimates, and its potential generalizability
across various root cause analysis models. Through this, we aim to bridge the
confidence estimation gap, aiding on-call engineers in decision-making and
bolstering the efficiency of cloud incident management.
- Abstract(参考訳): 近年、it部門におけるクラウドベースのプラットフォームへの移行は、サービスの信頼性を確保し顧客信頼を維持するために、クラウドインシデント根本原因分析の重要性を強調している。
このプロセスの中心はルート原因の効率的な決定であり、現代のクラウドインフラの複雑な性質のために課題となった。
根本原因同定のためのAI駆動ツールの普及にもかかわらず、その適用性は出力の不整合品質によって制限されている。
本稿では,検索強化大言語モデル (LLM) を推進し,根本原因分析ツールの信頼度を向上する手法を提案する。
このアプローチは2つのフェーズで動作します。
当初, 証拠強度の評価を考慮し, 過去の事件データに基づく信頼度の評価を行った。
その後、モデルは、予測者が生成した根本原因をレビューする。
最適化ステップは、これらの評価を組み合わせて最終信頼割り当てを決定する。
実験結果から,本手法はモデルの信頼性を効果的に表現し,より校正されたスコアを与える。
本研究では, LLMを用いた校正信頼度スコアの作成能力, ドメイン固有検索例が信頼度推定に与える影響, および根本原因分析モデルにおける潜在的な一般化可能性について検討する。
そこで本研究では,クラウドインシデント管理の効率化を図るとともに,信頼性評価のギャップを埋めることを目的としている。
関連論文リスト
- Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は、システムの異なる部分への介入の下で因果効果を推定することができる。
LLMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを実証分析して評価する。
我々は、様々な因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成し、介入に基づく推論の研究を可能にする。
論文 参考訳(メタデータ) (2024-04-08T14:15:56Z) - Exploring LLMs as a Source of Targeted Synthetic Textual Data to Minimize High Confidence Misclassifications [9.982616173090264]
本研究では,データ拡張のための大規模言語モデル (LLM) の利用を,分類タスク中に高い信頼度で誤った予測を行うNLPモデルの問題に対する潜在的な解決策として検討する。
緩和のために、人間またはLLMは、高い信頼性の誤分類の自然言語特性を提供し、合成データを生成し、トレーニングセットを拡張するのに使用される。
本研究では,3つの分類課題に対するアプローチを広範囲に評価し,信頼性の高い誤分類の数を減らし,その効果を実証する。
論文 参考訳(メタデータ) (2024-03-26T16:49:25Z) - Think Twice Before Assure: Confidence Estimation for Large Language Models through Reflection on Multiple Answers [90.71323430635593]
本稿では,複数の候補回答の信頼性を徹底的に評価し,不正確な回答に対する過度な信頼を緩和する新しいパラダイムを提案する。
まず, LLMに各回答の正当性を反映し, 正当性を付与するように指示し, 総合的信頼度推定のための正当性を集約する2段階の枠組みを導入する。
論文 参考訳(メタデータ) (2024-03-15T02:38:26Z) - Targeted Machine Learning for Average Causal Effect Estimation Using the
Front-Door Functional [3.0232957374216953]
結果に対する治療の平均因果効果(ACE)を評価することは、しばしば観察研究における要因の相違によって引き起こされる課題を克服することを伴う。
本稿では,目標最小損失推定理論に基づいて,正面基準の新たな推定手法を提案する。
本研究では,早期学業成績が今後の年収に与える影響を明らかにするために,これらの推定装置の適用性を示す。
論文 参考訳(メタデータ) (2023-12-15T22:04:53Z) - Learning-Based Approaches to Predictive Monitoring with Conformal
Statistical Guarantees [2.1684857243537334]
本チュートリアルは、予測モニタリング(PM)のための効率的な手法に焦点を当てている。
PMは、システムの現在の状態から与えられた要件の将来の違反を検出する問題である。
CPSの予測モニタリングに対する我々のアプローチを要約した、汎用的で包括的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-04T15:16:42Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - LMD: Light-weight Prediction Quality Estimation for Object Detection in
Lidar Point Clouds [3.927702899922668]
Lidarのクラウドデータのオブジェクト検出は、自動運転とロボット工学にとって有望な技術だ。
不確実性推定は下流タスクにとって重要な要素であり、ディープニューラルネットワークは信頼性の高い予測であってもエラーを起こしやすい。
予測品質推定のための軽量後処理方式LidarMetaDetectを提案する。
本実験は,偽予測から真を分離する際の統計的信頼性を著しく向上させることを示した。
論文 参考訳(メタデータ) (2023-06-13T15:13:29Z) - Toward Reliable Human Pose Forecasting with Uncertainty [51.628234388046195]
我々は、複数のモデルを含む人間のポーズ予測のためのオープンソースのライブラリを開発し、複数のデータセットをサポートする。
我々は、パフォーマンスを高め、より良い信頼をもたらすために、問題の2つの不確実性を考案する。
論文 参考訳(メタデータ) (2023-04-13T17:56:08Z) - A Call to Reflect on Evaluation Practices for Failure Detection in Image
Classification [0.491574468325115]
本稿では,信頼度評価関数のベンチマーク化を初めて実現した大規模実証的研究について述べる。
簡便なソフトマックス応答ベースラインを全体の最高の実行方法として明らかにすることは、現在の評価の劇的な欠点を浮き彫りにする。
論文 参考訳(メタデータ) (2022-11-28T12:25:27Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。