Fugu-MT 論文翻訳(概要): PACE-LM: Prompting and Augmentation for Calibrated Confidence Estimation with GPT-4 in Cloud Incident Root Cause Analysis

論文の概要: PACE-LM: Prompting and Augmentation for Calibrated Confidence Estimation with GPT-4 in Cloud Incident Root Cause Analysis

arxiv url: http://arxiv.org/abs/2309.05833v2
Date: Sat, 16 Sep 2023 00:12:47 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-19 22:06:11.031905
Title: PACE-LM: Prompting and Augmentation for Calibrated Confidence Estimation with GPT-4 in Cloud Incident Root Cause Analysis
Title（参考訳）: PACE-LM:クラウドインシデント根本原因解析におけるGPT-4による信頼度推定の実証と増大
Authors: Dylan Zhang, Xuchao Zhang, Chetan Bansal, Pedro Las-Casas, Rodrigo Fonseca, Saravan Rajmohan
Abstract要約: ITセクターにおけるクラウドベースのプラットフォームへの移行は、クラウドインシデント根本原因分析の重要性を強調している。根本原因同定のためのAI駆動ツールの普及にもかかわらず、その適用性は出力の矛盾した品質によって制限されている。本稿では,検索強化された大規模言語モデルにより,根本原因分析ツールの信頼度を向上する手法を提案する。
参考スコア（独自算出の注目度）: 17.362895895214344
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: In recent years, the transition to cloud-based platforms in the IT sector has emphasized the significance of cloud incident root cause analysis to ensure service reliability and maintain customer trust. Central to this process is the efficient determination of root causes, a task made challenging due to the complex nature of contemporary cloud infrastructures. Despite the proliferation of AI-driven tools for root cause identification, their applicability remains limited by the inconsistent quality of their outputs. This paper introduces a method for enhancing confidence estimation in root cause analysis tools by prompting retrieval-augmented large language models (LLMs). This approach operates in two phases. Initially, the model evaluates its confidence based on historical incident data, considering its assessment of the evidence strength. Subsequently, the model reviews the root cause generated by the predictor. An optimization step then combines these evaluations to determine the final confidence assignment. Experimental results illustrate that our method enables the model to articulate its confidence effectively, providing a more calibrated score. We address research questions evaluating the ability of our method to produce calibrated confidence scores using LLMs, the impact of domain-specific retrieved examples on confidence estimates, and its potential generalizability across various root cause analysis models. Through this, we aim to bridge the confidence estimation gap, aiding on-call engineers in decision-making and bolstering the efficiency of cloud incident management.
Abstract（参考訳）: 近年、it部門におけるクラウドベースのプラットフォームへの移行は、サービスの信頼性を確保し顧客信頼を維持するために、クラウドインシデント根本原因分析の重要性を強調している。このプロセスの中心はルート原因の効率的な決定であり、現代のクラウドインフラの複雑な性質のために課題となった。根本原因同定のためのAI駆動ツールの普及にもかかわらず、その適用性は出力の不整合品質によって制限されている。本稿では,検索強化大言語モデル (LLM) を推進し,根本原因分析ツールの信頼度を向上する手法を提案する。このアプローチは2つのフェーズで動作します。当初, 証拠強度の評価を考慮し, 過去の事件データに基づく信頼度の評価を行った。その後、モデルは、予測者が生成した根本原因をレビューする。最適化ステップは、これらの評価を組み合わせて最終信頼割り当てを決定する。実験結果から,本手法はモデルの信頼性を効果的に表現し,より校正されたスコアを与える。本研究では, LLMを用いた校正信頼度スコアの作成能力, ドメイン固有検索例が信頼度推定に与える影響, および根本原因分析モデルにおける潜在的な一般化可能性について検討する。そこで本研究では,クラウドインシデント管理の効率化を図るとともに,信頼性評価のギャップを埋めることを目的としている。

関連論文リスト

Lost at the Beginning of Reasoning [82.18834329384514]
第1の推論ステップが最終予測に不当に大きな影響を与えることを示す。本稿では、報酬モデルを利用して高品質な第1推論ステップを特定し、維持する効率的なサンプリング戦略を提案する。モデル自己補正能力を体系的に評価するために、意図的に欠陥のある第1の推論ステップで構築された新しいベンチマークを導入する。
論文参考訳（メタデータ） (2025-06-27T09:53:57Z)
Mitigating Hidden Confounding by Progressive Confounder Imputation via Large Language Models [46.92706900119399]
大規模言語モデル (LLMs) を用いた隠れコンファウンディングの軽減に向けた最初の試みを行う。本稿では,LLMのセマンティック知識と世界知識を利用して,隠れた共同創設者を反復的に生成し,指示し,検証するフレームワークであるProCIを提案する。大規模な実験により、ProCIは有意義な共同設立者を明らかにし、治療効果の推定を大幅に改善することが示された。
論文参考訳（メタデータ） (2025-06-26T03:49:13Z)
Enhancing LLM Reliability via Explicit Knowledge Boundary Modeling [48.15636223774418]
大きな言語モデル(LLM)は、不一致の自己認識のためにしばしば幻覚する。既存のアプローチは、不確実性推定やクエリの拒否を通じて幻覚を緩和する。高速かつ低速な推論システムを統合するための明示的知識境界モデリングフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-04T03:16:02Z)
PredictaBoard: Benchmarking LLM Score Predictability [50.47497036981544]
大きな言語モデル(LLM)は予測不能に失敗することが多い。これは、安全なデプロイメントを保証する上で、大きな課題となる。 PredictaBoardは,新しいベンチマークフレームワークである。
論文参考訳（メタデータ） (2025-02-20T10:52:38Z)
CARE: Confidence-Aware Regression Estimation of building density fine-tuning EO Foundation Models [0.9558392439655016]
本研究は、回帰出力とともに信頼度を計算・割り当てするEO衛星データを用いたファンデーションモデルの開発である。このモデルCAREは、EOデータに対するファンデーションモデルの下流タスクとして回帰結果に対する信頼度を算出し、低信頼領域に対する信頼度を考慮した自己補正学習手法を実行する。
論文参考訳（メタデータ） (2025-02-19T14:02:00Z)
Formal Logic-guided Robust Federated Learning against Poisoning Attacks [6.997975378492098]
Federated Learning (FL)は、集中型機械学習(ML)に関連するプライバシー問題に対して、有望な解決策を提供する。 FLは、敵クライアントがトレーニングデータやモデル更新を操作して全体的なモデルパフォーマンスを低下させる、毒殺攻撃など、さまざまなセキュリティ上の脅威に対して脆弱である。本稿では,時系列タスクにおけるフェデレート学習における中毒攻撃の軽減を目的とした防御機構を提案する。
論文参考訳（メタデータ） (2024-11-05T16:23:19Z)
Confidence Estimation for LLM-Based Dialogue State Tracking [9.305763502526833]
大規模言語モデル(LLM)に基づく会話型AIシステムでは,モデルの出力に対する信頼度の推定が重要である。オープン・アンド・クローズド・ウェイト LLM に提案するアプローチを含む,手法の徹底的な探索を行う。以上の結果から, 微調整式オープンウェイトLLMはAUC性能が向上し, 信頼性スコアの校正精度が向上することが示唆された。
論文参考訳（メタデータ） (2024-09-15T06:44:26Z)
Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models [79.76293901420146]
大規模言語モデル(LLM)は、出力の信頼性が不可欠である様々な高い領域で採用されている。本研究では,不確実性推定の脆弱性を調査し,攻撃の可能性を探る。攻撃者がLSMにバックドアを埋め込むことができ、入力中の特定のトリガーによって起動されると、最終的な出力に影響を与えることなくモデルの不確実性を操作できることを示す。
論文参考訳（メタデータ） (2024-07-15T23:41:11Z)
MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文参考訳（メタデータ） (2024-06-20T03:50:23Z)
Evaluating Uncertainty-based Failure Detection for Closed-Loop LLM Planners [10.746821861109176]
大型言語モデル(LLM)は、ロボットタスクのためのゼロショットタスクプランナーとして、目覚ましいパフォーマンスをみせている。しかし、以前の研究のオープンループの性質は、LSMベースの計画がエラーを起こしやすく、脆弱である。本研究では,不確実性に基づくMLLM故障検出装置をベースとした,閉ループLLMに基づくKnowLoop計画のためのフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-01T12:52:06Z)
Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は、システムの異なる部分への介入の下で因果効果を推定することができる。 LLMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを実証分析して評価する。我々は、様々な因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成し、介入に基づく推論の研究を可能にする。
論文参考訳（メタデータ） (2024-04-08T14:15:56Z)
Understanding, Predicting and Better Resolving Q-Value Divergence in Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文参考訳（メタデータ） (2023-10-06T17:57:44Z)
LMD: Light-weight Prediction Quality Estimation for Object Detection in Lidar Point Clouds [3.927702899922668]
Lidarのクラウドデータのオブジェクト検出は、自動運転とロボット工学にとって有望な技術だ。不確実性推定は下流タスクにとって重要な要素であり、ディープニューラルネットワークは信頼性の高い予測であってもエラーを起こしやすい。予測品質推定のための軽量後処理方式LidarMetaDetectを提案する。本実験は,偽予測から真を分離する際の統計的信頼性を著しく向上させることを示した。
論文参考訳（メタデータ） (2023-06-13T15:13:29Z)
Toward Reliable Human Pose Forecasting with Uncertainty [51.628234388046195]
我々は、複数のモデルを含む人間のポーズ予測のためのオープンソースのライブラリを開発し、複数のデータセットをサポートする。我々は、パフォーマンスを高め、より良い信頼をもたらすために、問題の2つの不確実性を考案する。
論文参考訳（メタデータ） (2023-04-13T17:56:08Z)
Surrogate uncertainty estimation for your time series forecasting black-box: learn when to trust [2.0393477576774752]
本研究では不確実性推定手法を紹介する。妥当な不確実性推定を伴うベース回帰モデルを強化する。各種時系列予測データを用いて, 代理モデルに基づく手法により, 精度の高い信頼区間が得られることがわかった。
論文参考訳（メタデータ） (2023-02-06T14:52:56Z)
Accurate and Robust Feature Importance Estimation under Distribution Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文参考訳（メタデータ） (2020-09-30T05:29:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。