論文の概要: Calibrating LLM Confidence by Probing Perturbed Representation Stability
- arxiv url: http://arxiv.org/abs/2505.21772v1
- Date: Tue, 27 May 2025 21:14:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.297001
- Title: Calibrating LLM Confidence by Probing Perturbed Representation Stability
- Title(参考訳): 摂動表現安定性の検証によるLLM信頼性の校正
- Authors: Reza Khanmohammadi, Erfan Miahi, Mehrsa Mardikoraem, Simerjot Kaur, Ivan Brugere, Charese H. Smiley, Kundan Thind, Mohammad M. Ghassemi,
- Abstract要約: LLM(Large Language Models)におけるミススキャリブレーションは信頼性を損なうものであり、正確な信頼度推定の必要性を強調している。
LLMの内部表現安定性を解析する新しい手法であるCCPSを紹介する。
CCPSは予測エラーを約55%削減し,Brier-Proベンチマークを21%削減し,精度を5ポイント向上した。
- 参考スコア(独自算出の注目度): 2.2289267617545616
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Miscalibration in Large Language Models (LLMs) undermines their reliability, highlighting the need for accurate confidence estimation. We introduce CCPS (Calibrating LLM Confidence by Probing Perturbed Representation Stability), a novel method analyzing internal representational stability in LLMs. CCPS applies targeted adversarial perturbations to final hidden states, extracts features reflecting the model's response to these perturbations, and uses a lightweight classifier to predict answer correctness. CCPS was evaluated on LLMs from 8B to 32B parameters (covering Llama, Qwen, and Mistral architectures) using MMLU and MMLU-Pro benchmarks in both multiple-choice and open-ended formats. Our results show that CCPS significantly outperforms current approaches. Across four LLMs and three MMLU variants, CCPS reduces Expected Calibration Error by approximately 55% and Brier score by 21%, while increasing accuracy by 5 percentage points, Area Under the Precision-Recall Curve by 4 percentage points, and Area Under the Receiver Operating Characteristic Curve by 6 percentage points, all relative to the strongest prior method. CCPS delivers an efficient, broadly applicable, and more accurate solution for estimating LLM confidence, thereby improving their trustworthiness.
- Abstract(参考訳): LLM(Large Language Models)におけるミススキャリブレーションは信頼性を損なうものであり、正確な信頼度推定の必要性を強調している。
CCPS (Calibrating LLM Confidence by Probing Perturbed Representation stability) は, LLMの内部表現安定性を解析する新しい手法である。
CCPSは、最終的な隠れ状態にターゲットの対向摂動を適用し、これらの摂動に対するモデルの反応を反映した特徴を抽出し、答えの正しさを予測するために軽量な分類器を使用する。
CCPS は 8B から 32B のパラメータ (Llama,Qwen,Mistral アーキテクチャを含む) に対して,MMLU と MMLU-Pro のベンチマークを用いてマルチ選択およびオープンエンドの形式で評価した。
その結果,CCPSは現在のアプローチよりも有意に優れていた。
LLMとMMLUの4つの変種のうち、CCPSは期待校正誤差を約55%減らし、ブライアスコアは21%減らし、精度は5ポイント増し、精度・リコール曲線のエリアは4ポイント増し、受信器動作特性曲線のエリアは6ポイント減らした。
CCPSは、LCMの信頼性を推定し、信頼性を向上させるための効率的で広く適用可能な、より正確なソリューションを提供する。
関連論文リスト
- Towards Fully Exploiting LLM Internal States to Enhance Knowledge Boundary Perception [58.62352010928591]
大きな言語モデル(LLM)は様々なタスクにまたがって優れたパフォーマンスを示すが、しばしば知識境界を正確に測定するのに苦労する。
本稿では,LLMの内部状態を有効利用して,効率性やリスクの観点から知識境界に対する認識を高める方法について検討する。
論文 参考訳(メタデータ) (2025-02-17T11:11:09Z) - Influences on LLM Calibration: A Study of Response Agreement, Loss Functions, and Prompt Styles [4.477423478591491]
Calib-nは、信頼度推定のための補助モデルをトレーニングする新しいフレームワークである。
補助的なモデルベース手法では,数発のプロンプトが最も有効であることが判明した。
論文 参考訳(メタデータ) (2025-01-07T18:48:42Z) - Fact-Level Confidence Calibration and Self-Correction [64.40105513819272]
本稿では,事実レベルでの信頼度と妥当性の重み付けを校正するFact-Levelフレームワークを提案する。
また,信頼度の高い自己補正(textbfConFix$)も開発した。
論文 参考訳(メタデータ) (2024-11-20T14:15:18Z) - Functional-level Uncertainty Quantification for Calibrated Fine-tuning on LLMs [21.94487480599671]
Calibrated Fine-Tuning (UQ4CT)は、入力を出力にマッピングする関数の空間上の不確実性をキャプチャし、校正する。
我々は,機能空間を階層的に分解するMix-of-expertsフレームワークを用いて,微調整段階のUQ4CTを実装した。
分散シフト中であっても、UQ4CTはより優れたECE性能を高い精度で維持し、一般化性の向上を示す。
論文 参考訳(メタデータ) (2024-10-09T00:09:15Z) - Confidence Estimation for LLM-Based Dialogue State Tracking [9.305763502526833]
大規模言語モデル(LLM)に基づく会話型AIシステムでは,モデルの出力に対する信頼度の推定が重要である。
オープン・アンド・クローズド・ウェイト LLM に提案するアプローチを含む,手法の徹底的な探索を行う。
以上の結果から, 微調整式オープンウェイトLLMはAUC性能が向上し, 信頼性スコアの校正精度が向上することが示唆された。
論文 参考訳(メタデータ) (2024-09-15T06:44:26Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [63.118592279833656]
後学習量子化(PTQ)は,大規模言語モデル(LLM)の圧縮に有効な手法である
本稿では,SliM-LLMを提案する。SliM-LLMは,グループ単位でビット幅を割り当てるサリエンス駆動の混合精度量子化フレームワークである。
実験により、SliM-LLMは低ビット幅の様々なLLMにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - Fact-and-Reflection (FaR) Improves Confidence Calibration of Large Language Models [84.94220787791389]
ファクト・アンド・リフレクション(FaR)プロンプトを提案し,LLMキャリブレーションを2ステップで改善する。
実験の結果、FaRはキャリブレーションが大幅に向上し、期待される誤差を23.5%下げた。
FaRは、信頼性の低いシナリオにおいて、言語的に関心を表現できる能力さえも持っています。
論文 参考訳(メタデータ) (2024-02-27T01:37:23Z) - Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs [60.61002524947733]
従来の信頼性推論手法は、内部モデル情報やモデル微調整へのホワイトボックスアクセスに依存していた。
これにより、不確実性推定のためのブラックボックスアプローチの未解決領域を探索する必要性が高まっている。
言語的信頼を導き出すための戦略の推進、複数の応答を生成するためのサンプリング方法、一貫性を計算するための集約手法の3つの要素からなる体系的フレームワークを定義する。
論文 参考訳(メタデータ) (2023-06-22T17:31:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。