論文の概要: LLMs Uncertainty Quantification via Adaptive Conformal Semantic Entropy
- arxiv url: http://arxiv.org/abs/2605.04295v1
- Date: Tue, 05 May 2026 20:56:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-07 18:41:07.543867
- Title: LLMs Uncertainty Quantification via Adaptive Conformal Semantic Entropy
- Title(参考訳): 適応的コンフォーマルなセマンティックエントロピーによるLLMの不確かさの定量化
- Authors: Hamed Karimi, Vaishali Meyappan, Reza Samavi,
- Abstract要約: 本稿では,アダプティブ・コンフォーマル・セマンティック・エントロピー(ACSE, Adaptive Conformal Semantic Entropy)を提案する。
我々の不確実性スコアリング機能は、同じプロンプトに対する複数の多様な応答のクラスタリングセマンティックエントロピーに基づいている。
我々のアプローチは、最先端の不確実性定量化ベースラインを一貫して上回る。
- 参考スコア(独自算出の注目度): 1.3254304182988286
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLMs' overconfidence, particularly when hallucinating, poses a significant challenge for the deployment of the models in safety-critical settings and makes a reliable estimation of uncertainty necessary. Existing approaches for uncertainty quantification typically prioritize lexical or probabilistic measures; however, these techniques often ignore the semantic variance of different responses with similar meaning. In this paper, we propose Adaptive Conformal Semantic Entropy (ACSE), a method for estimating prompt-level uncertainty by adaptively measuring semantic dispersion in LLMs outputs. Our uncertainty scoring function is based on clustering semantic entropy of multiple diverse responses to the same prompt. The function adaptively adjusts the uncertainty score based on semantic features of each cluster. To ensure statistical reliability of our score, we use conformal calibration to apply a decision rule to accept/abstain the prompts, providing a finite-sample, distribution-free guarantee such that the error rate among the accepted responses remains bounded by a user-specified tolerance. Our extensive experimental evaluations using different LLMs and datasets, demonstrate that our approach consistently outperforms state-of-the-art uncertainty quantification baselines using discriminative performance, conformal guarantees, and probabilistic calibration indicators. As a highlight, for TriviaQA dataset, AUROC of our approach is 0.88 compared to 0.65 produced by the token entropy approach.
- Abstract(参考訳): LLMの過信(特に幻覚)は、安全クリティカルな環境でモデルを展開する上で重要な課題となり、不確実性を確実に見積もる。
既存の不確実性定量化のアプローチは、通常、語彙的あるいは確率的な尺度を優先するが、これらの手法は、同様の意味を持つ異なる応答のセマンティックな分散を無視することが多い。
本稿では,LLM出力のセマンティック分散を適応的に測定することで,アクシデントレベルの不確実性を推定する適応型コンフォーマルセマンティックエントロピー(ACSE)を提案する。
我々の不確実性スコアリング機能は、同じプロンプトに対する複数の多様な応答のクラスタリングセマンティックエントロピーに基づいている。
この関数は各クラスタの意味的特徴に基づいて不確実性スコアを適応的に調整する。
スコアの統計的信頼性を確保するために、コンフォメーションキャリブレーションを用いてプロンプトを受理/受理する決定ルールを適用し、受信した応答間のエラー率がユーザ指定の許容値に拘束されるような有限サンプルの分布自由保証を提供する。
異なるLLMとデータセットを用いた広範囲な実験的評価により, 判別性能, 共形保証, 確率的校正指標を用いて, 最先端の不確実性定量化基準線を一貫して上回ることを示した。
ハイライトとして、TriviaQAデータセットでは、私たちのアプローチのAUROCは、トークンエントロピーアプローチによって生成された0.65と比較して0.88である。
関連論文リスト
- Entropy Alone is Insufficient for Safe Selective Prediction in LLMs [20.664633053172327]
選択予測システムは、高リスクケースでの回答を控えることで、言語モデル幻覚による害を軽減することができる。
不確実性定量化技術はしばしばそのようなケースを特定するために用いられるが、より広い選択的予測ポリシーの文脈で評価されることはほとんどない。
エントロピーに基づく不確実性手法のモデル依存的故障モードを同定し、エントロピースコアと正当性プローブ信号を組み合わせることで、信頼できない禁忌行動に対処する。
論文 参考訳(メタデータ) (2026-03-22T11:27:13Z) - Addressing Pitfalls in the Evaluation of Uncertainty Estimation Methods for Natural Language Generation [20.726685669562496]
幻覚は、大きな言語モデル(LLM)の信頼性を損なう一般的な問題である。
近年の研究では、LLMの予測的不確実性によって生じる幻覚のサブセット、すなわち confabulations が特定されている。
衝突を検出するため,自然言語生成における予測不確かさを推定する様々な手法が開発されている。
論文 参考訳(メタデータ) (2025-10-02T17:54:09Z) - COIN: Uncertainty-Guarding Selective Question Answering for Foundation Models with Provable Risk Guarantees [51.5976496056012]
COINは、統計的に有効な閾値を校正し、質問毎に1つの生成された回答をフィルタリングする不確実性保護選択フレームワークである。
COINはキャリブレーションセット上で経験的誤差率を推定し、信頼区間法を適用して真誤差率に高い確率上界を確立する。
リスク管理におけるCOINの堅牢性,許容回答を維持するための強いテストタイムパワー,キャリブレーションデータによる予測効率を実証する。
論文 参考訳(メタデータ) (2025-06-25T07:04:49Z) - SConU: Selective Conformal Uncertainty in Large Language Models [59.25881667640868]
SconU(Selective Conformal Uncertainity)と呼ばれる新しいアプローチを提案する。
我々は,特定の管理可能なリスクレベルで設定されたキャリブレーションの不確実性分布から,与えられたサンプルが逸脱するかどうかを決定するのに役立つ2つの共形p値を開発する。
我々のアプローチは、単一ドメインと学際的コンテキストの両方にわたる誤発見率の厳密な管理を促進するだけでなく、予測の効率を高める。
論文 参考訳(メタデータ) (2025-04-19T03:01:45Z) - Addressing Uncertainty in LLMs to Enhance Reliability in Generative AI [47.64301863399763]
中国レストランプロセスに触発された動的セマンティッククラスタリング手法を提案する。
生成したセマンティッククラスタのエントロピーを計算することにより,あるクエリ上でのLarge Language Model(LLM)の不確実性を定量化する。
本稿では,これらのクラスタの(負の)確率を,コンフォーマル予測フレームワーク内の(非)整合性スコアとして活用することを提案する。
論文 参考訳(メタデータ) (2024-11-04T18:49:46Z) - Improving Uncertainty Quantification in Large Language Models via Semantic Embeddings [11.33157177182775]
大規模言語モデル(LLM)における正確な不確実性の定量化は、信頼性の高いデプロイメントに不可欠である。
LLMにおける意味的不確実性を測定するための現在の最先端手法は、厳密な双方向の包含基準に依存している。
本研究では,意味的不確実性のよりスムーズでロバストな推定を実現するためにセマンティックな埋め込みを利用する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-30T04:41:46Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z) - Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。