論文の概要: Position: Uncertainty Quantification in LLMs is Just Unsupervised Clustering
- arxiv url: http://arxiv.org/abs/2605.19220v1
- Date: Tue, 19 May 2026 00:47:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.045658
- Title: Position: Uncertainty Quantification in LLMs is Just Unsupervised Clustering
- Title(参考訳): 位置: LLMにおける不確かさの定量化は、単に教師なしクラスタリングである
- Authors: Tiejin Chen, Longchao Da, Xiaoou Liu, Hua Wei,
- Abstract要約: 不確かさの定量化は、大規模言語モデル(LLM)を高い領域に展開するための主要なセーフガードとして広く見なされている。
LLMの主流UQメソッドは、単に教師なしクラスタリングアルゴリズムである。
- 参考スコア(独自算出の注目度): 8.56875523245176
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Uncertainty Quantification (UQ) is widely regarded as the primary safeguard for deploying Large Language Models (LLMs) in high-stakes domains. However, we argue that the field suffers from a category error: mainstream UQ methods for LLMs are just unsupervised clustering algorithms. We demonstrate that most current approaches inherently quantify the internal consistency of the model's generations rather than their external correctness. Consequently, current methods are fundamentally blind to factual reality and fail to detect ``confident hallucinations,'' where models exhibit high confidence in stable but incorrect answers. Therefore, the current UQ methods may create a deceptive sense of safety when deploying the models with uncertainty. In detail, we identify three critical pathologies resulting from this dependence on internal state: a hyperparameter sensitivity crisis that renders deployment unsafe, an internal evaluation cycle that conflates stability with truth, and a fundamental lack of ground truth that forces reliance on unstable proxy metrics to evaluate uncertainty. To resolve this impasse, we advocate for a paradigm shift to UQ and outline a roadmap for the research community to adopt better evaluation metrics and settings, implement mechanism changes for native uncertainty, and anchor verification in objective truth, ensuring that model confidence serves as a reliable proxy for reality.
- Abstract(参考訳): 不確実性定量化(UQ)は、大規模言語モデル(LLM)を高い領域に展開するための主要な安全策として広く見なされている。
しかし、この分野はカテゴリー誤差に悩まされている: LLM の主流 UQ メソッドは、単に教師なしクラスタリングアルゴリズムである。
我々は、現在のほとんどのアプローチが、外部の正確性よりもモデル世代の内部的な一貫性を本質的に定量化していることを示した。
その結果、現在の手法は、基本的に現実に盲目であり、モデルが安定だが誤った回答に高い信頼を示すような '信頼の幻覚'' を検出できない。
したがって、現在のUQ手法は、不確実性のあるモデルを展開する際に、偽りの安全性をもたらす可能性がある。
より詳しくは、この内部状態への依存から生じる3つの重要な病理について、デプロイを安全でないものにするハイパーパラメータ感度危機、安定性と真実を混同する内部評価サイクル、不安定なプロキシメトリクスに頼って不確実性を評価するための基礎的真実の欠如について述べる。
この課題を解決するため、我々は、UQへのパラダイムシフトを提唱し、より良い評価基準と設定を採用し、ネイティブ不確実性のためのメカニズム変更を実装し、客観的真実に検証を固定し、モデルの信頼性が現実の信頼できるプロキシとして機能することを保証するための、研究コミュニティのロードマップを概説する。
関連論文リスト
- Discovery of Hidden Miscalibration Regimes [52.452902154360565]
モデルは何らかの入力を体系的に過信し、他人を過信することがある。
対応する誤校正分野を定義し,それを推定するための診断フレームワークを提案する。
提案手法は,入力空間のキャリブレーションを意識した表現を学習し,学習幾何学におけるカーネルの平滑化による符号付き局所的誤校正を推定する。
論文 参考訳(メタデータ) (2026-05-13T13:07:50Z) - Fact-Checking with Large Language Models via Probabilistic Certainty and Consistency [7.806516365113592]
大規模言語モデル(LLM)は、事実の正確性を必要とするアプリケーションでますます使われている。
事実チェックはこれらのエラーを軽減することができるが、既存の手法は通常、外的証拠を無差別に回収する。
本稿では,確率的確実性と一貫性(PCC)について紹介する。
論文 参考訳(メタデータ) (2026-01-05T21:57:41Z) - ReasonBENCH: Benchmarking the (In)Stability of LLM Reasoning [2.1461777157838724]
ReasonBENCHは,大規模言語モデル(LLM)推論における基盤不安定性を定量化する最初のベンチマークである。
異なる領域からのタスク全体で、推論戦略とモデルの大部分は高い不安定性を示す。
我々はさらに、解答率と安定性のトレードオフに対するプロンプト、モデル家族、スケールの影響を解析する。
論文 参考訳(メタデータ) (2025-12-08T18:26:58Z) - The Illusion of Certainty: Uncertainty quantification for LLMs fails under ambiguity [48.899855816199484]
そこで本研究では,第1の曖昧な質問応答(QA)データセットであるMAQA*とAmbigQA*を紹介する。
予測分布とアンサンブルに基づく推定器は、あいまいさの下では基本的に限定的であることを示す。
論文 参考訳(メタデータ) (2025-11-06T14:46:35Z) - Can LLMs Detect Their Confabulations? Estimating Reliability in Uncertainty-Aware Language Models [24.72990207218907]
LLM(Large Language Models)は、畳み込み(confabulation)として知られる、流動的だが不正なコンテンツを生成する傾向にある。
本研究では、文脈内情報がモデル行動にどのように影響するか、LLMが信頼できない応答を識別できるかを検討する。
論文 参考訳(メタデータ) (2025-08-11T16:12:36Z) - ConU: Conformal Uncertainty in Large Language Models with Correctness Coverage Guarantees [68.33498595506941]
自己整合性理論に基づく新しい不確実性尺度を導入する。
次に,CPアルゴリズムに正当性に整合した不確かさ条件を組み込むことにより,適合性不確かさの基準を策定する。
実証的な評価は、我々の不確実性測定が過去の最先端手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-06-29T17:33:07Z) - Kernel Language Entropy: Fine-grained Uncertainty Quantification for LLMs from Semantic Similarities [79.9629927171974]
大規模言語モデル(LLM)の不確実性は、安全性と信頼性が重要であるアプリケーションには不可欠である。
ホワイトボックスとブラックボックス LLM における不確実性評価手法である Kernel Language Entropy (KLE) を提案する。
論文 参考訳(メタデータ) (2024-05-30T12:42:05Z) - Approaching Neural Network Uncertainty Realism [53.308409014122816]
自動運転車などの安全クリティカルなシステムには、定量化または少なくとも上限の不確実性が不可欠です。
マハラノビス距離に基づく統計的テストにより、厳しい品質基準である不確実性リアリズムを評価します。
自動車分野に採用し、プレーンエンコーダデコーダモデルと比較して、不確実性リアリズムを大幅に改善することを示した。
論文 参考訳(メタデータ) (2021-01-08T11:56:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。