論文の概要: Revisiting Epistemic Markers in Confidence Estimation: Can Markers Accurately Reflect Large Language Models' Uncertainty?
- arxiv url: http://arxiv.org/abs/2505.24778v1
- Date: Fri, 30 May 2025 16:41:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:53.075931
- Title: Revisiting Epistemic Markers in Confidence Estimation: Can Markers Accurately Reflect Large Language Models' Uncertainty?
- Title(参考訳): 信頼度推定における認識マーカーの再検討:大言語モデルの不確かさを正確に反映できるか?
- Authors: Jiayu Liu, Qing Zong, Weiqi Wang, Yangqiu Song,
- Abstract要約: 大規模言語モデル(LLM)は、ハイテイクなドメインでますます使われている。
LLMが本質的な信頼を反映するためにこれらのマーカーを一貫して使用しているかどうかは不明だ。
まず,モデルがてんかんマーカーを用いた場合のマーカー信頼度を観測精度として定義する。
以上の結果から,マーカーは同じ分布内ではよく一般化するが,分布外シナリオでは信頼性に矛盾が認められた。
- 参考スコア(独自算出の注目度): 46.28794610965004
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) are increasingly used in high-stakes domains, accurately assessing their confidence is crucial. Humans typically express confidence through epistemic markers (e.g., "fairly confident") instead of numerical values. However, it remains unclear whether LLMs consistently use these markers to reflect their intrinsic confidence due to the difficulty of quantifying uncertainty associated with various markers. To address this gap, we first define marker confidence as the observed accuracy when a model employs an epistemic marker. We evaluate its stability across multiple question-answering datasets in both in-distribution and out-of-distribution settings for open-source and proprietary LLMs. Our results show that while markers generalize well within the same distribution, their confidence is inconsistent in out-of-distribution scenarios. These findings raise significant concerns about the reliability of epistemic markers for confidence estimation, underscoring the need for improved alignment between marker based confidence and actual model uncertainty. Our code is available at https://github.com/HKUST-KnowComp/MarCon.
- Abstract(参考訳): 大規模言語モデル (LLMs) がハイテイクドメインでますます使われているため、その信頼性を正確に評価することが重要である。
人間は通常、数値の代わりにててんかんマーカー(例:「公正な自信」)を通して自信を表現する。
しかし、LLMがこれらのマーカーを、様々なマーカーに関連する不確実性を定量化することが困難であるため、本質的な信頼性を反映するために一貫して使用しているかどうかは不明である。
このギャップに対処するために、我々はまず、モデルがてんかんマーカーを使用する場合の観察精度としてマーカー信頼度を定義する。
オープンソースLLMとプロプライエタリLLMの分散およびアウト・オブ・ディストリビューション設定において,複数の問合せデータセット間の安定性を評価する。
その結果,マーカーは同じ分布内ではよく一般化するが,分布外シナリオでは信頼性に矛盾が認められた。
これらの知見は, 信頼度推定のためのてんかんマーカーの信頼性に関する重要な懸念を生じさせ, マーカーベース信頼度と実際のモデル不確実性との整合性の改善の必要性を浮き彫りにした。
私たちのコードはhttps://github.com/HKUST-KnowComp/MarConで利用可能です。
関連論文リスト
- Uncertainty Distillation: Teaching Language Models to Express Semantic Confidence [16.311538811237536]
大規模言語モデル (LLM) は、事実質問に対する回答にますます使われている。
これらの不確実性の言葉化表現が意味を持つためには、表現された信頼度レベルでエラー率を反映すべきである。
そこで本研究では,LLMにセマンティック信頼度を校正する簡単な方法である不確かさ蒸留法を提案する。
論文 参考訳(メタデータ) (2025-03-18T21:29:29Z) - On Verbalized Confidence Scores for LLMs [25.160810008907397]
大規模言語モデル(LLM)の不確実性定量化は、その応答に対するより人間的な信頼を確立することができる。
この研究は、出力トークンの一部として信頼度スコアで不確実性を言語化するようLLM自身に求めることに重点を置いている。
我々は、異なるデータセット、モデル、およびプロンプトメソッドに関して、言語化された信頼度スコアの信頼性を評価する。
論文 参考訳(メタデータ) (2024-12-19T11:10:36Z) - Confidence in the Reasoning of Large Language Models [0.0]
信頼度は、再考を促す際に、答えを維持するための永続性の観点から測定される。
信頼は、基礎となるトークンレベルの確率によってのみ部分的に説明される。
論文 参考訳(メタデータ) (2024-12-19T10:04:29Z) - Label-Confidence-Aware Uncertainty Estimation in Natural Language Generation [8.635811152610604]
不確実性定量化(UQ)は、AIシステムの安全性と堅牢性を保証するために不可欠である。
サンプルとラベルソース間の分岐に基づくラベル信頼度(LCA)の不確実性評価を提案する。
論文 参考訳(メタデータ) (2024-12-10T07:35:23Z) - Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models [79.76293901420146]
大規模言語モデル(LLM)は、出力の信頼性が不可欠である様々な高い領域で採用されている。
本研究では,不確実性推定の脆弱性を調査し,攻撃の可能性を探る。
攻撃者がLSMにバックドアを埋め込むことができ、入力中の特定のトリガーによって起動されると、最終的な出力に影響を与えることなくモデルの不確実性を操作できることを示す。
論文 参考訳(メタデータ) (2024-07-15T23:41:11Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Revisiting Confidence Estimation: Towards Reliable Failure Prediction [53.79160907725975]
多くの信頼度推定法は誤分類誤りを検出するのに有害である。
本稿では, 最先端の故障予測性能を示す平坦な最小値を求めることにより, 信頼性ギャップを拡大することを提案する。
論文 参考訳(メタデータ) (2024-03-05T11:44:14Z) - MACEst: The reliable and trustworthy Model Agnostic Confidence Estimator [0.17188280334580192]
我々は、標準的な機械学習ポイント予測アルゴリズムに基づく信頼度推定は、基本的に欠陥があると主張している。
MACEstは信頼性と信頼性の高い信頼度推定を提供するモデル非依存信頼度推定器である。
論文 参考訳(メタデータ) (2021-09-02T14:34:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。