論文の概要: Fact-Checking with Large Language Models via Probabilistic Certainty and Consistency
- arxiv url: http://arxiv.org/abs/2601.02574v1
- Date: Mon, 05 Jan 2026 21:57:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.734162
- Title: Fact-Checking with Large Language Models via Probabilistic Certainty and Consistency
- Title(参考訳): 確率的確実性と一貫性による大規模言語モデルによるFact-Checking
- Authors: Haoran Wang, Maryam Khalid, Qiong Wu, Jian Gao, Cheng Cao,
- Abstract要約: 大規模言語モデル(LLM)は、事実の正確性を必要とするアプリケーションでますます使われている。
事実チェックはこれらのエラーを軽減することができるが、既存の手法は通常、外的証拠を無差別に回収する。
本稿では,確率的確実性と一貫性(PCC)について紹介する。
- 参考スコア(独自算出の注目度): 7.806516365113592
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly used in applications requiring factual accuracy, yet their outputs often contain hallucinated responses. While fact-checking can mitigate these errors, existing methods typically retrieve external evidence indiscriminately, overlooking the model's internal knowledge and potentially introducing irrelevant noise. Moreover, current systems lack targeted mechanisms to resolve specific uncertainties in the model's reasoning. Inspired by how humans fact-check, we argue that LLMs should adaptively decide whether to rely on internal knowledge or initiate retrieval based on their confidence in a given claim. We introduce Probabilistic Certainty and Consistency (PCC), a framework that estimates factual confidence by jointly modeling an LLM's probabilistic certainty and reasoning consistency. These confidence signals enable an adaptive verification strategy: the model answers directly when confident, triggers targeted retrieval when uncertain or inconsistent, and escalates to deep search when ambiguity is high. Our confidence-guided routing mechanism ensures that retrieval is invoked only when necessary, improving both efficiency and reliability. Extensive experiments across three challenging benchmarks show that PCC achieves better uncertainty quantification than verbalized confidence and consistently outperforms strong LLM-based fact-checking baselines. Furthermore, we demonstrate that PCC generalizes well across various LLMs.
- Abstract(参考訳): 大規模言語モデル (LLM) は、事実の正確性を必要とするアプリケーションではますます使われているが、その出力は幻覚応答を含むことが多い。
ファクトチェックはこれらの誤りを軽減できるが、既存の手法は通常、外部の証拠を無差別に回収し、モデルの内部知識を見落とし、潜在的に無関係なノイズを発生させる。
さらに、現在のシステムでは、モデルの推論における特定の不確実性を解決するためのターゲットメカニズムが欠如している。
人間の事実チェックの仕方に触発されて、LLMは、内部知識に頼るか、あるいは、その主張に対する信頼に基づいて検索を開始するべきかを適応的に決めるべきである、と論じる。
確率的確実性と整合性(PCC)は,LLMの確率的確実性と推論整合性を共同でモデル化し,事実的信頼度を推定するフレームワークである。
これらの信頼性信号は,信頼度の高い場合には直接回答し,不確実性や矛盾性のある場合にはターゲット検索をトリガーし,曖昧性が高い場合には深層探索にエスカレートする,適応的な検証戦略を実現する。
信頼性誘導型ルーティング機構により、必要なときにのみ検索が実行され、効率と信頼性が向上する。
3つの挑戦的なベンチマークによる大規模な実験により、PCCは言語的信頼よりも不確実性の定量化を達成し、強いLCMベースの事実チェックベースラインを一貫して上回ることを示した。
さらに,PCC は様々な LLM にまたがってよく一般化されていることを示す。
関連論文リスト
- Towards Comprehensive Stage-wise Benchmarking of Large Language Models in Fact-Checking [64.97768177044355]
大規模言語モデル(LLM)は、現実のファクトチェックシステムにますます多くデプロイされている。
FactArenaは、完全に自動化されたアリーナスタイルの評価フレームワークである。
本研究では,静的クレーム検証精度とエンドツーエンドのファクトチェック能力の相違点を明らかにした。
論文 参考訳(メタデータ) (2026-01-06T02:51:56Z) - Can LLMs Detect Their Confabulations? Estimating Reliability in Uncertainty-Aware Language Models [24.72990207218907]
LLM(Large Language Models)は、畳み込み(confabulation)として知られる、流動的だが不正なコンテンツを生成する傾向にある。
本研究では、文脈内情報がモデル行動にどのように影響するか、LLMが信頼できない応答を識別できるかを検討する。
論文 参考訳(メタデータ) (2025-08-11T16:12:36Z) - Enhancing LLM Reliability via Explicit Knowledge Boundary Modeling [41.19330514054401]
大規模言語モデル(LLM)は、不一致の自己認識に起因する幻覚の傾向にある。
本稿では,高速かつ低速な推論システムを統合し,信頼性とユーザビリティを調和させる明示的知識境界モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-04T03:16:02Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。