論文の概要: Double-Calibration: Towards Trustworthy LLMs via Calibrating Knowledge and Reasoning Confidence
- arxiv url: http://arxiv.org/abs/2601.11956v1
- Date: Sat, 17 Jan 2026 08:18:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.394313
- Title: Double-Calibration: Towards Trustworthy LLMs via Calibrating Knowledge and Reasoning Confidence
- Title(参考訳): ダブルキャリブレーション:知識のキャリブレーションと信頼性の推論による信頼できるLCMを目指して
- Authors: Yuyin Lu, Ziran Liang, Yanghui Rao, Wenqi Fan, Fu Lee Wang, Qing Li,
- Abstract要約: DoublyCalは、新しい二重校正原則に基づくフレームワークである。
軽量なプロキシモデルを使用して、まずKGエビデンスをキャリブレーションされたエビデンスと共に生成する。
この校正された支持証拠は、ブラックボックスのLSMを誘導し、最終的な予測を導き出す。
- 参考スコア(独自算出の注目度): 33.602128264368005
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Trustworthy reasoning in Large Language Models (LLMs) is challenged by their propensity for hallucination. While augmenting LLMs with Knowledge Graphs (KGs) improves factual accuracy, existing KG-augmented methods fail to quantify epistemic uncertainty in both the retrieved evidence and LLMs' reasoning. To bridge this gap, we introduce DoublyCal, a framework built on a novel double-calibration principle. DoublyCal employs a lightweight proxy model to first generate KG evidence alongside a calibrated evidence confidence. This calibrated supporting evidence then guides a black-box LLM, yielding final predictions that are not only more accurate but also well-calibrated, with confidence scores traceable to the uncertainty of the supporting evidence. Experiments on knowledge-intensive benchmarks show that DoublyCal significantly improves both the accuracy and confidence calibration of black-box LLMs with low token cost.
- Abstract(参考訳): LLM(Large Language Models)における信頼できる推論は、幻覚の確率によって挑戦される。
知識グラフ(KGs)によるLLMの増大は事実精度を向上させるが、既存のKG拡張法は得られた証拠とLLMの推論の両方において疫学的不確実性を定量化できない。
このギャップを埋めるために、新しい二重校正原理に基づくフレームワークであるDoublyCalを紹介します。
DoublyCalは軽量なプロキシモデルを使用して、まずKGエビデンスをキャリブレーションされたエビデンス信頼性とともに生成する。
この校正された支持証拠は、ブラックボックスのLSMを誘導し、より正確であるだけでなく、十分に校正された最終的な予測を導き、支持証拠の不確実性に追従できる信頼スコアを与える。
知識集約型ベンチマーク実験により、DouublyCalはトークンコストの低いブラックボックスLCMの精度と信頼性の校正を著しく改善することが示された。
関連論文リスト
- Generalized Correctness Models: Learning Calibrated and Model-Agnostic Correctness Predictors from Historical Patterns [67.24756301536617]
本稿では,正確で校正された信頼度を推定する一般化精度モデル(GCM)を提案する。
まず,多くのLCMの正当性データに基づいてGCMをトレーニングできることを示す。
次に,CMをレンズとして,補正予測能力の源泉とその一般化について検討する。
論文 参考訳(メタデータ) (2025-09-29T16:19:01Z) - ConfTuner: Training Large Language Models to Express Their Confidence Verbally [58.63318088243125]
大規模言語モデル(LLM)は、科学、法律、医療といった高度な領域にますます展開されている。
LLMは、しばしば「過信」(overconfidence)として知られる、高い信頼で誤った答えを生成するために観察される。
論文 参考訳(メタデータ) (2025-08-26T09:25:32Z) - MetaFaith: Faithful Natural Language Uncertainty Expression in LLMs [66.14178164421794]
メタファイト(MetaFaith)は、ヒトのメタ認知に触発された新規なプロンプトベースのキャリブレーション手法である。
MetaFaithは多種多様なモデルやタスク領域における忠実なキャリブレーションを強力に改善し、忠実度を最大61%向上させることができることを示す。
論文 参考訳(メタデータ) (2025-05-30T17:54:08Z) - R2-KG: General-Purpose Dual-Agent Framework for Reliable Reasoning on Knowledge Graphs [16.821922508204935]
R2-KGは、推論を2つの役割に分けるプラグイン・アンド・プレイのフレームワークである。
以上の結果から,R2-KGはKGベースの推論のための柔軟性とコスト効率のよい解であることがわかった。
論文 参考訳(メタデータ) (2025-02-18T11:31:52Z) - Fact-Level Confidence Calibration and Self-Correction [64.40105513819272]
本稿では,事実レベルでの信頼度と妥当性の重み付けを校正するFact-Levelフレームワークを提案する。
また,信頼度の高い自己補正(textbfConFix$)も開発した。
論文 参考訳(メタデータ) (2024-11-20T14:15:18Z) - Calibrating Large Language Models with Sample Consistency [76.23956851098598]
本稿では,複数サンプルモデル生成系の分布から信頼度を導出する可能性について,一貫性の3つの尺度を用いて検討する。
その結果、一貫性に基づくキャリブレーション手法は、既存のポストホック手法よりも優れていることがわかった。
種々のLMの特性に合わせて,キャリブレーションに適した整合性指標を選択するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-02-21T16:15:20Z) - Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs [60.61002524947733]
従来の信頼性推論手法は、内部モデル情報やモデル微調整へのホワイトボックスアクセスに依存していた。
これにより、不確実性推定のためのブラックボックスアプローチの未解決領域を探索する必要性が高まっている。
言語的信頼を導き出すための戦略の推進、複数の応答を生成するためのサンプリング方法、一貫性を計算するための集約手法の3つの要素からなる体系的フレームワークを定義する。
論文 参考訳(メタデータ) (2023-06-22T17:31:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。