論文の概要: NAACL: Noise-AwAre Verbal Confidence Calibration for LLMs in RAG Systems
- arxiv url: http://arxiv.org/abs/2601.11004v1
- Date: Fri, 16 Jan 2026 05:38:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.364388
- Title: NAACL: Noise-AwAre Verbal Confidence Calibration for LLMs in RAG Systems
- Title(参考訳): NAACL:RAGシステムにおけるLLMのノイズ・ア・ア・バーバル信頼度校正
- Authors: Jiayu Liu, Rui Wang, Qing Zong, Qingcheng Zeng, Tianshi Zheng, Haochen Shi, Dadi Guo, Baixuan Xu, Chunyang Li, Yangqiu Song,
- Abstract要約: 大型言語モデル(LLM)はミッションクリティカルな事実領域で使用される。
LLMのキャリブレーション性能は, ノイズが回復した状況によって低下する。
我々は、ノイズ下での過信を解決するための原則的基盤を提供するため、NAACLルール(Noise-AwAre Confidence CaLibration Rules)を提案する。
- 参考スコア(独自算出の注目度): 53.52419750390942
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurately assessing model confidence is essential for deploying large language models (LLMs) in mission-critical factual domains. While retrieval-augmented generation (RAG) is widely adopted to improve grounding, confidence calibration in RAG settings remains poorly understood. We conduct a systematic study across four benchmarks, revealing that LLMs exhibit poor calibration performance due to noisy retrieved contexts. Specifically, contradictory or irrelevant evidence tends to inflate the model's false certainty, leading to severe overconfidence. To address this, we propose NAACL Rules (Noise-AwAre Confidence CaLibration Rules) to provide a principled foundation for resolving overconfidence under noise. We further design NAACL, a noise-aware calibration framework that synthesizes supervision from about 2K HotpotQA examples guided by these rules. By performing supervised fine-tuning (SFT) with this data, NAACL equips models with intrinsic noise awareness without relying on stronger teacher models. Empirical results show that NAACL yields substantial gains, improving ECE scores by 10.9% in-domain and 8.0% out-of-domain. By bridging the gap between retrieval noise and verbal calibration, NAACL paves the way for both accurate and epistemically reliable LLMs.
- Abstract(参考訳): ミッションクリティカルな事実領域に大規模言語モデル(LLM)をデプロイするには、モデルの信頼性を正確に評価することが不可欠である。
検索強化世代(RAG)はグラウンド化を改善するために広く採用されているが、RAG設定における信頼性校正はいまだに理解されていない。
我々は4つのベンチマークで系統的な研究を行い、LLMはノイズを除去した文脈によってキャリブレーション性能が低下していることを明らかにした。
特に、矛盾する証拠や無関係な証拠は、モデルの偽の確証を増大させ、深刻な過信を引き起こす傾向がある。
そこで我々はNAACLルール(Noise-AwAre Confidence CaLibration Rules)を提案する。
さらに、これらのルールでガイドされた約2K HotpotQAから監視を合成するノイズ対応キャリブレーションフレームワークであるNAACLを設計する。
このデータを用いて教師付き微調整(SFT)を行うことにより、NAACLはより強力な教師モデルに頼ることなく、本質的な雑音認識モデルを提供する。
実験の結果、NAACLは相当な利得を示し、CEスコアは10.9%向上し、ドメイン外は8.0%向上した。
検索ノイズと動詞の校正のギャップを埋めることにより、NAACLは正確なLLMと認識的に信頼できるLLMの両方の道を開く。
関連論文リスト
- SEE: Signal Embedding Energy for Quantifying Noise Interference in Large Audio Language Models [49.313324100819955]
信号埋め込みエネルギー (Signal Embedding Energy, SEE) は、LALM入力に対する雑音強度の影響を定量化する手法である。
SEEはLALM性能と強い相関を示し,0.98。
本稿では,LALMにおけるノイズ定量化のための新しい指標を提案し,実環境におけるロバスト性向上のためのガイダンスを提供する。
論文 参考訳(メタデータ) (2026-01-12T08:57:55Z) - Towards Comprehensive Stage-wise Benchmarking of Large Language Models in Fact-Checking [64.97768177044355]
大規模言語モデル(LLM)は、現実のファクトチェックシステムにますます多くデプロイされている。
FactArenaは、完全に自動化されたアリーナスタイルの評価フレームワークである。
本研究では,静的クレーム検証精度とエンドツーエンドのファクトチェック能力の相違点を明らかにした。
論文 参考訳(メタデータ) (2026-01-06T02:51:56Z) - Mind the Confidence Gap: Overconfidence, Calibration, and Distractor Effects in Large Language Models [0.6091702876917281]
大規模言語モデル(LLM)は、自然言語処理において顕著な熟練度を示す。
予測された信頼と真の正しさの過度なミスサライメントは、重要な意思決定アプリケーションに重大なリスクをもたらす。
9つのLCMと3つの質問応答データセットにわたるLCMの校正に関する包括的分析を行った。
論文 参考訳(メタデータ) (2025-02-16T07:46:09Z) - Confident or Seek Stronger: Exploring Uncertainty-Based On-device LLM Routing From Benchmarking to Generalization [61.02719787737867]
大規模言語モデル(LLM)はますますエッジデバイスにデプロイされ、民主化されている。
1つの有望な解決策は不確実性に基づくSLMルーティングであり、SLM上での低信頼応答が発生すると、高い要求を強いLCMにオフロードする。
我々は1500以上の設定でSLMからLLMへの不確実性駆動型ルーティング戦略のベンチマークと一般化を包括的に調査する。
論文 参考訳(メタデータ) (2025-02-06T18:59:11Z) - Aligning Large Language Models for Faithful Integrity Against Opposing Argument [71.33552795870544]
大規模言語モデル(LLM)は複雑な推論タスクにおいて印象的な機能を示している。
原文が正しい場合でも、会話中に不誠実な議論によって容易に誤解される。
本稿では,信頼度と信頼度を両立させる新しい枠組みを提案する。
論文 参考訳(メタデータ) (2025-01-02T16:38:21Z) - Provenance: A Light-weight Fact-checker for Retrieval Augmented LLM Generation Output [49.893971654861424]
検索強化生成(RAG)から非実効出力を検出する軽量な手法を提案する。
私たちは、二項決定を下すためにしきい値にできる事実性スコアを計算します。
実験の結果, ROC曲線 (AUC) の下では, 関連するオープンソースデータセットの広範囲にわたって高い面積を示すことができた。
論文 参考訳(メタデータ) (2024-11-01T20:44:59Z) - To Trust or Not to Trust? Enhancing Large Language Models' Situated Faithfulness to External Contexts [10.748768620243982]
大規模言語モデル(LLM)は、検索強化世代(RAG)など、外部コンテキストで拡張されることが多い。
正しいコンテキストと間違ったコンテキストの両方を提供する場合、オープンソースモデルとプロプライエタリモデルの両方が、外部情報に過度に依存する傾向にあることを示す。
自己ガイド型信頼推論(SCR)とルールベース信頼推論(RCR)の2つのアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-18T17:59:47Z) - Confidence Estimation for LLM-Based Dialogue State Tracking [9.305763502526833]
大規模言語モデル(LLM)に基づく会話型AIシステムでは,モデルの出力に対する信頼度の推定が重要である。
オープン・アンド・クローズド・ウェイト LLM に提案するアプローチを含む,手法の徹底的な探索を行う。
以上の結果から, 微調整式オープンウェイトLLMはAUC性能が向上し, 信頼性スコアの校正精度が向上することが示唆された。
論文 参考訳(メタデータ) (2024-09-15T06:44:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。