論文の概要: Influential Training Data Retrieval for Explaining Verbalized Confidence of LLMs
- arxiv url: http://arxiv.org/abs/2601.10645v1
- Date: Thu, 15 Jan 2026 18:05:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.256747
- Title: Influential Training Data Retrieval for Explaining Verbalized Confidence of LLMs
- Title(参考訳): LLMの言語的信頼を示すためのインフルエンシャルトレーニングデータ検索
- Authors: Yuxi Xia, Loris Schoenegger, Benjamin Roth,
- Abstract要約: 大規模言語モデル(LLM)は、アウトプットに対する信頼を言葉で表すことによって、ユーザの認識された信頼を高めることができる。
本稿では、情報検索と影響推定に基づいて、トレーニングデータに出力された信頼表現をトレースする手法であるTracVCを紹介する。
本分析の結果,OLMo2-13Bはクエリに関係のない信頼性関連データに影響されることが多かった。
- 参考スコア(独自算出の注目度): 2.626100048563503
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) can increase users' perceived trust by verbalizing confidence in their outputs. However, prior work has shown that LLMs are often overconfident, making their stated confidence unreliable since it does not consistently align with factual accuracy. To better understand the sources of this verbalized confidence, we introduce TracVC (\textbf{Trac}ing \textbf{V}erbalized \textbf{C}onfidence), a method that builds on information retrieval and influence estimation to trace generated confidence expressions back to the training data. We evaluate TracVC on OLMo and Llama models in a question answering setting, proposing a new metric, content groundness, which measures the extent to which an LLM grounds its confidence in content-related training examples (relevant to the question and answer) versus in generic examples of confidence verbalization. Our analysis reveals that OLMo2-13B is frequently influenced by confidence-related data that is lexically unrelated to the query, suggesting that it may mimic superficial linguistic expressions of certainty rather than rely on genuine content grounding. These findings point to a fundamental limitation in current training regimes: LLMs may learn how to sound confident without learning when confidence is justified. Our analysis provides a foundation for improving LLMs' trustworthiness in expressing more reliable confidence.
- Abstract(参考訳): 大規模言語モデル(LLM)は、アウトプットに対する信頼を言葉で表すことで、ユーザの認識された信頼を高めることができる。
しかしながら、以前の研究は、LLMがしばしば過信であり、事実の正確さと一貫して一致しないため、彼らの主張した信頼は信頼できないことを示していた。
この言語化された信頼の源泉をよりよく理解するために、トレーニングデータに遡って情報検索と影響推定を構築したTracVC(\textbf{Trac}ing \textbf{V}erbalized \textbf{C}onfidence)を紹介する。
我々は,OLMoモデルとLlamaモデル上でのTracVCを質問応答設定で評価し,LLMがコンテンツ関連トレーニング例(質問と回答に関連する)に対する信頼度を,信頼度言語化の一般的な例と比較した。
解析の結果,OLMo2-13Bはクエリに関係のない信頼関連データの影響を受けやすいことが判明した。
これらの知見は、現在のトレーニング体制における根本的な制限を示唆している: LLMは、信頼が正当化されたときに学習することなく、自信を鳴らす方法を学ぶことができる。
我々の分析は LLM の信頼性向上のための基盤を提供し,信頼性の向上を図っている。
関連論文リスト
- Mind the Generation Process: Fine-Grained Confidence Estimation During LLM Generation [63.49409574310576]
大規模言語モデル(LLM)は自信過剰を示し、信頼度の高いスコアを誤った予測に割り当てる。
本研究では,テキスト生成中に高精度できめ細かな信頼スコアを提供する信頼度推定手法であるFineCEを紹介する。
論文で使用されたコードとすべてのベースラインはGitHubで公開されている。
論文 参考訳(メタデータ) (2025-08-16T13:29:35Z) - Aligning Large Language Models for Faithful Integrity Against Opposing Argument [71.33552795870544]
大規模言語モデル(LLM)は複雑な推論タスクにおいて印象的な機能を示している。
原文が正しい場合でも、会話中に不誠実な議論によって容易に誤解される。
本稿では,信頼度と信頼度を両立させる新しい枠組みを提案する。
論文 参考訳(メタデータ) (2025-01-02T16:38:21Z) - Learning to Route LLMs with Confidence Tokens [43.63392143501435]
大規模言語モデル(LLM)は、いくつかのタスクにおいて印象的なパフォーマンスを示し、現実のアプリケーションにますますデプロイされている。
高精細度設定では、LCMの出力がいつ信頼できないかを知ることが不可欠となる。
本研究では,LLMが回答の信頼度を確実に示すことができる範囲と,この信頼度の概念が下流の精度向上にどのように変換できるかを考察する。
論文 参考訳(メタデータ) (2024-10-17T07:28:18Z) - SaySelf: Teaching LLMs to Express Confidence with Self-Reflective Rationales [29.33581578047835]
SaySelfは、大規模言語モデルに、より正確なきめ細かな信頼推定を表現するためのトレーニングフレームワークである。
さらに、SaySelf は LLM に対して、パラメトリック知識のギャップを明確に識別する自己反射的合理性を生成するよう指示する。
生成した自己反射的理性は合理的であり、キャリブレーションにさらに貢献できることを示す。
論文 参考訳(メタデータ) (2024-05-31T16:21:16Z) - When to Trust LLMs: Aligning Confidence with Response Quality [49.371218210305656]
我々はconfidence-Quality-ORDer保存アライメントアプローチ(CONQORD)を提案する。
品質報酬と秩序保存アライメント報酬機能を統合する。
実験により,CONQORDは信頼性と応答精度のアライメント性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-04-26T09:42:46Z) - TrustScore: Reference-Free Evaluation of LLM Response Trustworthiness [58.721012475577716]
大規模言語モデル(LLM)は、様々な領域にまたがる印象的な能力を示しており、その実践的応用が急増している。
本稿では,行動整合性の概念に基づくフレームワークであるTrustScoreを紹介する。
論文 参考訳(メタデータ) (2024-02-19T21:12:14Z) - What Large Language Models Know and What People Think They Know [13.939511057660013]
大規模言語モデル(LLM)は意思決定プロセスに統合されつつある。
人間の信頼を得るためには、LSMは正確に評価し、正しい予測の可能性を伝達できるように、適切に校正されなければならない。
ここでは, LLM生成回答における人間の信頼度とモデルの実際の信頼度との差を示すキャリブレーションギャップと, 人間とモデルが正解と誤解をいかによく区別できるかを反映した識別ギャップについて検討する。
論文 参考訳(メタデータ) (2024-01-24T22:21:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。