論文の概要: ConfTuner: Training Large Language Models to Express Their Confidence Verbally
- arxiv url: http://arxiv.org/abs/2508.18847v1
- Date: Tue, 26 Aug 2025 09:25:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.781401
- Title: ConfTuner: Training Large Language Models to Express Their Confidence Verbally
- Title(参考訳): ConfTuner: 信頼性を垂直に表現するために大規模な言語モデルをトレーニングする
- Authors: Yibo Li, Miao Xiong, Jiaying Wu, Bryan Hooi,
- Abstract要約: 大規模言語モデル(LLM)は、科学、法律、医療といった高度な領域にますます展開されている。
LLMは、しばしば「過信」(overconfidence)として知られる、高い信頼で誤った答えを生成するために観察される。
- 参考スコア(独自算出の注目度): 58.63318088243125
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly deployed in high-stakes domains such as science, law, and healthcare, where accurate expressions of uncertainty are essential for reliability and trust. However, current LLMs are often observed to generate incorrect answers with high confidence, a phenomenon known as "overconfidence". Recent efforts have focused on calibrating LLMs' verbalized confidence: i.e., their expressions of confidence in text form, such as "I am 80% confident that...". Existing approaches either rely on prompt engineering or fine-tuning with heuristically generated uncertainty estimates, both of which have limited effectiveness and generalizability. Motivated by the notion of proper scoring rules for calibration in classical machine learning models, we introduce ConfTuner, a simple and efficient fine-tuning method that introduces minimal overhead and does not require ground-truth confidence scores or proxy confidence estimates. ConfTuner relies on a new loss function, tokenized Brier score, which we theoretically prove to be a proper scoring rule, intuitively meaning that it "correctly incentivizes the model to report its true probability of being correct". ConfTuner improves calibration across diverse reasoning tasks and generalizes to black-box models such as GPT-4o. Our results further show that better-calibrated confidence enables downstream gains in self-correction and model cascade, advancing the development of trustworthy LLM systems. The code is available at https://github.com/liushiliushi/ConfTuner.
- Abstract(参考訳): 大規模言語モデル(LLM)は、信頼性と信頼のために正確な不確かさの表現が不可欠である科学、法律、医療といった高度な領域にますます配備されている。
しかし、現在のLSMは、しばしば「過信」と呼ばれる現象である、高い信頼で誤った答えを生み出すことが観察される。
近年の取り組みでは、LLMの言語的信頼度(すなわち、テキスト形式における信頼の表現)の校正に焦点が当てられている。
既存のアプローチは、迅速なエンジニアリングや、ヒューリスティックに生成された不確実性推定による微調整に依存しており、どちらも有効性と一般化性に制限がある。
従来の機械学習モデルにおけるキャリブレーションの適切なスコアリングルールの概念に触発されたConfTunerは、最小限のオーバーヘッドを導入し、根本信頼度スコアやプロキシ信頼度推定を必要としない、シンプルで効率的な微調整手法である。
ConfTuner は新たな損失関数であるトークン化された Brier スコアに依存しており、これは理論上は適切なスコアリングルールであることを証明しており、直観的には「正しい確率を示すためにモデルに正しいインセンティブを与える」ことを意味する。
ConfTunerは様々な推論タスクのキャリブレーションを改善し、GPT-4oのようなブラックボックスモデルに一般化する。
以上の結果から, 自己補正およびモデルカスケードにおいて, 信頼性が向上し, ダウンストリームゲインが向上し, 信頼性の高いLCMシステムの開発が進められることが示唆された。
コードはhttps://github.com/liushiliushi/ConfTuner.comから入手できる。
関連論文リスト
- On Calibration of Large Language Models: From Response To Capability [66.59139960234326]
大規模言語モデル(LLM)は汎用的な問題解決手段として広くデプロイされている。
本稿では,クエリ上でモデルが期待する精度を目標とするキャリブレーションを提案する。
我々の結果は、キャパシティ校正された信頼度がpass@$k$予測と推論予算割り当てを改善することを示している。
論文 参考訳(メタデータ) (2026-02-14T01:07:45Z) - Direct Confidence Alignment: Aligning Verbalized Confidence with Internal Confidence In Large Language Models [6.918665116014629]
トークン確率から導かれるモデルの内部信頼は、その言語化された信頼とうまく一致しない。
我々は,LLMの言語的信頼と内的信頼とを一致させるために,直接信頼アライメント(DCA)を提案する。
論文 参考訳(メタデータ) (2025-12-12T19:29:05Z) - CritiCal: Can Critique Help LLM Uncertainty or Confidence Calibration? [55.32645640455462]
本稿では,自然言語批判が言語的信頼をいかに高めるかを検討する。
本稿では,LLMの信頼性をただの精度以上で評価し,信頼性を最適化する自己批判を提案する。
実験の結果、CritiCalはSelf-Critiqueや他の競争ベースラインを大きく上回っている。
論文 参考訳(メタデータ) (2025-10-28T15:16:06Z) - Mind the Generation Process: Fine-Grained Confidence Estimation During LLM Generation [63.49409574310576]
大規模言語モデル(LLM)は自信過剰を示し、信頼度の高いスコアを誤った予測に割り当てる。
本研究では,テキスト生成中に高精度できめ細かな信頼スコアを提供する信頼度推定手法であるFineCEを紹介する。
論文で使用されたコードとすべてのベースラインはGitHubで公開されている。
論文 参考訳(メタデータ) (2025-08-16T13:29:35Z) - Verbalized Confidence Triggers Self-Verification: Emergent Behavior Without Explicit Reasoning Supervision [12.287123198288079]
大規模言語モデル(LLM)の安全な配置には不確実性校正が不可欠である
我々は,スカラー信頼ラベルのみを用いた教師付き微調整が,言語モデルの自己検証行動を引き出すのに十分であることがわかった。
キャリブレーションされた不確実性に基づいて,テスト時間スケーリングによる性能向上を図った簡易な再考手法を提案する。
論文 参考訳(メタデータ) (2025-06-04T08:56:24Z) - MetaFaith: Faithful Natural Language Uncertainty Expression in LLMs [66.14178164421794]
メタファイト(MetaFaith)は、ヒトのメタ認知に触発された新規なプロンプトベースのキャリブレーション手法である。
MetaFaithは多種多様なモデルやタスク領域における忠実なキャリブレーションを強力に改善し、忠実度を最大61%向上させることができることを示す。
論文 参考訳(メタデータ) (2025-05-30T17:54:08Z) - Rewarding Doubt: A Reinforcement Learning Approach to Calibrated Confidence Expression of Large Language Models [34.59785123314865]
LLM(Large Language Models)の安全かつ信頼性の高い使用には、その回答に対する信頼性の正確な表現が必要である。
そこで本研究では,LLMを直接微調整し,評価された信頼度を,実際の質問に対する回答とともに表現できる新しい強化学習手法を提案する。
論文 参考訳(メタデータ) (2025-03-04T13:48:50Z) - Fact-Level Confidence Calibration and Self-Correction [64.40105513819272]
本稿では,事実レベルでの信頼度と妥当性の重み付けを校正するFact-Levelフレームワークを提案する。
また,信頼度の高い自己補正(textbfConFix$)も開発した。
論文 参考訳(メタデータ) (2024-11-20T14:15:18Z) - LACIE: Listener-Aware Finetuning for Confidence Calibration in Large Language Models [69.68379406317682]
暗黙的および明示的な信頼マーカーを校正するリスナー対応微調整法 (LACIE) を提案する。
我々は,LACIEがリスナーをモデル化し,回答が正しいかどうかだけでなく,リスナーに受け入れられるかどうかを考察する。
LACIEによるトレーニングの結果、正しい回答の受け入れレベルを維持しながら、誤った回答が受け入れられる割合が47%減少することがわかった。
論文 参考訳(メタデータ) (2024-05-31T17:16:38Z) - SaySelf: Teaching LLMs to Express Confidence with Self-Reflective Rationales [29.33581578047835]
SaySelfは、大規模言語モデルに、より正確なきめ細かな信頼推定を表現するためのトレーニングフレームワークである。
さらに、SaySelf は LLM に対して、パラメトリック知識のギャップを明確に識別する自己反射的合理性を生成するよう指示する。
生成した自己反射的理性は合理的であり、キャリブレーションにさらに貢献できることを示す。
論文 参考訳(メタデータ) (2024-05-31T16:21:16Z) - Calibrating Large Language Models Using Their Generations Only [44.26441565763495]
APRICOT は、信頼目標を設定し、テキスト入力と出力のみに基づいて LLM の信頼度を予測する追加モデルを訓練する手法である。
概念的には単純で、出力以上のターゲットモデルへのアクセスを必要とせず、言語生成に干渉せず、多くの潜在的な使用法を持っている。
閉書質問応答における白箱と黒箱のLCMの校正誤差を考慮し,誤ったLCMの解答を検出する方法として,本手法の競合性を示す。
論文 参考訳(メタデータ) (2024-03-09T17:46:24Z) - Just Ask for Calibration: Strategies for Eliciting Calibrated Confidence
Scores from Language Models Fine-Tuned with Human Feedback [91.22679548111127]
信頼できる現実世界の予測システムは、よく校正された信頼スコアを生成するべきである。
出力トークンとして出力される言語的信頼度は、通常、モデルの条件付き確率よりも良く校正されていることを示す。
論文 参考訳(メタデータ) (2023-05-24T10:12:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。