論文の概要: Calibrating LLMs with Semantic-level Reward
- arxiv url: http://arxiv.org/abs/2605.15588v2
- Date: Wed, 20 May 2026 21:06:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:41.85543
- Title: Calibrating LLMs with Semantic-level Reward
- Title(参考訳): セマンティック・レベル・リワードによるLCMの校正
- Authors: Fengfei Yu, Ruijia Niu, Dongxia Wu, Yian Ma, Rose Yu,
- Abstract要約: 言語モデルを直接意味空間で校正するフレームワークであるtextbfCalibration with Semantic Reward (CSR) を提案する。
CSRは、ほぼすべての設定において、言語化信頼ベースラインよりも低ECEと高AUROCを一貫して達成する。
- 参考スコア(独自算出の注目度): 35.81380656593668
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) are deployed in consequential settings such as medical question answering and legal reasoning, the ability to estimate when their outputs are likely to be correct is essential for safe and reliable use, requiring well-calibrated uncertainty. Standard reinforcement learning with verifiable rewards (RLVR) trains models with a binary correctness reward that is indifferent to confidence, providing no penalty for confident but wrong predictions and thereby degrading calibration. Recent work addresses this by training models to produce verbalized confidence scores alongside answers and rewarding agreement with correctness. However, verbalized confidence is calibrated at the token level and thus exhibits inconsistency across textual variations with same semantic meaning. We propose \textbf{Calibration with Semantic Reward (CSR)}, a framework that calibrates language models directly in semantic space without a verbalized confidence interface. CSR combines the correctness reward with a novel semantic calibration reward that encourages exploitation among correct rollouts by promoting semantic agreement, and exploration among incorrect ones by discouraging spurious consistency. Experiments across three model families on HotpotQA (in-distribution) and TriviaQA, MSMARCO, and NQ-Open (out-of-distribution) show that CSR consistently achieves lower ECE and higher AUROC than verbalized-confidence baselines across nearly all settings, reducing ECE by up to $40\%$ and improving AUROC by up to $31\%$ over verbalized-confidence baselines, with calibration behavior generalizing robustly across all four evaluation settings.
- Abstract(参考訳): 大規模言語モデル(LLM)は、医学的質問応答や法的な推論などの連続的な設定でデプロイされるため、アウトプットの正しいタイミングを見積もる能力は安全で信頼性の高い使用には不可欠であり、明確な不確実性を必要とする。
検証可能な報酬(RLVR)による標準的な強化学習は、信頼に無関心な二進的正当性報酬を持つモデルを訓練し、自信に反するが誤った予測に対するペナルティを与えず、キャリブレーションを低下させる。
最近の研究は、回答と共に言語化された信頼スコアを生成し、正しさとの合意に報いるためのトレーニングモデルによってこの問題に対処している。
しかし、言語化された信頼度はトークンレベルで校正されるため、同じ意味を持つテキストのバリエーションに矛盾が生じる。
本稿では,言語モデルを直接セマンティック空間でキャリブレーションするフレームワークである「セマンティック・リワード付きtextbf{Calibration with Semantic Reward (CSR) 」を提案する。
CSRは、セマンティック・アグリーメントの促進による正しいロールアウトの活用を促進する新しいセマンティック・キャリブレーション・アワードと、セマンティック・アグリーメントの急激な一貫性を損なうことによって、誤ったセマンティック・アグリーメント間の探索を奨励する新しいセマンティック・カリブレーション・アワードと組み合わせている。
HotpotQA(in-distribution)とTriviaQA(英語版)、MSMARCO(英語版)、NQ-Open(out-of-distribution)の3つのモデルファミリーでの実験により、CSRは、ほぼすべての設定において、言語化信頼ベースラインよりも低ECEと高AUROCを一貫して達成し、ECEを最大40 %、言語化信頼ベースラインよりも最大311 %改善し、キャリブレーションの振る舞いは、4つの評価設定すべてで堅牢に一般化している。
関連論文リスト
- Process Supervision of Confidence Margin for Calibrated LLM Reasoning [52.373121066425455]
強化学習(RL)によるテスト時間計算のスケーリングは,大規模言語モデル(LLM)推論能力を向上させるための信頼性の高い経路として登場した。
しかし、結果に基づく報酬は、しばしばモデルに過信感を与え、幻覚、信頼できない信頼ベースの制御、不要な計算割り当てをもたらす。
本稿では,信頼性と信頼性を両立させるキャリブレーションを意識したRLフレームワークであるReinforcement Learning with Confidence Margin(textbfRLCM)を紹介する。
論文 参考訳(メタデータ) (2026-04-25T14:40:13Z) - Confidence Before Answering: A Paradigm Shift for Efficient LLM Uncertainty Estimation [47.91529693614168]
既存の方法は、主に回答ファーストであり、回答を生成した後のみ信頼を生み出す。
モデルが答える前に信頼を出力する信頼第一パラダイムについて検討し、このスコアを正解する確率として解釈する。
我々は,信頼度校正と正解精度をセグメント化された信用代入を通じて協調的に最適化する強化学習フレームワークであるCoCAを提案する。
論文 参考訳(メタデータ) (2026-03-06T04:03:13Z) - Annotation-Efficient Universal Honesty Alignment [70.05453324928955]
既存の手法では、トレーニングなしの信頼度推定や、正当性アノテーションによるトレーニングベースキャリブレーションに頼っている。
Elicitation-Then-Calibration (EliCal) は、まず安価な自己整合性監視を用いて内部信頼を引き出す2段階のフレームワークである。
EliCalは1kの正当性アノテーション(全監督の0.18%)でほぼ最適アライメントを実現し、キャリブレーションのみのベースラインよりも目立たないMMLUタスクでのアライメント性能が向上した。
論文 参考訳(メタデータ) (2025-10-20T13:05:22Z) - Trusted Uncertainty in Large Language Models: A Unified Framework for Confidence Calibration and Risk-Controlled Refusal [31.458406135473805]
異種不確実性証拠を正当性の校正確率に変換する統一フレームワークUniCRを提案する。
UniCRは、温度スケーリングと適切なスコアリングを備えた軽量なキャリブレーションヘッドを学習する。
ショートフォームQA、実行テスト付きコード生成、検索強化ロングフォームQAの実験は、キャリブレーションメトリクスの一貫性のある改善を示している。
論文 参考訳(メタデータ) (2025-09-01T13:14:58Z) - ConfTuner: Training Large Language Models to Express Their Confidence Verbally [58.63318088243125]
大規模言語モデル(LLM)は、科学、法律、医療といった高度な領域にますます展開されている。
LLMは、しばしば「過信」(overconfidence)として知られる、高い信頼で誤った答えを生成するために観察される。
論文 参考訳(メタデータ) (2025-08-26T09:25:32Z) - Beyond Binary Rewards: Training LMs to Reason About Their Uncertainty [59.97939500426759]
本稿ではRLCRについて述べる。RLCRは精度と信頼性を共同で向上する推論モデルを訓練する手法である。
多様なデータセット間で、RLCRは精度を損なうことなくキャリブレーションを大幅に改善することを示す。
また,言語的信頼度をテスト時に活用し,精度とキャリブレーションを向上させることも実証した。
論文 参考訳(メタデータ) (2025-07-22T17:56:01Z) - Verbalized Confidence Triggers Self-Verification: Emergent Behavior Without Explicit Reasoning Supervision [12.287123198288079]
大規模言語モデル(LLM)の安全な配置には不確実性校正が不可欠である
我々は,スカラー信頼ラベルのみを用いた教師付き微調整が,言語モデルの自己検証行動を引き出すのに十分であることがわかった。
キャリブレーションされた不確実性に基づいて,テスト時間スケーリングによる性能向上を図った簡易な再考手法を提案する。
論文 参考訳(メタデータ) (2025-06-04T08:56:24Z) - Just Ask for Calibration: Strategies for Eliciting Calibrated Confidence
Scores from Language Models Fine-Tuned with Human Feedback [91.22679548111127]
信頼できる現実世界の予測システムは、よく校正された信頼スコアを生成するべきである。
出力トークンとして出力される言語的信頼度は、通常、モデルの条件付き確率よりも良く校正されていることを示す。
論文 参考訳(メタデータ) (2023-05-24T10:12:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。