論文の概要: Balancing Classification and Calibration Performance in Decision-Making LLMs via Calibration Aware Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2601.13284v1
- Date: Mon, 19 Jan 2026 18:31:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.009351
- Title: Balancing Classification and Calibration Performance in Decision-Making LLMs via Calibration Aware Reinforcement Learning
- Title(参考訳): 校正支援強化学習による意思決定LDMのバランス分類と校正性能
- Authors: Duygu Nur Yaldiz, Evangelia Spiliopoulou, Zheng Qi, Siddharth Varia, Srikanth Doss, Nikolaos Pappas,
- Abstract要約: よく校正された信頼性により、下流のシステムは、いつモデルを信頼するか、いつフォールバックメカニズムを延期するかを決定できる。
RLVRはタスク性能を向上するが、極めて自信過剰なモデルを生成する。
本稿では,意思決定確率を直接調整するキャリブレーション対応強化学習の定式化を提案する。
- 参考スコア(独自算出の注目度): 10.123352394689134
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly deployed in decision-making tasks, where not only accuracy but also reliable confidence estimates are essential. Well-calibrated confidence enables downstream systems to decide when to trust a model and when to defer to fallback mechanisms. In this work, we conduct a systematic study of calibration in two widely used fine-tuning paradigms: supervised fine-tuning (SFT) and reinforcement learning with verifiable rewards (RLVR). We show that while RLVR improves task performance, it produces extremely overconfident models, whereas SFT yields substantially better calibration, even under distribution shift, though with smaller performance gains. Through targeted experiments, we diagnose RLVR's failure, showing that decision tokens act as extraction steps of the decision in reasoning traces and do not carry confidence information, which prevents reinforcement learning from surfacing calibrated alternatives. Based on this insight, we propose a calibration-aware reinforcement learning formulation that directly adjusts decision-token probabilities. Our method preserves RLVR's accuracy level while mitigating overconfidence, reducing ECE scores up to 9 points.
- Abstract(参考訳): 大規模言語モデル(LLM)は、精度だけでなく信頼性の高い信頼推定が不可欠である意思決定タスクにおいて、ますます多くデプロイされている。
よく校正された信頼性により、下流のシステムは、いつモデルを信頼するか、いつフォールバックメカニズムを延期するかを決定できる。
本研究では、教師付き微調整(SFT)と、検証可能な報酬(RLVR)を用いた強化学習という、2つの広く使われている微調整パラダイムで校正の体系的研究を行う。
RLVRではタスク性能が向上する一方,SFTでは分散シフト下であってもキャリブレーションが大幅に向上するが,性能は向上する。
対象とする実験により,RLVRの故障を診断し,決定トークンがトレースの推論における決定の抽出ステップとして機能し,信頼情報を持たないことを示す。
この知見に基づいて,意思決定確率を直接調整するキャリブレーション対応強化学習の定式化を提案する。
本手法は,高信頼度を保ちながらRLVRの精度を保ち,CEスコアを最大9ポイントまで下げる。
関連論文リスト
- ConfTuner: Training Large Language Models to Express Their Confidence Verbally [58.63318088243125]
大規模言語モデル(LLM)は、科学、法律、医療といった高度な領域にますます展開されている。
LLMは、しばしば「過信」(overconfidence)として知られる、高い信頼で誤った答えを生成するために観察される。
論文 参考訳(メタデータ) (2025-08-26T09:25:32Z) - Beyond Binary Rewards: Training LMs to Reason About Their Uncertainty [59.97939500426759]
本稿ではRLCRについて述べる。RLCRは精度と信頼性を共同で向上する推論モデルを訓練する手法である。
多様なデータセット間で、RLCRは精度を損なうことなくキャリブレーションを大幅に改善することを示す。
また,言語的信頼度をテスト時に活用し,精度とキャリブレーションを向上させることも実証した。
論文 参考訳(メタデータ) (2025-07-22T17:56:01Z) - Know What You Don't Know: Uncertainty Calibration of Process Reward Models [6.091078936502421]
プロセス報酬モデル(PRM)は、推論時間スケーリングアルゴリズムの導出において中心的な役割を果たす。
PRMは、部分的推論ステップが正しい最終回答につながる成功確率を過大評価する傾向がある。
PRM出力を調整して真の成功確率に適合させるキャリブレーション手法を提案する。
論文 参考訳(メタデータ) (2025-06-11T02:39:26Z) - Balancing Two Classifiers via A Simplex ETF Structure for Model Calibration [34.52946891778497]
ディープニューラルネットワーク(DNN)は、さまざまな領域にわたる最先端のパフォーマンスを実証している。
彼らはしばしばキャリブレーションの問題に直面するが、特に自動運転やヘルスケアといった安全上重要な応用においてである。
近年,分類器の観点からモデルキャリブレーションの改善が試みられている。
論文 参考訳(メタデータ) (2025-04-14T09:09:01Z) - CARIL: Confidence-Aware Regression in Imitation Learning for Autonomous Driving [0.0]
エンドツーエンドの視覚に基づく模倣学習は、自動運転の有望な結果を証明している。
従来のアプローチでは、正確な制御を提供するレグレッションベースモデルと、信頼性スコアを提供するが、離散化による精度の低下に悩まされる分類ベースモデルのいずれかに依存している。
我々は、回帰と分類の両ヘッドを統合したデュアルヘッドニューラルネットワークアーキテクチャを導入し、模倣学習における決定信頼性を向上させる。
論文 参考訳(メタデータ) (2025-03-02T08:19:02Z) - Mind the Confidence Gap: Overconfidence, Calibration, and Distractor Effects in Large Language Models [0.6091702876917281]
大規模言語モデル(LLM)は、自然言語処理において顕著な熟練度を示す。
予測された信頼と真の正しさの過度なミスサライメントは、重要な意思決定アプリケーションに重大なリスクをもたらす。
9つのLCMと3つの質問応答データセットにわたるLCMの校正に関する包括的分析を行った。
論文 参考訳(メタデータ) (2025-02-16T07:46:09Z) - Selective Learning: Towards Robust Calibration with Dynamic Regularization [79.92633587914659]
ディープラーニングにおけるミススキャリブレーションとは、予測された信頼とパフォーマンスの間には相違がある、という意味である。
トレーニング中に何を学ぶべきかを学ぶことを目的とした動的正規化(DReg)を導入し、信頼度調整のトレードオフを回避する。
論文 参考訳(メタデータ) (2024-02-13T11:25:20Z) - A Close Look into the Calibration of Pre-trained Language Models [56.998539510508515]
事前訓練された言語モデル(PLM)は、予測の不確かさを確実に見積もることに失敗する可能性がある。
トレーニングにおけるPLMの校正性能の動的変化について検討する。
最近提案された2つの学習可能な手法を拡張して、モデルを直接収集し、合理的な信頼度を推定する。
論文 参考訳(メタデータ) (2022-10-31T21:31:07Z) - Improving the Performance of Robust Control through Event-Triggered
Learning [74.57758188038375]
LQR問題における不確実性に直面していつ学習するかを決定するイベントトリガー学習アルゴリズムを提案する。
本研究では,ロバストな制御器ベースライン上での性能向上を数値例で示す。
論文 参考訳(メタデータ) (2022-07-28T17:36:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。