論文の概要: Beyond Binary Rewards: Training LMs to Reason About Their Uncertainty
- arxiv url: http://arxiv.org/abs/2507.16806v1
- Date: Tue, 22 Jul 2025 17:56:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:14.24366
- Title: Beyond Binary Rewards: Training LMs to Reason About Their Uncertainty
- Title(参考訳): バイナリ・リワードを超えて: LMをトレーニングして不確実性について推論する
- Authors: Mehul Damani, Isha Puri, Stewart Slocum, Idan Shenfeld, Leshem Choshen, Yoon Kim, Jacob Andreas,
- Abstract要約: 本稿ではRLCRについて述べる。RLCRは精度と信頼性を共同で向上する推論モデルを訓練する手法である。
多様なデータセット間で、RLCRは精度を損なうことなくキャリブレーションを大幅に改善することを示す。
また,言語的信頼度をテスト時に活用し,精度とキャリブレーションを向上させることも実証した。
- 参考スコア(独自算出の注目度): 59.97939500426759
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When language models (LMs) are trained via reinforcement learning (RL) to generate natural language "reasoning chains", their performance improves on a variety of difficult question answering tasks. Today, almost all successful applications of RL for reasoning use binary reward functions that evaluate the correctness of LM outputs. Because such reward functions do not penalize guessing or low-confidence outputs, they often have the unintended side-effect of degrading calibration and increasing the rate at which LMs generate incorrect responses (or "hallucinate") in other problem domains. This paper describes RLCR (Reinforcement Learning with Calibration Rewards), an approach to training reasoning models that jointly improves accuracy and calibrated confidence estimation. During RLCR, LMs generate both predictions and numerical confidence estimates after reasoning. They are trained to optimize a reward function that augments a binary correctness score with a Brier score -- a scoring rule for confidence estimates that incentivizes calibrated prediction. We first prove that this reward function (or any analogous reward function that uses a bounded, proper scoring rule) yields models whose predictions are both accurate and well-calibrated. We next show that across diverse datasets, RLCR substantially improves calibration with no loss in accuracy, on both in-domain and out-of-domain evaluations -- outperforming both ordinary RL training and classifiers trained to assign post-hoc confidence scores. While ordinary RL hurts calibration, RLCR improves it. Finally, we demonstrate that verbalized confidence can be leveraged at test time to improve accuracy and calibration via confidence-weighted scaling methods. Our results show that explicitly optimizing for calibration can produce more generally reliable reasoning models.
- Abstract(参考訳): 言語モデル(LM)が強化学習(RL)を用いて訓練され、自然言語「推論チェーン」を生成すると、その性能は様々な難しい質問応答タスクで改善される。
今日では、推論におけるRLのほぼすべての成功例は、LM出力の正しさを評価する二項報酬関数を用いている。
このような報酬関数は推測や低信頼の出力をペナルティ化しないため、これらの関数は他の問題領域においてLMが誤った応答(あるいは「ハロシン化」)を生成する速度を増大させる意図しない副作用を持つことが多い。
本稿では,RLCR(Reinforcement Learning with Calibration Rewards)について述べる。
RLCR中、LMは推論後の予測と数値的信頼推定の両方を生成する。
彼らは、二進的正当性スコアをブライアスコアで増大させる報奨関数を最適化する訓練を受けており、これは正当性予測のインセンティブを与える信頼度推定のためのスコアルールである。
まず、この報酬関数(あるいは、有界で適切なスコアリングルールを使用する類似の報酬関数)が、予測が正確かつよく校正されたモデルを生成することを証明する。
次に、さまざまなデータセットにおいて、RLCRは、ドメイン内評価とドメイン外評価の両方において、精度を損なわずにキャリブレーションを大幅に改善します。
通常のRLは校正を損なうが、RLCRはそれを改善する。
最後に,信頼度を重み付けしたスケーリング手法による精度向上と校正のために,言語的信頼度をテスト時に活用できることを実証した。
その結果, キャリブレーションを明示的に最適化することで, より信頼性の高い推論モデルが得られることがわかった。
関連論文リスト
- The Hallucination Dilemma: Factuality-Aware Reinforcement Learning for Large Reasoning Models [63.98194996746229]
大規模言語モデル(LLM)は、強化学習(RL)最適化を通じて、推論タスクにおいて著しく進歩している。
しかし、推論指向RL微調整は幻覚の頻度を著しく高めている。
本稿では,明示的事実性検証を取り入れた革新的なRL微調整アルゴリズムであるFSPOを提案する。
論文 参考訳(メタデータ) (2025-05-30T14:23:32Z) - Thinking Out Loud: Do Reasoning Models Know When They're Right? [19.776645881640178]
大規模推論モデル(LRM)は、最近、複雑な推論タスクにおいて印象的な機能を示した。
本研究では,LRMが他のモデル行動とどのように相互作用するかを,言語的信頼度を解析することによって検討する。
推論モデルには、知識境界に対する認識の低下がある可能性がある。
論文 参考訳(メタデータ) (2025-04-09T03:58:19Z) - Beyond Accuracy: The Role of Calibration in Self-Improving Large Language Models [15.638622371475853]
大規模言語モデル(LLM)は目覚ましい自己改善能力を示している。
本研究では,信頼度推定への影響を調査し,信頼度推定への影響について検討する。
論文 参考訳(メタデータ) (2025-04-03T04:39:54Z) - Calibrating Long-form Generations from Large Language Models [34.72041258464477]
大きな言語モデル(LLM)の信頼性スコアは、その応答が正しいという実際の可能性と一致すべきである。
現在の信頼性評価手法とキャリブレーション基準は、応答の正しさを2値の真/偽評価に頼っている。
本稿では,LLMの応答の正しさと関連する信頼度の両方を,様々なスコアの分布として扱う統一校正フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-09T17:00:32Z) - Just Ask for Calibration: Strategies for Eliciting Calibrated Confidence
Scores from Language Models Fine-Tuned with Human Feedback [91.22679548111127]
信頼できる現実世界の予測システムは、よく校正された信頼スコアを生成するべきである。
出力トークンとして出力される言語的信頼度は、通常、モデルの条件付き確率よりも良く校正されていることを示す。
論文 参考訳(メタデータ) (2023-05-24T10:12:33Z) - A Close Look into the Calibration of Pre-trained Language Models [56.998539510508515]
事前訓練された言語モデル(PLM)は、予測の不確かさを確実に見積もることに失敗する可能性がある。
トレーニングにおけるPLMの校正性能の動的変化について検討する。
最近提案された2つの学習可能な手法を拡張して、モデルを直接収集し、合理的な信頼度を推定する。
論文 参考訳(メタデータ) (2022-10-31T21:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。