論文の概要: Honesty over Accuracy: Trustworthy Language Models through Reinforced Hesitation
- arxiv url: http://arxiv.org/abs/2511.11500v1
- Date: Fri, 14 Nov 2025 17:20:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.741633
- Title: Honesty over Accuracy: Trustworthy Language Models through Reinforced Hesitation
- Title(参考訳): 正確性に関する誠実さ:強化ヘッセイによる信頼できる言語モデル
- Authors: Mohamad Amin Mohamadi, Tianhao Wang, Zhiyuan Li,
- Abstract要約: 現代の言語モデルでは、誤った回答が破滅的な結果をもたらす場合でも、自信ある幻覚が生じることを示す。
RLVR(Reinforceed Hesitation)は,2進法ではなく3進法を用いた強化学習(Reinforcement Learning from Verifiable Rewards, RLVR)の修正である。
- 参考スコア(独自算出の注目度): 12.503662455234954
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern language models fail a fundamental requirement of trustworthy intelligence: knowing when not to answer. Despite achieving impressive accuracy on benchmarks, these models produce confident hallucinations, even when wrong answers carry catastrophic consequences. Our evaluations on GSM8K, MedQA and GPQA show frontier models almost never abstain despite explicit warnings of severe penalties, suggesting that prompts cannot override training that rewards any answer over no answer. As a remedy, we propose Reinforced Hesitation (RH): a modification to Reinforcement Learning from Verifiable Rewards (RLVR) to use ternary rewards (+1 correct, 0 abstention, -$λ$ error) instead of binary. Controlled experiments on logic puzzles reveal that varying $λ$ produces distinct models along a Pareto frontier, where each training penalty yields the optimal model for its corresponding risk regime: low penalties produce aggressive answerers, high penalties conservative abstainers. We then introduce two inference strategies that exploit trained abstention as a coordination signal: cascading routes queries through models with decreasing risk tolerance, while self-cascading re-queries the same model on abstention. Both outperform majority voting with lower computational cost. These results establish abstention as a first-class training objective that transforms ``I don't know'' from failure into a coordination signal, enabling models to earn trust through calibrated honesty about their limits.
- Abstract(参考訳): 現代の言語モデルは、信頼できるインテリジェンスという基本的な要件を失敗する。
ベンチマークで驚くべき精度を達成したにもかかわらず、間違った答えが破滅的な結果をもたらすとしても、これらのモデルは自信ある幻覚を生み出す。
GSM8K, MedQA, GPQAに対する評価では, 厳しい罰則の明確な警告にもかかわらず, フロンティアモデルはほとんど無視されないことが示され, 答えに報いるような訓練を省くことはできないことが示唆された。
本稿では,3次報酬 (+1 correct, 0 abstention, -$λ$ error) を2進ではなく3次報酬 (+1 correct, 0 abstention, -$λ$ error) として用いるための強化学習(Reinforceed Hesitation, RH)を提案する。
論理パズルに関する制御された実験により、様々な$λ$がパレートフロンティアに沿って異なるモデルを生成することが明らかとなり、それぞれのトレーニングペナルティが対応するリスクレジームに対して最適なモデルをもたらす。
次に、トレーニングされた禁忌を協調信号として活用する2つの推論戦略を導入し、リスク許容度を低下したモデルを通してクエリをルーティングし、自己カスケードは禁忌時に同じモデルを再クエリする。
どちらも計算コストの低い多数決に勝っている。
これらの結果は,‘I don't know’ を失敗からコーディネーション信号に変換する一級訓練目標としての棄権を確立し,モデルが限界を正当視することで信頼を得ることを可能にする。
関連論文リスト
- Train for Truth, Keep the Skills: Binary Retrieval-Augmented Reward Mitigates Hallucinations [103.16279860448874]
新たな二分探索強化報酬(RAR)を用いたオンライン強化学習手法を提案する。
オープンエンド世代では、バイナリRARは幻覚率を39.3%減少させる。
短い形式の質問応答では、モデルは、パラメトリック知識の不足に直面した時に、戦略的に"I don't know"を出力して、控えめに学習する。
論文 参考訳(メタデータ) (2025-10-20T16:45:43Z) - Hybrid Reinforcement: When Reward Is Sparse, It's Better to Be Dense [36.71358559780692]
HEROは、検証者信号と報酬モデルスコアを構造化された方法で統合する強化学習フレームワークである。
HEROはRMのみのベースラインと検証者のみのベースラインを一貫して上回り、検証可能なタスクと検証しにくいタスクの両方で大きな利益を上げている。
論文 参考訳(メタデータ) (2025-10-08T17:09:41Z) - Reinforcement Learning with Verifiable yet Noisy Rewards under Imperfect Verifiers [90.50039419576807]
RLVR(Reinforcement Learning with Verifiable Rewards)は、人為的なラベル付けを避けるために、自動検証に対するポリシーを訓練する。
認証ハッキングの脆弱性を軽減するため、多くのRLVRシステムはトレーニング中にバイナリ$0,1$の報酬を破棄する。
この選択にはコストがかかる:textitfalse negatives(正しい回答、FNを拒絶)とtextitfalse positives(間違った回答、FPを受け入れる)を導入する。
論文 参考訳(メタデータ) (2025-10-01T13:56:44Z) - Co-rewarding: Stable Self-supervised RL for Eliciting Reasoning in Large Language Models [56.055015597319674]
検証可能な報酬(RLVR)を用いた強化学習は,大規模言語モデル(LLM)の推論能力の向上に有効である
近年の自己回帰法は LLM の推論能力を解き放つためのラベルフリーな代替手段について検討している。
我々は、他の視点から補完的な監督を求めることにより、トレーニングの安定性を向上させる新しい自己監督型RLフレームワークであるtextitCo-rewardingを提案する。
論文 参考訳(メタデータ) (2025-08-01T08:09:14Z) - The Surprising Effectiveness of Negative Reinforcement in LLM Reasoning [37.13807960501503]
検証可能な報酬を伴う強化学習(RLVR)は、言語モデル(LM)のトレーニングに有望なアプローチである
我々は学習信号を正しい応答の強化と正負の正負の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の
我々は、NSRが不正確な世代を抑え、確率質量を他の可算候補に向けて再分配することで、モデルの以前の信念に導かれることを示す。
論文 参考訳(メタデータ) (2025-06-02T06:10:54Z) - LACIE: Listener-Aware Finetuning for Confidence Calibration in Large Language Models [69.68379406317682]
暗黙的および明示的な信頼マーカーを校正するリスナー対応微調整法 (LACIE) を提案する。
我々は,LACIEがリスナーをモデル化し,回答が正しいかどうかだけでなく,リスナーに受け入れられるかどうかを考察する。
LACIEによるトレーニングの結果、正しい回答の受け入れレベルを維持しながら、誤った回答が受け入れられる割合が47%減少することがわかった。
論文 参考訳(メタデータ) (2024-05-31T17:16:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。