論文の概要: Mitigating LLM Hallucination via Behaviorally Calibrated Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2512.19920v2
- Date: Thu, 25 Dec 2025 04:58:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-29 13:23:29.807193
- Title: Mitigating LLM Hallucination via Behaviorally Calibrated Reinforcement Learning
- Title(参考訳): 行動校正強化学習によるLLM幻覚の緩和
- Authors: Jiayun Wu, Jiashuo Liu, Zhiyuan Zeng, Tianyang Zhan, Tianle Cai, Wenhao Huang,
- Abstract要約: 振舞い校正された強化学習により、小さなモデルは不確実な定量化においてフロンティアモデルを超えることができる。
当社のモデルでは,GPT-5の0.207を超える精度向上率(0.806)を挑戦的なドメイン内評価において達成している。
- 参考スコア(独自算出の注目度): 32.32593439144886
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM deployment in critical domains is currently impeded by persistent hallucinations--generating plausible but factually incorrect assertions. While scaling laws drove significant improvements in general capabilities, theoretical frameworks suggest hallucination is not merely stochastic error but a predictable statistical consequence of training objectives prioritizing mimicking data distribution over epistemic honesty. Standard RLVR paradigms, utilizing binary reward signals, inadvertently incentivize models as good test-takers rather than honest communicators, encouraging guessing whenever correctness probability exceeds zero. This paper presents an exhaustive investigation into behavioral calibration, which incentivizes models to stochastically admit uncertainty by abstaining when not confident, aligning model behavior with accuracy. Synthesizing recent advances, we propose and evaluate training interventions optimizing strictly proper scoring rules for models to output a calibrated probability of correctness. Our methods enable models to either abstain from producing a complete response or flag individual claims where uncertainty remains. Utilizing Qwen3-4B-Instruct, empirical analysis reveals behavior-calibrated reinforcement learning allows smaller models to surpass frontier models in uncertainty quantification--a transferable meta-skill decouplable from raw predictive accuracy. Trained on math reasoning tasks, our model's log-scale Accuracy-to-Hallucination Ratio gain (0.806) exceeds GPT-5's (0.207) in a challenging in-domain evaluation (BeyondAIME). Moreover, in cross-domain factual QA (SimpleQA), our 4B LLM achieves zero-shot calibration error on par with frontier models including Grok-4 and Gemini-2.5-Pro, even though its factual accuracy is much lower.
- Abstract(参考訳): 臨界領域におけるLLMの展開は、現在、持続的な幻覚によって妨げられている。
スケーリング法則は一般的な能力を著しく向上させたが、理論的な枠組みは幻覚は単なる確率的誤りではなく、認識論的誠実さよりもデータの分布を模倣することを優先する訓練目標の予測可能な統計的結果であることを示している。
バイナリ報酬信号を利用する標準RLVRパラダイムは、正直なコミュニケータよりも優れたテストテイカーとしてモデルを不注意にインセンティブし、正確性確率がゼロを超えると推測することを奨励する。
本稿では,モデル動作を精度に整合させることにより,不確かさを確率的に認めることを促す行動キャリブレーションの徹底的な検討について述べる。
近年の進歩を合成し、モデルの正確なスコアリングルールを最適化し、正しさの校正確率を出力する訓練介入を提案し、評価する。
我々の方法では、モデルが完全なレスポンスの生成を控えるか、不確実性が残っている個々のクレームをフラグすることが可能になる。
Qwen3-4B-インストラクトを用いて、実証分析により、小さなモデルでは不確実な定量化においてフロンティアモデルを超えることができる。
数学推論タスクを学習したモデルでは,GPT-5の0.207を超える精度向上率(0.806)を,挑戦的なドメイン内評価(BeyondAIME)で達成した。
さらに,領域横断実数QA(SimpleQA)では,Grok-4やGemini-2.5-Proなどのフロンティアモデルと同等のゼロショットキャリブレーション誤差が得られた。
関連論文リスト
- Geometric Calibration and Neutral Zones for Uncertainty-Aware Multi-Class Classification [0.0]
この研究は情報幾何学と統計的学習を橋渡しし、厳密な検証を必要とするアプリケーションにおいて不確実性を認識した分類の正式な保証を提供する。
アデノ関連ウイルスの分類に関する実証的な検証は、2段階のフレームワークが72.5%のエラーをキャプチャし、34.5%のサンプルを遅延させ、自動決定エラー率を16.8%から6.9%に下げていることを示している。
論文 参考訳(メタデータ) (2025-11-26T01:29:49Z) - Generalized Correctness Models: Learning Calibrated and Model-Agnostic Correctness Predictors from Historical Patterns [67.24756301536617]
本稿では,正確で校正された信頼度を推定する一般化精度モデル(GCM)を提案する。
まず,多くのLCMの正当性データに基づいてGCMをトレーニングできることを示す。
次に,CMをレンズとして,補正予測能力の源泉とその一般化について検討する。
論文 参考訳(メタデータ) (2025-09-29T16:19:01Z) - Beyond Binary Rewards: Training LMs to Reason About Their Uncertainty [59.97939500426759]
本稿ではRLCRについて述べる。RLCRは精度と信頼性を共同で向上する推論モデルを訓練する手法である。
多様なデータセット間で、RLCRは精度を損なうことなくキャリブレーションを大幅に改善することを示す。
また,言語的信頼度をテスト時に活用し,精度とキャリブレーションを向上させることも実証した。
論文 参考訳(メタデータ) (2025-07-22T17:56:01Z) - CLUE: Neural Networks Calibration via Learning Uncertainty-Error alignment [7.702016079410588]
CLUE(Calibration via Learning Uncertainty-Error Alignment)は,学習中の予測不確かさを観測誤差と整合させる新しい手法である。
CLUEは,最先端のアプローチに対して,キャリブレーション品質と競争予測性能に優れることを示す。
論文 参考訳(メタデータ) (2025-05-28T19:23:47Z) - Selective Learning: Towards Robust Calibration with Dynamic Regularization [79.92633587914659]
ディープラーニングにおけるミススキャリブレーションとは、予測された信頼とパフォーマンスの間には相違がある、という意味である。
トレーニング中に何を学ぶべきかを学ぶことを目的とした動的正規化(DReg)を導入し、信頼度調整のトレードオフを回避する。
論文 参考訳(メタデータ) (2024-02-13T11:25:20Z) - Just Ask for Calibration: Strategies for Eliciting Calibrated Confidence
Scores from Language Models Fine-Tuned with Human Feedback [91.22679548111127]
信頼できる現実世界の予測システムは、よく校正された信頼スコアを生成するべきである。
出力トークンとして出力される言語的信頼度は、通常、モデルの条件付き確率よりも良く校正されていることを示す。
論文 参考訳(メタデータ) (2023-05-24T10:12:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。