論文の概要: Think Through Uncertainty: Improving Long-Form Generation Factuality via Reasoning Calibration
- arxiv url: http://arxiv.org/abs/2604.12046v1
- Date: Mon, 13 Apr 2026 20:38:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.116869
- Title: Think Through Uncertainty: Improving Long-Form Generation Factuality via Reasoning Calibration
- Title(参考訳): 不確実性を通して考える:推論校正による長寿命世代特性の改善
- Authors: Xin Liu, Lu Wang,
- Abstract要約: 大型言語モデル(LLM)は、しばしば長文生成において幻覚を引き起こす。
既存のアプローチは主にポストホックリビジョンや強化学習を通じて事実性を改善する。
本稿では,LCMに請求レベルでの不確実性について推論するように教えることにより,長期的事実性を改善するフレームワークであるCUREを提案する。
- 参考スコア(独自算出の注目度): 7.51755942515969
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) often hallucinate in long-form generation. Existing approaches mainly improve factuality through post-hoc revision or reinforcement learning (RL) with correctness-based rewards, but they do not teach the model to estimate which parts of its generation are reliable. As a result, models may still state incorrect claims confidently in their responses. Recent advances in reasoning have significantly improved LLM performance, and have been leveraged to estimate confidence by incorporating calibration into RL objectives. However, existing approaches remain limited to a single scalar confidence for the entire response, which is insufficient for long-form generation where uncertainty varies across individual claims. To mitigate this problem, we propose CURE, a framework that improves long-form factuality by teaching LLMs to reason about uncertainty at the claim level. We first introduce a Claim-Aware Reasoning Protocol, which structures outputs into atomic claims paired with explicit confidence estimates. We then develop a multi-stage training pipeline that aligns model confidence with claims' correctness and then optimizes on factuality. The resulting calibrated confidence further enables selective prediction, allowing the model to abstain from uncertain claims at inference time. Experiments on four long-form factuality benchmarks show that CURE consistently improves factual accuracy over competitive supervised and RL baselines, while maintaining factual recall. In particular, it improves claim-level accuracy by up to 39.9% on Biography generation. These gains are accompanied by improved calibration, as reflected by a 16.0% increase in AUROC on FactBench.
- Abstract(参考訳): 大型言語モデル(LLM)は、しばしば長文生成において幻覚を引き起こす。
既存のアプローチは主に、正当性に基づく報酬を伴うポストホックリビジョンや強化学習(RL)を通じて事実性を改善するが、どの世代が信頼できるかをモデルに教えていない。
結果として、モデルは依然として、彼らの反応に自信を持って不正確なクレームを述べることができる。
近年の推論の進歩はLLM性能を著しく向上させ, キャリブレーションをRL目標に組み込むことで信頼性を推定するために活用されている。
しかし、既存のアプローチは応答全体の単一のスカラー信頼に限られており、個々のクレームによって不確実性が変化する長文生成には不十分である。
この問題を軽減するために,LLMに請求レベルでの不確実性を推論するように教えることにより,長期的事実性を改善するフレームワークCUREを提案する。
まず、出力を明示的な信頼度推定と組み合わせた原子クレームに構造化するCrim-Aware Reasoning Protocolを導入する。
次に、モデルの信頼性とクレームの正しさを一致させ、事実性に基づいて最適化する、多段階のトレーニングパイプラインを開発します。
得られたキャリブレーションされた信頼性により、選択的な予測が可能となり、モデルが推論時に不確実なクレームを排除できる。
4つの長期の事実性ベンチマークの実験では、CUREは、競合監督とRLベースラインよりも、ファクトリコールを維持しながら、一貫してファクトリコールの精度を向上させることが示されている。
特に、バイオグラフィー生成において、クレームレベルの精度を39.9%向上させる。
これらの利得は、FactBench上のAUROCの16.0%の増加に反映されるように、キャリブレーションの改善が伴う。
関連論文リスト
- Decoupling Reasoning and Confidence: Resurrecting Calibration in Reinforcement Learning from Verifiable Rewards [71.19033708090389]
Reinforcement Learning from Verifiable Rewards (RLVR) は、大きな言語モデル(LLM)推論を著しく強化するが、校正劣化に苦しむ。
推論と校正の目的を体系的に分離するフレームワークであるDCPOを提案する。
論文 参考訳(メタデータ) (2026-03-10T02:47:59Z) - On Calibration of Large Language Models: From Response To Capability [66.59139960234326]
大規模言語モデル(LLM)は汎用的な問題解決手段として広くデプロイされている。
本稿では,クエリ上でモデルが期待する精度を目標とするキャリブレーションを提案する。
我々の結果は、キャパシティ校正された信頼度がpass@$k$予測と推論予算割り当てを改善することを示している。
論文 参考訳(メタデータ) (2026-02-14T01:07:45Z) - Fact-Checking with Large Language Models via Probabilistic Certainty and Consistency [7.806516365113592]
大規模言語モデル(LLM)は、事実の正確性を必要とするアプリケーションでますます使われている。
事実チェックはこれらのエラーを軽減することができるが、既存の手法は通常、外的証拠を無差別に回収する。
本稿では,確率的確実性と一貫性(PCC)について紹介する。
論文 参考訳(メタデータ) (2026-01-05T21:57:41Z) - Mitigating LLM Hallucination via Behaviorally Calibrated Reinforcement Learning [32.32593439144886]
振舞い校正された強化学習により、小さなモデルは不確実な定量化においてフロンティアモデルを超えることができる。
当社のモデルでは,GPT-5の0.207を超える精度向上率(0.806)を挑戦的なドメイン内評価において達成している。
論文 参考訳(メタデータ) (2025-12-22T22:51:48Z) - ConfTuner: Training Large Language Models to Express Their Confidence Verbally [58.63318088243125]
大規模言語モデル(LLM)は、科学、法律、医療といった高度な領域にますます展開されている。
LLMは、しばしば「過信」(overconfidence)として知られる、高い信頼で誤った答えを生成するために観察される。
論文 参考訳(メタデータ) (2025-08-26T09:25:32Z) - Beyond Binary Rewards: Training LMs to Reason About Their Uncertainty [59.97939500426759]
本稿ではRLCRについて述べる。RLCRは精度と信頼性を共同で向上する推論モデルを訓練する手法である。
多様なデータセット間で、RLCRは精度を損なうことなくキャリブレーションを大幅に改善することを示す。
また,言語的信頼度をテスト時に活用し,精度とキャリブレーションを向上させることも実証した。
論文 参考訳(メタデータ) (2025-07-22T17:56:01Z) - Mind the Confidence Gap: Overconfidence, Calibration, and Distractor Effects in Large Language Models [0.6091702876917281]
大規模言語モデル(LLM)は、自然言語処理において顕著な熟練度を示す。
予測された信頼と真の正しさの過度なミスサライメントは、重要な意思決定アプリケーションに重大なリスクをもたらす。
9つのLCMと3つの質問応答データセットにわたるLCMの校正に関する包括的分析を行った。
論文 参考訳(メタデータ) (2025-02-16T07:46:09Z) - Fact-Level Confidence Calibration and Self-Correction [64.40105513819272]
本稿では,事実レベルでの信頼度と妥当性の重み付けを校正するFact-Levelフレームワークを提案する。
また,信頼度の高い自己補正(textbfConFix$)も開発した。
論文 参考訳(メタデータ) (2024-11-20T14:15:18Z) - Improving the Reliability of Large Language Models by Leveraging
Uncertainty-Aware In-Context Learning [76.98542249776257]
大規模言語モデルはしばしば「ハロシン化」の課題に直面している
本研究では,不確実性に応答してモデルが出力を拡張あるいは拒否することを可能にする,不確実性を考慮したコンテキスト内学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-07T12:06:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。