論文の概要: Thinking, Faithful and Stable: Mitigating Hallucinations in LLMs
- arxiv url: http://arxiv.org/abs/2511.15921v1
- Date: Wed, 19 Nov 2025 23:09:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.394772
- Title: Thinking, Faithful and Stable: Mitigating Hallucinations in LLMs
- Title(参考訳): LLMにおける幻覚の軽減
- Authors: Chelsea Zou, Yiheng Yao, Basant Khalil,
- Abstract要約: 大規模言語モデル(LLM)のための自己修正フレームワークを開発する。
最終回答の正しさのみに頼るのではなく、細かな不確実性信号を利用する。
我々は不当な高信頼とエントロピースパイクをペナル化する複合報酬関数を設計する。
- 参考スコア(独自算出の注目度): 0.4115305983711515
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This project develops a self correcting framework for large language models (LLMs) that detects and mitigates hallucinations during multi-step reasoning. Rather than relying solely on final answer correctness, our approach leverages fine grained uncertainty signals: 1) self-assessed confidence alignment, and 2) token-level entropy spikes to detect unreliable and unfaithful reasoning in real time. We design a composite reward function that penalizes unjustified high confidence and entropy spikes, while encouraging stable and accurate reasoning trajectories. These signals guide a reinforcement learning (RL) policy that makes the model more introspective and shapes the model's generation behavior through confidence-aware reward feedback, improving not just outcome correctness but the coherence and faithfulness of their intermediate reasoning steps. Experiments show that our method improves both final answer accuracy and reasoning calibration, with ablations validating the individual contribution of each signal.
- Abstract(参考訳): 本研究は,多段階推論における幻覚の検出と緩和を行う大規模言語モデル(LLM)の自己補正フレームワークを開発する。
最終回答の正しさのみに頼らず、きめ細かい不確実性信号を利用する。
1)自己評価型信頼性アライメント、及び
2) トークンレベルのエントロピーは, 信頼できない, 不信な推論をリアルタイムで検出するためにスパイクする。
我々は,不当な高信頼度とエントロピースパイクをペナルティ化する複合報酬関数を設計し,安定かつ正確な推論軌道を奨励する。
これらの信号は強化学習(RL)ポリシーを導き、モデルをより内省的とし、信頼を意識した報酬フィードバックを通じてモデルの生成挙動を形作り、結果の正しさだけでなく、中間的推論ステップの一貫性と忠実さを改善する。
実験により,各信号の個々の寄与を検証することで,最終回答精度と推論校正の両面での精度が向上することが示された。
関連論文リスト
- Trace Length is a Simple Uncertainty Signal in Reasoning Models [18.432200654999082]
推理トレース長は大きな推理モデルにおいて有用な信頼度推定器であることを示す。
我々の研究は、学習後の推論がトレース長と精度の関係を根本的に変えることを明らかにしている。
高エントロピーや「フォーク」トークンはメカニズムにおいて重要な役割を担っていると認識する。
論文 参考訳(メタデータ) (2025-10-12T02:04:06Z) - Improving Metacognition and Uncertainty Communication in Language Models [13.389881635116472]
大規模言語モデル(LLM)は、意思決定の文脈でますます使われている。
LLMの自信はしばしば誤解され、正解と誤解の区別が不十分である。
教師付き微調整が不確実性を伝達するモデルの能力を向上させるかどうかを検討する。
論文 参考訳(メタデータ) (2025-09-30T19:50:02Z) - Beyond Binary Rewards: Training LMs to Reason About Their Uncertainty [59.97939500426759]
本稿ではRLCRについて述べる。RLCRは精度と信頼性を共同で向上する推論モデルを訓練する手法である。
多様なデータセット間で、RLCRは精度を損なうことなくキャリブレーションを大幅に改善することを示す。
また,言語的信頼度をテスト時に活用し,精度とキャリブレーションを向上させることも実証した。
論文 参考訳(メタデータ) (2025-07-22T17:56:01Z) - How Overconfidence in Initial Choices and Underconfidence Under Criticism Modulate Change of Mind in Large Language Models [28.62988505317048]
大きな言語モデル(LLM)は、非常に矛盾する振る舞いを示す。
LLMは、質問されたときに過度に疑念を抱きがちである一方で、最初の回答において、頑強に過度に自信を抱くように見える。
LLMは選択支援バイアスを顕著に示し、回答に対する信頼度を補強し、向上させることを示す。
論文 参考訳(メタデータ) (2025-07-03T18:57:43Z) - Verbalized Confidence Triggers Self-Verification: Emergent Behavior Without Explicit Reasoning Supervision [12.287123198288079]
大規模言語モデル(LLM)の安全な配置には不確実性校正が不可欠である
我々は,スカラー信頼ラベルのみを用いた教師付き微調整が,言語モデルの自己検証行動を引き出すのに十分であることがわかった。
キャリブレーションされた不確実性に基づいて,テスト時間スケーリングによる性能向上を図った簡易な再考手法を提案する。
論文 参考訳(メタデータ) (2025-06-04T08:56:24Z) - Reasoning Models Hallucinate More: Factuality-Aware Reinforcement Learning for Large Reasoning Models [83.24079543652253]
大規模言語モデル(LLM)は、強化学習(RL)最適化を通じて、推論タスクにおいて著しく進歩している。
しかし、推論指向RL微調整は幻覚の頻度を著しく高めている。
本稿では,明示的事実性検証を取り入れた革新的なRL微調整アルゴリズムであるFSPOを提案する。
論文 参考訳(メタデータ) (2025-05-30T14:23:32Z) - Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards [67.86091419220816]
大規模言語モデル(LLM)は複雑な推論において非常に有望である。
一般的な問題は表面的な自己回帰であり、モデルが自身の出力をしっかりと検証できない。
本稿では、RISE(Reinforce Reasoning with Self-Verification)という新しいオンラインRLフレームワークについて紹介する。
論文 参考訳(メタデータ) (2025-05-19T17:59:31Z) - ConCISE: Confidence-guided Compression in Step-by-step Efficient Reasoning [64.93140713419561]
大型推論モデル (LRM) は、Chain-of-Thought (CoT) による複雑な推論タスクで強く機能するが、しばしば冗長な出力に悩まされる。
既存の微調整ベースの圧縮手法は、ポストホックプルーニングを動作させるか、コヒーレンスを推論する破壊を危険にさらすか、サンプリングベースの選択に依存するかのいずれかである。
ConCISEは、簡潔な推論連鎖を生成するために設計されたフレームワークであり、信頼注入を統合して推論の信頼性を高める。
論文 参考訳(メタデータ) (2025-05-08T01:40:40Z) - Rewarding Doubt: A Reinforcement Learning Approach to Calibrated Confidence Expression of Large Language Models [34.59785123314865]
LLM(Large Language Models)の安全かつ信頼性の高い使用には、その回答に対する信頼性の正確な表現が必要である。
そこで本研究では,LLMを直接微調整し,評価された信頼度を,実際の質問に対する回答とともに表現できる新しい強化学習手法を提案する。
論文 参考訳(メタデータ) (2025-03-04T13:48:50Z) - Improving the Reliability of Large Language Models by Leveraging
Uncertainty-Aware In-Context Learning [76.98542249776257]
大規模言語モデルはしばしば「ハロシン化」の課題に直面している
本研究では,不確実性に応答してモデルが出力を拡張あるいは拒否することを可能にする,不確実性を考慮したコンテキスト内学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-07T12:06:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。