論文の概要: I-CALM: Incentivizing Confidence-Aware Abstention for LLM Hallucination Mitigation
- arxiv url: http://arxiv.org/abs/2604.03904v1
- Date: Sun, 05 Apr 2026 00:15:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.828138
- Title: I-CALM: Incentivizing Confidence-Aware Abstention for LLM Hallucination Mitigation
- Title(参考訳): I-CALM: LLMのハロシン化抑制に対する信頼意識の欠如の動機付け
- Authors: Haotian Zong, Binze Li, Yufei Long, Sinyin Chang, Jialong Wu, Gillian K. Hadfield,
- Abstract要約: 大規模言語モデル(LLM)は、自信はあるが誤った答えをしばしば生み出す。
モデルを変更することなく、即時のみの介入が幻覚リスクを低減できるかどうかを検討する。
結果から,本フレームワークは質問に対する選択的な回答を,再学習なしに改善できることが示された。
- 参考スコア(独自算出の注目度): 2.688126466709795
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) frequently produce confident but incorrect answers, partly because common binary scoring conventions reward answering over honestly expressing uncertainty. We study whether prompt-only interventions -- explicitly announcing reward schemes for answer-versus-abstain decisions plus humility-oriented normative principles -- can reduce hallucination risk without modifying the model. Our focus is epistemic abstention on factual questions with a verifiable answer, where current LLMs often fail to abstain despite being uncertain about their answers. We first assess self-reported verbal confidence as a usable uncertainty signal, showing stability under prompt paraphrasing and reasonable calibration against a token-probability baseline. We then study I-CALM, a prompt-based framework that (i) elicits verbal confidence, (ii) partially rewards abstention through explicit reward schemes, and (iii) adds lightweight normative principles emphasizing truthfulness, humility, and responsibility. Using GPT-5 mini on PopQA as the main setting, we find that confidence-eliciting, abstention-rewarding prompts, especially with norms, reduce the false-answer rate on answered cases mainly by identifying and shifting error-prone cases to abstention and re-calibrating their confidence. This trades coverage for reliability while leaving forced-answer performance largely unchanged. Varying the abstention reward yields a clear abstention-hallucination frontier. Overall, results show the framework can improve selective answering on factual questions without retraining, with the magnitude of effect varying across models and datasets. Code is available at the following https://github.com/binzeli/hallucinationControl.
- Abstract(参考訳): 大規模言語モデル(LLM)は、信頼度が高いが誤った回答をしばしば生み出す。
モデルを変更することなく、即時のみの介入 -- 回答に逆らう決定に対する報奨スキームと謙虚志向の規範的原則 -- が幻覚リスクを低減できるかどうかを調査する。
我々の焦点は、検証可能な回答で事実の質問を断念することであり、現在のLSMは、その答えが不確実であるにもかかわらず、しばしば棄権しない。
まず,自己申告音声の信頼度を不確実性信号として評価し,トークン確率ベースラインに対する迅速な言い換えと合理的な校正の下での安定性を示す。
次に、プロンプトベースのフレームワークであるI-CALMについて研究する。
一 言論の信任を与えること。
(二)明示的な報奨策により部分的に棄権する、及び
(三)誠実さ、謙虚さ、責任を強調する軽量な規範的原則を加えること。
PopQA 上の GPT-5 mini を主要な設定として用いて, 信頼性向上, 抑止, 抑止, 抑止, 抑止のプロンプトが, 主に誤答事例の誤答率を減らし, 抑止に移行し, 信頼性を再評価する。
これにより、強制応答性能をほとんど変更することなく、信頼性の確保が図られる。
棄権報酬の無効化は、明確な棄権幻覚フロンティアをもたらす。
全体として、このフレームワークは、モデルやデータセットによって異なる効果の規模で、トレーニングをすることなく、現実的な質問に対する選択的な回答を改善することができることを示している。
コードは以下のhttps://github.com/binzeli/hallucinationControlで入手できる。
関連論文リスト
- Confidence Before Answering: A Paradigm Shift for Efficient LLM Uncertainty Estimation [47.91529693614168]
既存の方法は、主に回答ファーストであり、回答を生成した後のみ信頼を生み出す。
モデルが答える前に信頼を出力する信頼第一パラダイムについて検討し、このスコアを正解する確率として解釈する。
我々は,信頼度校正と正解精度をセグメント化された信用代入を通じて協調的に最適化する強化学習フレームワークであるCoCAを提案する。
論文 参考訳(メタデータ) (2026-03-06T04:03:13Z) - Decomposed Prompting Does Not Fix Knowledge Gaps, But Helps Models Say "I Don't Know" [47.930782177987446]
大規模言語モデルは、クローズドブックの質問応答において知識限界を認識するのに苦労することが多く、自信ある幻覚へと繋がる。
我々は、モデルスケールの異なるDirect、Assistive、Incrementalの3つのタスク等価プロンプトとマルチホップQAベンチマークを評価した。
幻覚が一致している間に事実知識が安定しているため、クロスレジームは内部の不確実性の正確なシグナルを与える。
論文 参考訳(メタデータ) (2026-02-04T18:39:58Z) - Fact-Checking with Large Language Models via Probabilistic Certainty and Consistency [7.806516365113592]
大規模言語モデル(LLM)は、事実の正確性を必要とするアプリケーションでますます使われている。
事実チェックはこれらのエラーを軽減することができるが、既存の手法は通常、外的証拠を無差別に回収する。
本稿では,確率的確実性と一貫性(PCC)について紹介する。
論文 参考訳(メタデータ) (2026-01-05T21:57:41Z) - Increasing LLM response trustworthiness using voting ensembles [0.20524609401792396]
質問応答に関する理論的枠組みを導入し,支配的な回答が不足している場合に,アンサンブルが回答の提供を「継続」することを許すことで,残りの回答の信頼性を劇的に向上させることができることを示す。
高い制限のある投票アンサンブルを用いて、回答の信頼性の大きな向上を達成できる一方で、応答の収量と精度は比較的緩やかに低下する。
論文 参考訳(メタデータ) (2025-10-05T06:02:44Z) - Harnessing RLHF for Robust Unanswerability Recognition and Trustworthy Response Generation in LLMs [2.217239320172707]
本稿では, 自己認識型無解性学習システム(SALU)を導入し, 生成過程に直接不解性検出を深く統合する手法を提案する。
SALUは、標準的な質問回答(QA)と、解決不可能なクエリに対する明示的な棄権生成の両方のために、マルチタスク学習フレームワークを使用して訓練されている。
ハイブリッド LLM-classifier システムを含む強力なベースラインを一貫して上回り、質問に対する正しい回答や棄却の全体的な精度を向上する。
論文 参考訳(メタデータ) (2025-07-22T18:44:18Z) - Uncertainty Distillation: Teaching Language Models to Express Semantic Confidence [16.311538811237536]
大規模言語モデル (LLM) は、事実質問に対する回答にますます使われている。
これらの不確実性の言葉化表現が意味を持つためには、表現された信頼度レベルでエラー率を反映すべきである。
そこで本研究では,LLMにセマンティック信頼度を校正する簡単な方法である不確かさ蒸留法を提案する。
論文 参考訳(メタデータ) (2025-03-18T21:29:29Z) - Aligning Large Language Models for Faithful Integrity Against Opposing Argument [71.33552795870544]
大規模言語モデル(LLM)は複雑な推論タスクにおいて印象的な機能を示している。
原文が正しい場合でも、会話中に不誠実な議論によって容易に誤解される。
本稿では,信頼度と信頼度を両立させる新しい枠組みを提案する。
論文 参考訳(メタデータ) (2025-01-02T16:38:21Z) - Understanding the Relationship between Prompts and Response Uncertainty in Large Language Models [55.332004960574004]
大規模言語モデル(LLM)は意思決定に広く使用されているが、特に医療などの重要なタスクにおける信頼性は十分に確立されていない。
本稿では,LSMが生成する応答の不確実性が,入力プロンプトで提供される情報とどのように関連しているかを検討する。
本稿では,LLMが応答を生成する方法を説明し,プロンプトと応答の不確実性の関係を理解するためのプロンプト応答の概念モデルを提案する。
論文 参考訳(メタデータ) (2024-07-20T11:19:58Z) - Mitigating LLM Hallucinations via Conformal Abstention [70.83870602967625]
我々は,大言語モデルが一般ドメインでの応答をいつ無視すべきかを決定するための,原則化された手順を開発する。
我々は、幻覚率(エラー率)の厳密な理論的保証の恩恵を受けるため、共形予測手法を活用して、禁忌手順を開発する。
実験によって得られた共形禁忌法は, 種々の閉書, オープンドメイン生成質問応答データセットに, 幻覚率を確実に拘束する。
論文 参考訳(メタデータ) (2024-04-04T11:32:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。