論文の概要: Do I Really Know? Learning Factual Self-Verification for Hallucination Reduction
- arxiv url: http://arxiv.org/abs/2602.02018v1
- Date: Mon, 02 Feb 2026 12:15:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.136029
- Title: Do I Really Know? Learning Factual Self-Verification for Hallucination Reduction
- Title(参考訳): 私は本当に知っているか?幻覚の軽減のための実地的自己検証を学習する
- Authors: Enes Altinisik, Masoomali Fatehkia, Fatih Deniz, Nadir Durrani, Majd Hawasly, Mohammad Raza, Husrev Taha Sencar,
- Abstract要約: 本稿では,一貫性に基づく自己検証を通じて,大規模言語モデルに事実の不確実性を推論する学習時間フレームワークを提案する。
複数のモデルファミリーとスケールで、VeriFYは事実の幻覚率を9.7から53.3%に下げ、リコールはわずかに減少している。
ソースコード、トレーニングデータ、トレーニングされたモデルチェックポイントは、受け入れ次第リリースされる。
- 参考スコア(独自算出の注目度): 14.310806623700037
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Factual hallucination remains a central challenge for large language models (LLMs). Existing mitigation approaches primarily rely on either external post-hoc verification or mapping uncertainty directly to abstention during fine-tuning, often resulting in overly conservative behavior. We propose VeriFY, a training-time framework that teaches LLMs to reason about factual uncertainty through consistency-based self-verification. VeriFY augments training with structured verification traces that guide the model to produce an initial answer, generate and answer a probing verification query, issue a consistency judgment, and then decide whether to answer or abstain. To address the risk of reinforcing hallucinated content when training on augmented traces, we introduce a stage-level loss masking approach that excludes hallucinated answer stages from the training objective while preserving supervision over verification behavior. Across multiple model families and scales, VeriFY reduces factual hallucination rates by 9.7 to 53.3 percent, with only modest reductions in recall (0.4 to 5.7 percent), and generalizes across datasets when trained on a single source. The source code, training data, and trained model checkpoints will be released upon acceptance.
- Abstract(参考訳): 大型言語モデル (LLM) では、ファクチュアル幻覚は依然として中心的な課題である。
既存の緩和アプローチは、主に外部のポストホックの検証や、微調整中に断念に直接不確実性をマッピングすることに依存しており、しばしば過度に保守的な振る舞いをもたらす。
We propose VeriFY, a training-time framework that teachs LLMs to reasoning factual uncertainty through consistency-based self-verification。
VeriFYは、モデルに初期回答を生成するための構造化された検証トレースによるトレーニングを強化し、探索された検証クエリを生成して回答し、一貫性判定を発行し、答えるかどうかを判断する。
拡張トレースをトレーニングする際の幻覚的内容の強化に対処するため,実験対象から幻覚的回答段階を除外し,検証行動の監督を保ちながらステージレベルの損失マスキング手法を導入する。
複数のモデルファミリとスケールで、VeriFYは事実の幻覚率を9.7から53.3%に下げ、リコールはわずかに減少する(0.4から5.7%)。
ソースコード、トレーニングデータ、トレーニングされたモデルチェックポイントは、受け入れ次第リリースされる。
関連論文リスト
- Train for Truth, Keep the Skills: Binary Retrieval-Augmented Reward Mitigates Hallucinations [103.16279860448874]
新たな二分探索強化報酬(RAR)を用いたオンライン強化学習手法を提案する。
オープンエンド世代では、バイナリRARは幻覚率を39.3%減少させる。
短い形式の質問応答では、モデルは、パラメトリック知識の不足に直面した時に、戦略的に"I don't know"を出力して、控えめに学習する。
論文 参考訳(メタデータ) (2025-10-20T16:45:43Z) - Mitigating Hallucinations in Large Vision-Language Models by Self-Injecting Hallucinations [73.37711261605271]
幻覚緩和法は主に嗜好アライメントに基づいており、嗜好データ収集には外部の人間のアノテーションや補助モデルが必要である。
本稿では,外部依存を伴わない幻覚を緩和する新規で一般化可能な手法である自己注入による自律的選好アライメント(APASI)を提案する。
APASIはターゲットのLVLMを利用して、生成した応答に幻覚を自己注入し、好みのレベルが異なるペアの応答を生成する。
論文 参考訳(メタデータ) (2025-09-14T14:26:53Z) - Unsupervised Hallucination Detection by Inspecting Reasoning Processes [53.15199932086543]
非教師付き幻覚検出は、ラベル付きデータに頼ることなく、大規模言語モデル(LLM)が生成する幻覚コンテンツを特定することを目的としている。
本稿では,非教師なし幻覚検出フレームワークIRISを提案する。
我々の手法は完全に教師なし、計算コストが低く、訓練データが少ない場合でもうまく機能し、リアルタイム検出に適しています。
論文 参考訳(メタデータ) (2025-09-12T06:58:17Z) - Analyzing and Mitigating Object Hallucination: A Training Bias Perspective [108.09666587800781]
我々は,LVLMのトレーニングデータから,特定の対象を隠蔽した反ファクト画像からなる新しいベンチマークPOPEv2を提案する。
現在のLVLMはトレーニングバイアスに悩まされており、トレーニングデータを完全に活用できず、トレーニング中に見られる画像に対してより頻繁に幻覚を与えることができません。
Obliviateは,学習バイアスアンラーニングによる物体幻覚の軽減を目的とした,効率的で軽量な未学習手法である。
論文 参考訳(メタデータ) (2025-08-06T15:51:02Z) - Smoothing Out Hallucinations: Mitigating LLM Hallucination with Smoothed Knowledge Distillation [5.9079338934481225]
我々は知識蒸留(KD)による幻覚の緩和を提案する。
KDは学生モデルにスムーズなソフトラベルを提供し、自信過剰を減らし、事実的根拠を改善する。
要約ベンチマークの実験結果から、KDは標準的な微調整に比べて幻覚を減少させることが示された。
論文 参考訳(メタデータ) (2025-02-16T23:05:36Z) - On-Policy Self-Alignment with Fine-grained Knowledge Feedback for Hallucination Mitigation [47.35777964373532]
幻覚は、大きな言語モデルが応答生成時の知識の境界から逸脱する振る舞いを示すときに起こる。
従来の学習に基づく手法はモデルを微調整しようとするが、非政治的なサンプリングと粗い粒度のフィードバックによって制限される。
RLFHは、LLMが自らの知識境界と自己正しい生成挙動を積極的に探求することを可能にする、政治上の自己調整手法である。
論文 参考訳(メタデータ) (2024-06-18T02:43:49Z) - A Stitch in Time Saves Nine: Detecting and Mitigating Hallucinations of
LLMs by Validating Low-Confidence Generation [76.34411067299331]
大規模な言語モデルは、しばしば信頼性を著しく損なう「ハロシン化」する傾向がある。
生成過程における幻覚を積極的に検出・緩和する手法を提案する。
提案手法は, GPT-3.5モデルの幻覚を平均47.5%から14.5%に低減する。
論文 参考訳(メタデータ) (2023-07-08T14:25:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。