論文の概要: Zero-knowledge LLM hallucination detection and mitigation through fine-grained cross-model consistency
- arxiv url: http://arxiv.org/abs/2508.14314v1
- Date: Tue, 19 Aug 2025 23:45:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.290951
- Title: Zero-knowledge LLM hallucination detection and mitigation through fine-grained cross-model consistency
- Title(参考訳): きめ細かい交差モデルの整合性によるゼロ知識LDM幻覚検出と緩和
- Authors: Aman Goel, Daniel Schwartz, Yanjun Qi,
- Abstract要約: 大規模言語モデル(LLM)は、様々なタスクにまたがる印象的な能力を示してきたが、幻覚(幻覚)の影響を受けにくい。
Finch-Zkは、FINeの粒度の交差モデルの整合性を利用して、外部の知識源を必要とせず、LLM出力の幻覚を検出・緩和するフレームワークである。
- 参考スコア(独自算出の注目度): 10.052307738781678
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have demonstrated impressive capabilities across diverse tasks, but they remain susceptible to hallucinations--generating content that appears plausible but contains factual inaccuracies. We present Finch-Zk, a black-box framework that leverages FINe-grained Cross-model consistency to detect and mitigate Hallucinations in LLM outputs without requiring external knowledge sources. Finch-Zk introduces two key innovations: 1) a cross-model consistency checking strategy that reveals fine-grained inaccuracies by comparing responses generated by diverse models from semantically-equivalent prompts, and 2) a targeted mitigation technique that applies precise corrections to problematic segments while preserving accurate content. Experiments on the FELM dataset show Finch-Zk improves hallucination detection F1 scores by 6-39\% compared to existing approaches. For mitigation, Finch-Zk achieves 7-8 absolute percentage points improvement in answer accuracy on the GPQA-diamond dataset when applied to state-of-the-art models like Llama 4 Maverick and Claude 4 Sonnet. Extensive evaluation across multiple models demonstrates that Finch-Zk provides a practical, deployment-ready safeguard for enhancing factual reliability in production LLM systems.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なタスクにまたがる印象的な能力を示してきたが、幻覚(幻覚)の影響を受けにくい。
Finch-Zkは、FINeの粒度モデルの整合性を利用して、外部の知識源を必要とせずにLCM出力の幻覚を検出・緩和するブラックボックスフレームワークである。
Finch-Zkが2つの重要なイノベーションを紹介している。
1)意味論的に等価なプロンプトから多種多様なモデルから生成された応答を比較して、きめ細かな不正確性を明らかにするクロスモデル整合性チェック戦略。
2) 正確な内容を保持しつつ, 問題部分に対して正確な補正を行う目的的緩和手法。
FELMデータセットの実験では、Finch-Zkは既存のアプローチと比較して幻覚検出F1スコアを6~39倍改善している。
緩和のために、Finch-Zkは、Llama 4 MaverickやClaude 4 Sonnetといった最先端のモデルに適用した場合、GPQA-ダイアモンドデータセットの回答精度が7~8ポイント向上した。
複数のモデルにわたる広範囲な評価は、Finch-Zkが実運用LLMシステムの信頼性を高めるための実用的でデプロイ可能な安全ガードを提供することを示している。
関連論文リスト
- When Punctuation Matters: A Large-Scale Comparison of Prompt Robustness Methods for LLMs [55.20230501807337]
本報告では, 統一実験フレームワーク内での迅速なロバスト性向上のための5つの手法の体系的評価を行う。
Llama、Qwen、Gemmaファミリーの8つのモデルに対して、Natural Instructionsデータセットから52のタスクをベンチマークする。
論文 参考訳(メタデータ) (2025-08-15T10:32:50Z) - Token Level Hallucination Detection via Variance in Language Models [0.0]
大規模言語モデル(LLM)は、様々なタスクにまたがる印象的な生成能力を示したが、幻覚に弱いままである。
複数世代にわたるトークンログ確率のばらつきを利用した,参照不要なトークンレベルの幻覚検出フレームワークを提案する。
我々のアプローチは、モデルに依存しず、解釈可能であり、リアルタイムまたはポストホック分析に適している。
論文 参考訳(メタデータ) (2025-07-05T19:20:59Z) - SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language Models [74.40683913645731]
Zero-shot Multi-label Recognition (MLR) with Vision-Language Models (VLMs) は、トレーニングデータ、モデルチューニング、アーキテクチャの変更なしに重要な課題に直面している。
我々の研究は、VLMをブラックボックスとして扱い、トレーニングデータや地上の真実を使わずにスコアを活用する新しいソリューションを提案する。
これらのプロンプトスコアの分析により、VLMバイアスとAND'/OR信号の曖昧さが明らかになり、特に、最高スコアは2番目に高いスコアに比べて驚くほど低い。
論文 参考訳(メタデータ) (2025-02-24T07:15:05Z) - Uncertainty-Aware Fusion: An Ensemble Framework for Mitigating Hallucinations in Large Language Models [2.98260857963929]
大規模言語モデル(LLM)は、ユーザの信頼を損なう可能性のある非実効的なアウトプットを幻覚し、生成することが知られている。
表現編集やコントラスト復号といった幻覚を直接緩和する従来の手法は、しばしば追加のトレーニングデータを必要とし、実装の複雑さを伴います。
本研究では,その精度と自己評価能力に基づいて,複数のLSMを戦略的に組み合わせて幻覚を低減するためのアンサンブルフレームワークであるUncertainty-Aware Fusion (UAF)を提案する。
論文 参考訳(メタデータ) (2025-02-22T10:48:18Z) - HuDEx: Integrating Hallucination Detection and Explainability for Enhancing the Reliability of LLM responses [0.12499537119440242]
本稿では,HuDExと命名された幻覚検出モデルについて説明する。
提案モデルでは,検出を説明と統合する新たなアプローチを提供し,ユーザとLLM自体がエラーを理解し,低減することができる。
論文 参考訳(メタデータ) (2025-02-12T04:17:02Z) - Drowzee: Metamorphic Testing for Fact-Conflicting Hallucination Detection in Large Language Models [11.138489774712163]
我々は、FCH(Fact-Conflicting Hallucinations)の検出のためのメタモルフィックテストを強化するために、論理プログラミングを活用する革新的なアプローチを提案する。
テストケースを生成し,9つのドメインにまたがる6つの異なる大言語モデルに対して幻覚を検知し,24.7%から59.8%の比率を示した。
論文 参考訳(メタデータ) (2024-05-01T17:24:42Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z) - Sparse Conditional Hidden Markov Model for Weakly Supervised Named
Entity Recognition [68.68300358332156]
雑音ラベリング機能を評価するために,スパース条件付き隠れマルコフモデル(Sparse-CHMM)を提案する。
Sparse-CHMMは、3段階のトレーニングパイプラインで教師なし学習によって最適化される。
5つの包括的なデータセットで平均F1スコアが3.01向上する。
論文 参考訳(メタデータ) (2022-05-27T20:47:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。