論文の概要: KnowHalu: Hallucination Detection via Multi-Form Knowledge Based Factual Checking
- arxiv url: http://arxiv.org/abs/2404.02935v1
- Date: Wed, 3 Apr 2024 02:52:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-05 19:04:16.705560
- Title: KnowHalu: Hallucination Detection via Multi-Form Knowledge Based Factual Checking
- Title(参考訳): KnowHalu:マルチフォーム知識に基づくファクチュアルチェックによる幻覚検出
- Authors: Jiawei Zhang, Chejian Xu, Yu Gai, Freddy Lecue, Dawn Song, Bo Li,
- Abstract要約: KnowHaluは、大規模言語モデル(LLM)によって生成されたテキスト中の幻覚を検出する新しいアプローチである
ステップワイズ推論、マルチフォームクエリ、ファクトチェックのためのマルチフォーム知識、フュージョンベースの検出メカニズムを使用する。
評価の結果,KnowHaluは様々なタスクにおける幻覚検出においてSOTAベースラインを著しく上回っていることがわかった。
- 参考スコア(独自算出の注目度): 55.2155025063668
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces KnowHalu, a novel approach for detecting hallucinations in text generated by large language models (LLMs), utilizing step-wise reasoning, multi-formulation query, multi-form knowledge for factual checking, and fusion-based detection mechanism. As LLMs are increasingly applied across various domains, ensuring that their outputs are not hallucinated is critical. Recognizing the limitations of existing approaches that either rely on the self-consistency check of LLMs or perform post-hoc fact-checking without considering the complexity of queries or the form of knowledge, KnowHalu proposes a two-phase process for hallucination detection. In the first phase, it identifies non-fabrication hallucinations--responses that, while factually correct, are irrelevant or non-specific to the query. The second phase, multi-form based factual checking, contains five key steps: reasoning and query decomposition, knowledge retrieval, knowledge optimization, judgment generation, and judgment aggregation. Our extensive evaluations demonstrate that KnowHalu significantly outperforms SOTA baselines in detecting hallucinations across diverse tasks, e.g., improving by 15.65% in QA tasks and 5.50% in summarization tasks, highlighting its effectiveness and versatility in detecting hallucinations in LLM-generated content.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)が生成するテキストの幻覚を検出する新しい手法であるKnowHaluを紹介する。
LLMは様々な領域にまたがって適用されているため、その出力が幻覚しないよう保証することが重要である。
LLMの自己整合性チェックに依存する既存のアプローチの限界を認識し、クエリの複雑さや知識の形式を考慮せずに、ポストホックな事実チェックを行う、KnowHalu氏は幻覚検出のための2段階のプロセスを提案する。
第1フェーズでは、非ファブリケーション幻覚を識別するが、実際には正しいが、クエリとは無関係あるいは非特異である、と応答する。
第2フェーズは、多形式ベースの事実チェックであり、推論とクエリ分解、知識検索、知識最適化、判断生成、判断集約の5つの重要なステップを含む。
以上の結果から,KnowHaluは多種多様なタスク,例えばQAタスクの15.65%,要約タスクの5.50%の改善においてSOTAベースラインを著しく上回り,LLM生成コンテンツにおける幻覚検出の有効性と汎用性を強調した。
関連論文リスト
- HalluVault: A Novel Logic Programming-aided Metamorphic Testing Framework for Detecting Fact-Conflicting Hallucinations in Large Language Models [11.138489774712163]
我々は、FCH(Fact-Conflicting Hallucinations)の検出のためのメタモルフィックテストを強化するために、論理プログラミングを活用する革新的なアプローチを提案する。
テストケースを生成し,9つのドメインにまたがる6つの異なる大言語モデルに対して幻覚を検知し,24.7%から59.8%の比率を示した。
論文 参考訳(メタデータ) (2024-05-01T17:24:42Z) - In Search of Truth: An Interrogation Approach to Hallucination Detection [12.427232123205671]
大きな言語モデル(LLM)は、現実的に聞こえる答えを発明するが、現実の真実から遠ざかる。
本稿では,大規模言語モデルにおける幻覚検出手法を提案する。
実験では,Llama-2の幻覚を最大62%観察し,外的知識に依存しない平衡精度(B-ACC)を87%の精度で達成した。
論文 参考訳(メタデータ) (2024-03-05T11:50:01Z) - Retrieve Only When It Needs: Adaptive Retrieval Augmentation for
Hallucination Mitigation in Large Language Models [73.93616728895401]
幻覚は、大規模言語モデル(LLM)の実践的実装において重要な課題となる。
本稿では,幻覚に対処するための選択的検索拡張プロセスにより,Lowenを改良する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-02-16T11:55:40Z) - DelucionQA: Detecting Hallucinations in Domain-specific Question
Answering [22.23664008053246]
幻覚は、大言語モデル(LLM)によって生成されたテキストでよく知られた現象である
我々は、ドメイン固有のQAタスクのためのLLMの検索による幻覚をキャプチャするデータセットDelucionQAを紹介する。
本研究では,研究コミュニティの今後の研究のベースラインとして,幻覚検出手法のセットを提案する。
論文 参考訳(メタデータ) (2023-12-08T17:41:06Z) - Enhancing Uncertainty-Based Hallucination Detection with Stronger Focus [99.33091772494751]
大規模言語モデル(LLM)は、様々な分野にわたる印象的なパフォーマンスで大きな人気を集めている。
LLMは、ユーザの期待を満たさない非現実的あるいは非感覚的なアウトプットを幻覚させる傾向がある。
LLMにおける幻覚を検出するための新しい基準のない不確実性に基づく手法を提案する。
論文 参考訳(メタデータ) (2023-11-22T08:39:17Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [52.513957834345746]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z) - Towards Mitigating Hallucination in Large Language Models via
Self-Reflection [63.2543947174318]
大規模言語モデル(LLM)は、質問応答(QA)タスクを含む生成的および知識集約的なタスクを約束している。
本稿では,広範に採用されているLCMとデータセットを用いた医療再生QAシステムにおける幻覚現象を解析する。
論文 参考訳(メタデータ) (2023-10-10T03:05:44Z) - A Stitch in Time Saves Nine: Detecting and Mitigating Hallucinations of
LLMs by Validating Low-Confidence Generation [76.34411067299331]
大規模な言語モデルは、しばしば信頼性を著しく損なう「ハロシン化」する傾向がある。
生成過程における幻覚を積極的に検出・緩和する手法を提案する。
提案手法は, GPT-3.5モデルの幻覚を平均47.5%から14.5%に低減する。
論文 参考訳(メタデータ) (2023-07-08T14:25:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。