論文の概要: Medico: Towards Hallucination Detection and Correction with Multi-source Evidence Fusion
- arxiv url: http://arxiv.org/abs/2410.10408v1
- Date: Mon, 14 Oct 2024 12:00:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-29 21:44:49.446867
- Title: Medico: Towards Hallucination Detection and Correction with Multi-source Evidence Fusion
- Title(参考訳): メディコ:マルチソースエビデンス融合による幻覚検出と補正を目指して
- Authors: Xinping Zhao, Jindi Yu, Zhenyu Liu, Jifang Wang, Dongfang Li, Yibin Chen, Baotian Hu, Min Zhang,
- Abstract要約: 幻覚はLarge Language Models (LLMs) で広まり、生成されたコンテンツは一貫性があるが、実際には正しくない。
マルチソースエビデンス融合による幻覚検出と修正の枠組みであるメディコについて述べる。
複数の情報源から様々な証拠を抽出し、生成されたコンテンツが事実的誤りを含むかどうかを検知し、判断の背後にある根拠を与え、幻覚されたコンテンツを反復的に修正する。
- 参考スコア(独自算出の注目度): 21.565157677548854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As we all know, hallucinations prevail in Large Language Models (LLMs), where the generated content is coherent but factually incorrect, which inflicts a heavy blow on the widespread application of LLMs. Previous studies have shown that LLMs could confidently state non-existent facts rather than answering ``I don't know''. Therefore, it is necessary to resort to external knowledge to detect and correct the hallucinated content. Since manual detection and correction of factual errors is labor-intensive, developing an automatic end-to-end hallucination-checking approach is indeed a needful thing. To this end, we present Medico, a Multi-source evidence fusion enhanced hallucination detection and correction framework. It fuses diverse evidence from multiple sources, detects whether the generated content contains factual errors, provides the rationale behind the judgment, and iteratively revises the hallucinated content. Experimental results on evidence retrieval (0.964 HR@5, 0.908 MRR@5), hallucination detection (0.927-0.951 F1), and hallucination correction (0.973-0.979 approval rate) manifest the great potential of Medico. A video demo of Medico can be found at https://youtu.be/RtsO6CSesBI.
- Abstract(参考訳): 私たちが知っているように、幻覚は大規模言語モデル(LLMs)で広まっており、生成したコンテンツは一貫性があるが、実際には正しくないため、LLMの広範な適用に大きな打撃を与えます。
以前の研究では、LLMは「私は知らない」と答えるよりも、確実に存在しない事実を述べることができた。
そのため、幻覚的内容の検出・修正には外部知識を活用する必要がある。
事実の誤りを手動で検出し修正することは、労働集約的であるため、自動エンドツーエンドの幻覚検査手法を開発することは、本当に必要なことだ。
この目的のために,マルチソースエビデンス融合による幻覚検出・修正フレームワークであるMedicoを提案する。
複数の情報源から様々な証拠を抽出し、生成されたコンテンツが事実的誤りを含むかどうかを検知し、判断の背後にある根拠を与え、幻覚されたコンテンツを反復的に修正する。
証拠検索 (0.964 HR@5, 0.908 MRR@5), 幻覚検出 (0.927-0.951 F1), 幻覚補正 (0.973-0.979 承認率) はメディコの大きな可能性を示す。
Medicoのビデオデモはhttps://youtu.be/RtsO6CSsBIで見ることができる。
関連論文リスト
- MedHalu: Hallucinations in Responses to Healthcare Queries by Large Language Models [26.464489158584463]
患者からのリアルタイム医療クエリに対するLCM生成反応における幻覚の先駆的な研究を行う。
MedHaluは、健康関連トピックが多種多様である、注意深く構築された医療幻覚データセットである。
MedHaluDetect フレームワークを導入し,幻覚検出における様々な LLM の機能を評価する。
論文 参考訳(メタデータ) (2024-09-29T00:09:01Z) - Halu-J: Critique-Based Hallucination Judge [22.79828961875684]
批判に基づく幻覚判断器であるHalu-Jを紹介する。
Halu-Jは、関連する証拠を選択し、詳細な批評を提供することで幻覚の検出を強化する。
実験の結果,Hlu-J は GPT-4o よりも多値幻覚検出に優れていた。
論文 参考訳(メタデータ) (2024-07-17T18:21:01Z) - Hallucination Detection: Robustly Discerning Reliable Answers in Large Language Models [70.19081534515371]
大規模言語モデル(LLM)は様々な自然言語処理タスクで広く採用されている。
それらは、入力源から逸脱する不信または矛盾したコンテンツを生成し、深刻な結果をもたらす。
本稿では,LLMの生成した回答の幻覚を効果的に検出するために,RelDという頑健な識別器を提案する。
論文 参考訳(メタデータ) (2024-07-04T18:47:42Z) - On Large Language Models' Hallucination with Regard to Known Facts [74.96789694959894]
大規模な言語モデルはファクトイドの質問に答えることに成功したが、幻覚を起こす傾向がある。
正しい解答知識を持つLLMの現象を推論力学の観点から検討する。
我々の研究は、LLMの幻覚が既知の事実について、そしてより重要なのは、幻覚を正確に予測する理由を理解することに光を当てた。
論文 参考訳(メタデータ) (2024-03-29T06:48:30Z) - Fine-grained Hallucination Detection and Editing for Language Models [109.56911670376932]
大規模言語モデル(LM)は、しばしば幻覚と呼ばれる事実的誤りを引き起こす傾向にある。
我々は,幻覚の包括的分類を導入し,幻覚が多様な形態で現れることを議論する。
本稿では, 幻覚自動検出のための新しいタスクを提案し, 新たな評価ベンチマークであるFavaBenchを構築した。
論文 参考訳(メタデータ) (2024-01-12T19:02:48Z) - The Dawn After the Dark: An Empirical Study on Factuality Hallucination
in Large Language Models [134.6697160940223]
幻覚は、大きな言語モデルの信頼できるデプロイには大きな課題となります。
幻覚(検出)の検出方法、LLMが幻覚(ソース)をなぜ検出するのか、そしてそれを緩和するために何ができるか、という3つの重要な疑問がよく研究されるべきである。
本研究は, 幻覚検出, 発生源, 緩和の3つの側面に着目した, LLM幻覚の系統的研究である。
論文 参考訳(メタデータ) (2024-01-06T12:40:45Z) - Alleviating Hallucinations of Large Language Models through Induced
Hallucinations [67.35512483340837]
大規模言語モデル(LLM)は、不正確な情報や製造された情報を含む応答を生成するために観察されている。
幻覚を緩和するための単純なtextitInduce-then-Contrast Decoding (ICD) 戦略を提案する。
論文 参考訳(メタデータ) (2023-12-25T12:32:49Z) - HalluciDoctor: Mitigating Hallucinatory Toxicity in Visual Instruction Data [102.56792377624927]
機械生成データに固有の幻覚は未発見のままである。
本稿では,クロスチェックパラダイムに基づく新しい幻覚検出・除去フレームワークであるHaluciDoctorを提案する。
LLaVAに比べて44.6%の幻覚を緩和し,競争性能を維持した。
論文 参考訳(メタデータ) (2023-11-22T04:52:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。