論文の概要: Hallucination Detection: Robustly Discerning Reliable Answers in Large Language Models
- arxiv url: http://arxiv.org/abs/2407.04121v1
- Date: Thu, 4 Jul 2024 18:47:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 15:10:29.208824
- Title: Hallucination Detection: Robustly Discerning Reliable Answers in Large Language Models
- Title(参考訳): 幻覚検出:大規模言語モデルにおける信頼回答のロバストな識別
- Authors: Yuyan Chen, Qiang Fu, Yichen Yuan, Zhihao Wen, Ge Fan, Dayiheng Liu, Dongmei Zhang, Zhixu Li, Yanghua Xiao,
- Abstract要約: 大規模言語モデル(LLM)は様々な自然言語処理タスクで広く採用されている。
それらは、入力源から逸脱する不信または矛盾したコンテンツを生成し、深刻な結果をもたらす。
本稿では,LLMの生成した回答の幻覚を効果的に検出するために,RelDという頑健な識別器を提案する。
- 参考スコア(独自算出の注目度): 70.19081534515371
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have gained widespread adoption in various natural language processing tasks, including question answering and dialogue systems. However, a major drawback of LLMs is the issue of hallucination, where they generate unfaithful or inconsistent content that deviates from the input source, leading to severe consequences. In this paper, we propose a robust discriminator named RelD to effectively detect hallucination in LLMs' generated answers. RelD is trained on the constructed RelQA, a bilingual question-answering dialogue dataset along with answers generated by LLMs and a comprehensive set of metrics. Our experimental results demonstrate that the proposed RelD successfully detects hallucination in the answers generated by diverse LLMs. Moreover, it performs well in distinguishing hallucination in LLMs' generated answers from both in-distribution and out-of-distribution datasets. Additionally, we also conduct a thorough analysis of the types of hallucinations that occur and present valuable insights. This research significantly contributes to the detection of reliable answers generated by LLMs and holds noteworthy implications for mitigating hallucination in the future work.
- Abstract(参考訳): 大規模言語モデル(LLM)は、質問応答や対話システムなど、様々な自然言語処理タスクで広く採用されている。
しかし、LLMの大きな欠点は幻覚の問題であり、それらが入力源から逸脱する不信または矛盾した内容を生成し、深刻な結果をもたらす。
本稿では,LLMの生成した回答の幻覚を効果的に検出する,RelDという頑健な識別器を提案する。
RelDは、LLMによって生成された回答と総合的なメトリクスセットとともに、バイリンガルな質問答え対話データセットであるRelQAでトレーニングされる。
実験結果から,提案するRelDは多種多様なLSMによる幻覚の検出に成功していることが示された。
さらに、LLMの生成した回答の幻覚を、分布内および分布外の両方のデータセットと区別することにも効果がある。
さらに、我々はまた、発生した幻覚の種類を徹底的に分析し、貴重な洞察を提示する。
本研究は, LLMが生成する信頼性の高い解答の検出に大きく貢献し, 今後の研究における幻覚の緩和に重要な意味を持つ。
関連論文リスト
- A Survey of Hallucination in Large Visual Language Models [48.794850395309076]
幻覚の存在は、様々な分野におけるLVLMの可能性と実用性を制限している。
LVLMの構造と幻覚の発生の主な原因を紹介する。
LVLMの幻覚評価ベンチマークについて述べる。
論文 参考訳(メタデータ) (2024-10-20T10:58:58Z) - LongHalQA: Long-Context Hallucination Evaluation for MultiModal Large Language Models [96.64960606650115]
LongHalQA (LongHalQA) は、6Kの長い複雑な幻覚テキストからなるLLMフリー幻覚ベンチマークである。
LongHalQA は GPT4V の生成した幻覚データによって特徴付けられる。
論文 参考訳(メタデータ) (2024-10-13T18:59:58Z) - Mitigating Entity-Level Hallucination in Large Language Models [11.872916697604278]
本稿では,大規模言語モデル(LLM)における幻覚の検出・緩和手法として,幻覚検出(DRAD)に基づく動的検索拡張を提案する。
実験の結果,LDMにおける幻覚の検出と緩和の両面において,DRADは優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-12T16:47:34Z) - Exploring and Evaluating Hallucinations in LLM-Powered Code Generation [14.438161741833687]
LLM(Large Language Models)は、ユーザの意図から逸脱した出力を生成し、内部的不整合を示すか、事実的知識と不整合を示す。
既存の研究は主に、自然言語生成の分野における幻覚の投資に重点を置いている。
我々は,LLM生成コードのテーマ解析を行い,その内に存在する幻覚を要約し,分類する。
幻覚認識におけるLLMの性能評価のためのベンチマークであるHaluCodeを提案する。
論文 参考訳(メタデータ) (2024-04-01T07:31:45Z) - Retrieve Only When It Needs: Adaptive Retrieval Augmentation for Hallucination Mitigation in Large Language Models [68.91592125175787]
幻覚は、大規模言語モデル(LLM)の実践的実装において重要な課題となる。
本稿では,幻覚に対処するための選択的検索拡張プロセスにより,Lowenを改良する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-02-16T11:55:40Z) - DelucionQA: Detecting Hallucinations in Domain-specific Question
Answering [22.23664008053246]
幻覚は、大言語モデル(LLM)によって生成されたテキストでよく知られた現象である
我々は、ドメイン固有のQAタスクのためのLLMの検索による幻覚をキャプチャするデータセットDelucionQAを紹介する。
本研究では,研究コミュニティの今後の研究のベースラインとして,幻覚検出手法のセットを提案する。
論文 参考訳(メタデータ) (2023-12-08T17:41:06Z) - A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions [40.79317187623401]
大規模言語モデル(LLM)の出現は、自然言語処理(NLP)において大きなブレークスルーとなった。
LLMは幻覚を起こす傾向があり、可視だが非現実的な内容を生成する。
この現象は、実世界の情報検索システムにおけるLCMの信頼性に対する重大な懸念を引き起こす。
論文 参考訳(メタデータ) (2023-11-09T09:25:37Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z) - Siren's Song in the AI Ocean: A Survey on Hallucination in Large
Language Models [116.01843550398183]
大規模言語モデル(LLM)は、様々な下流タスクで顕著な機能を示している。
LLMは時折、ユーザ入力から分岐するコンテンツを生成し、以前生成されたコンテキストと矛盾する。
論文 参考訳(メタデータ) (2023-09-03T16:56:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。