論文の概要: WildHallucinations: Evaluating Long-form Factuality in LLMs with Real-World Entity Queries
- arxiv url: http://arxiv.org/abs/2407.17468v1
- Date: Wed, 24 Jul 2024 17:59:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-25 13:05:35.464622
- Title: WildHallucinations: Evaluating Long-form Factuality in LLMs with Real-World Entity Queries
- Title(参考訳): WildHallucinations: LLMにおけるリアルタイムエンティティクエリによる長めのファクチュアリティの評価
- Authors: Wenting Zhao, Tanya Goyal, Yu Ying Chiu, Liwei Jiang, Benjamin Newman, Abhilasha Ravichander, Khyathi Chandu, Ronan Le Bras, Claire Cardie, Yuntian Deng, Yejin Choi,
- Abstract要約: 事実性を評価するベンチマークであるWildHallucinationsを紹介する。
それは、大きな言語モデルに、ユーザーとチャットボットの会話から抽出されたエンティティに関する情報を生成するよう促すことによって実現している。
我々は15個のLDMから7,919個のエンティティ上で118,785世代を評価した。
- 参考スコア(独自算出の注目度): 64.239202960816
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While hallucinations of large language models (LLMs) prevail as a major challenge, existing evaluation benchmarks on factuality do not cover the diverse domains of knowledge that the real-world users of LLMs seek information about. To bridge this gap, we introduce WildHallucinations, a benchmark that evaluates factuality. It does so by prompting LLMs to generate information about entities mined from user-chatbot conversations in the wild. These generations are then automatically fact-checked against a systematically curated knowledge source collected from web search. Notably, half of these real-world entities do not have associated Wikipedia pages. We evaluate 118,785 generations from 15 LLMs on 7,919 entities. We find that LLMs consistently hallucinate more on entities without Wikipedia pages and exhibit varying hallucination rates across different domains. Finally, given the same base models, adding a retrieval component only slightly reduces hallucinations but does not eliminate hallucinations.
- Abstract(参考訳): 大規模言語モデル(LLM)の幻覚が大きな課題となっているが、現実性に関する既存の評価ベンチマークでは、LLMの現実世界のユーザが情報を求める知識の多様さをカバーしていない。
このギャップを埋めるために、事実性を評価するベンチマークであるWildHallucinationsを紹介します。
LLMは、ユーザーとチャットボットの会話から抽出されたエンティティに関する情報を野生で生成するように促す。
これらの世代は、Web検索から収集された体系的にキュレートされた知識ソースに対して、自動的に事実チェックされる。
特に、これらの現実世界の実体の半分はウィキペディアのページを持っていない。
我々は15個のLDMから7,919個のエンティティ上で118,785世代を評価した。
LLMはウィキペディアのページのないエンティティに対して一貫して幻覚を呈し、異なるドメイン間で異なる幻覚率を示す。
最後に、同じベースモデルが与えられた場合、検索コンポーネントを追加することで幻覚はわずかに減少するが、幻覚を排除しない。
関連論文リスト
- FaithBench: A Diverse Hallucination Benchmark for Summarization by Modern LLMs [2.871226288151562]
本稿では,10の現代LSMによる難解な幻覚を含む要約幻覚ベンチマークであるFaithBenchを紹介する。
その結果, GPT-4o と GPT-3.5-Turbo が最も幻覚が少ないことが判明した。
最高の幻覚検出モデルでさえ、FaithBenchには50%近い精度があり、将来の改善の余地がたくさんあることを示している。
論文 参考訳(メタデータ) (2024-10-17T04:30:46Z) - LongHalQA: Long-Context Hallucination Evaluation for MultiModal Large Language Models [96.64960606650115]
LongHalQA (LongHalQA) は、6Kの長い複雑な幻覚テキストからなるLLMフリー幻覚ベンチマークである。
LongHalQA は GPT4V の生成した幻覚データによって特徴付けられる。
論文 参考訳(メタデータ) (2024-10-13T18:59:58Z) - Hallucination is Inevitable: An Innate Limitation of Large Language Models [3.4444349898613957]
大規模言語モデルでは幻覚を除去することは不可能である。
フォーマルな世界は現実の世界の一部であり、より複雑であるため、幻覚は現実世界のLLMにも必然的である。
論文 参考訳(メタデータ) (2024-01-22T10:26:14Z) - Fine-grained Hallucination Detection and Editing for Language Models [109.56911670376932]
大規模言語モデル(LM)は、しばしば幻覚と呼ばれる事実的誤りを引き起こす傾向にある。
我々は,幻覚の包括的分類を導入し,幻覚が多様な形態で現れることを議論する。
本稿では, 幻覚自動検出のための新しいタスクを提案し, 新たな評価ベンチマークであるFavaBenchを構築した。
論文 参考訳(メタデータ) (2024-01-12T19:02:48Z) - The Dawn After the Dark: An Empirical Study on Factuality Hallucination
in Large Language Models [134.6697160940223]
幻覚は、大きな言語モデルの信頼できるデプロイには大きな課題となります。
幻覚(検出)の検出方法、LLMが幻覚(ソース)をなぜ検出するのか、そしてそれを緩和するために何ができるか、という3つの重要な疑問がよく研究されるべきである。
本研究は, 幻覚検出, 発生源, 緩和の3つの側面に着目した, LLM幻覚の系統的研究である。
論文 参考訳(メタデータ) (2024-01-06T12:40:45Z) - A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions [40.79317187623401]
大規模言語モデル(LLM)の出現は、自然言語処理(NLP)において大きなブレークスルーとなった。
LLMは幻覚を起こす傾向があり、可視だが非現実的な内容を生成する。
この現象は、実世界の情報検索システムにおけるLCMの信頼性に対する重大な懸念を引き起こす。
論文 参考訳(メタデータ) (2023-11-09T09:25:37Z) - Analyzing and Mitigating Object Hallucination in Large Vision-Language Models [110.12460299261531]
大規模視覚言語モデル(LVLM)は、人間の言語で視覚情報を理解する際、顕著な能力を示した。
LVLMは依然として物体幻覚に悩まされており、画像に実際に存在しない物体を含む記述を生成するという問題である。
そこで我々は,LVLMの幻覚を再現するアルゴリズム LVLM Hallucination Revisor (LURE) を提案する。
論文 参考訳(メタデータ) (2023-10-01T18:10:53Z) - HaluEval: A Large-Scale Hallucination Evaluation Benchmark for Large
Language Models [146.87696738011712]
大型言語モデル(LLM)は幻覚を生成する傾向があり、すなわち、ソースと矛盾したり、事実の知識によって検証できないコンテンツである。
言語モデル(HaluEval)のための幻覚評価ベンチマーク(Halucination Evaluation benchmark)を導入する。
論文 参考訳(メタデータ) (2023-05-19T15:36:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。