論文の概要: HaluEval: A Large-Scale Hallucination Evaluation Benchmark for Large
Language Models
- arxiv url: http://arxiv.org/abs/2305.11747v3
- Date: Mon, 23 Oct 2023 01:49:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 12:26:50.949997
- Title: HaluEval: A Large-Scale Hallucination Evaluation Benchmark for Large
Language Models
- Title(参考訳): halueval: 大言語モデルのための大規模幻覚評価ベンチマーク
- Authors: Junyi Li, Xiaoxue Cheng, Wayne Xin Zhao, Jian-Yun Nie and Ji-Rong Wen
- Abstract要約: 大型言語モデル(LLM)は幻覚を生成する傾向があり、すなわち、ソースと矛盾したり、事実の知識によって検証できないコンテンツである。
言語モデル(HaluEval)のための幻覚評価ベンチマーク(Halucination Evaluation benchmark)を導入する。
- 参考スコア(独自算出の注目度): 146.87696738011712
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs), such as ChatGPT, are prone to generate
hallucinations, i.e., content that conflicts with the source or cannot be
verified by the factual knowledge. To understand what types of content and to
which extent LLMs are apt to hallucinate, we introduce the Hallucination
Evaluation benchmark for Large Language Models (HaluEval), a large collection
of generated and human-annotated hallucinated samples for evaluating the
performance of LLMs in recognizing hallucination. To generate these samples, we
propose a ChatGPT-based two-step framework, i.e., sampling-then-filtering.
Besides, we also hire some human labelers to annotate the hallucinations in
ChatGPT responses. The empirical results suggest that ChatGPT is likely to
generate hallucinated content in specific topics by fabricating unverifiable
information (i.e., about $19.5\%$ responses). Moreover, existing LLMs face
great challenges in recognizing the hallucinations in texts. However, our
experiments also prove that providing external knowledge or adding reasoning
steps can help LLMs recognize hallucinations. Our benchmark can be accessed at
https://github.com/RUCAIBox/HaluEval.
- Abstract(参考訳): ChatGPTのような大規模言語モデル(LLM)は、ソースと矛盾したり、事実の知識によって検証できないコンテンツといった幻覚を生成する傾向にある。
コンテンツの種類や、llmがどの程度幻覚に適しているかを理解するため、大言語モデル(halueval)のための幻覚評価ベンチマークを導入し、幻覚認識におけるllmの性能を評価するために、大量の生成および人間の注釈付き幻覚サンプルを収集した。
これらのサンプルを生成するために,ChatGPTに基づく2段階のフレームワーク,すなわちサンプリング・then-filteringを提案する。
また、ChatGPT応答の幻覚に注釈を付けるために、人間のラベルも採用しています。
実験結果から、ChatGPTは検証不能な情報(約19.5 %$レスポンス)を作成して特定のトピックの幻覚コンテンツを生成する可能性が示唆された。
さらに、既存のLLMはテキストの幻覚を認識する上で大きな課題に直面している。
しかし、我々の実験は、外部知識の提供や推論ステップの追加がLLMの幻覚認識に役立つことも証明している。
私たちのベンチマークはhttps://github.com/RUCAIBox/HaluEval.orgからアクセスできます。
関連論文リスト
- ANAH: Analytical Annotation of Hallucinations in Large Language Models [65.12177400764506]
我々は、大言語モデルにおける幻覚の@textbfAN$alytical $textbfA$nnotationを提供するデータセットである$textbfANAH$を提示する。
ANAHは、700以上のトピックをカバーする4.3k LLM応答のための12kの文レベルのアノテーションで構成されている。
幻覚アノテーションの微粒化により, LLMの幻覚が解答に蓄積されることを定量的に確認し, ANAHを用いて幻覚アノテーションを訓練し, 評価する。
論文 参考訳(メタデータ) (2024-05-30T17:54:40Z) - Hallucination Diversity-Aware Active Learning for Text Summarization [46.00645048690819]
LLM(Large Language Models)は、幻覚出力を生成するための妥当性を示す。
幻覚を緩和するための既存の方法は、通常、LLM出力の幻覚を識別し修正するために、人為的なアノテーションを必要とする。
LLM幻覚を緩和する最初のアクティブラーニングフレームワークを提案し,必要な幻覚アノテーションのコストを削減した。
論文 参考訳(メタデータ) (2024-04-02T02:30:27Z) - Hal-Eval: A Universal and Fine-grained Hallucination Evaluation Framework for Large Vision Language Models [35.45859414670449]
我々は,新しいカテゴリーであるイベント幻覚(Event Hallucination)を特徴とする,幻覚の洗練された分類を導入した。
次に,多種多様な幻覚からなる微粒な幻覚データの生成とフィルタリングに高度LLMを利用する。
提案するベンチマークでは,広帯域の幻覚に対処するLVLMの能力を顕著に評価している。
論文 参考訳(メタデータ) (2024-02-24T05:14:52Z) - The Dawn After the Dark: An Empirical Study on Factuality Hallucination
in Large Language Models [134.6697160940223]
幻覚は、大きな言語モデルの信頼できるデプロイには大きな課題となります。
幻覚(検出)の検出方法、LLMが幻覚(ソース)をなぜ検出するのか、そしてそれを緩和するために何ができるか、という3つの重要な疑問がよく研究されるべきである。
本研究は, 幻覚検出, 発生源, 緩和の3つの側面に着目した, LLM幻覚の系統的研究である。
論文 参考訳(メタデータ) (2024-01-06T12:40:45Z) - Alleviating Hallucinations of Large Language Models through Induced
Hallucinations [67.35512483340837]
大規模言語モデル(LLM)は、不正確な情報や製造された情報を含む応答を生成するために観察されている。
幻覚を緩和するための単純なtextitInduce-then-Contrast Decoding (ICD) 戦略を提案する。
論文 参考訳(メタデータ) (2023-12-25T12:32:49Z) - Evaluation and Analysis of Hallucination in Large Vision-Language Models [49.19829480199372]
LVLM(Large Vision-Language Models)は近年大きな成功を収めている。
LVLMは今でも幻覚に悩まされている。
幻覚とは、視覚入力に存在しないLVLMの応答の情報を指す。
論文 参考訳(メタデータ) (2023-08-29T08:51:24Z) - Evaluating Object Hallucination in Large Vision-Language Models [122.40337582958453]
本研究は,大規模視覚言語モデル(LVLM)の物体幻覚に関する最初の体系的研究である。
LVLMは、記述中の対象画像と矛盾しないオブジェクトを生成する傾向がある。
対象の幻覚を評価するために,POPEと呼ばれるポーリングに基づくクエリ手法を提案する。
論文 参考訳(メタデータ) (2023-05-17T16:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。