論文の概要: HELMA: A Large-Scale Hallucination Evaluation Benchmark for Large
Language Models
- arxiv url: http://arxiv.org/abs/2305.11747v1
- Date: Fri, 19 May 2023 15:36:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-22 13:48:45.374439
- Title: HELMA: A Large-Scale Hallucination Evaluation Benchmark for Large
Language Models
- Title(参考訳): HELMA:大規模言語モデルのための大規模幻覚評価ベンチマーク
- Authors: Junyi Li, Xiaoxue Cheng, Wayne Xin Zhao, Jian-Yun Nie and Ji-Rong Wen
- Abstract要約: 大規模言語モデル(LLM)は、ソースと矛盾する、あるいは事実知識によって検証できない、幻覚、すなわち内容を生成する傾向にある。
本稿では,HELMA(Halucination Evaluation for Large Language Models)ベンチマークを紹介する。
- 参考スコア(独自算出の注目度): 92.44020278355738
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs), such as ChatGPT, are prone to generate
hallucinations, \ie content that conflicts with the source or cannot be
verified by the factual knowledge. To understand what types of content and to
which extent LLMs are apt to hallucinate, we introduce the Hallucination
Evaluation for Large Language Models (HELMA) benchmark, a large collection of
generated and human-annotated hallucinated samples for evaluating the
performance of LLMs in recognizing and alleviating hallucination. To generate
these samples, we propose a ChatGPT-based two-step framework, \ie
sampling-then-filtering. Specifically, we first adopt two different sampling
methods to generate hallucinated samples based on instructions, and then use an
example-enhanced filtering method to select the best one. Furthermore, we also
hire some human labelers to annotate the hallucinations in ChatGPT responses.
The empirical results suggest that ChatGPT has some probabilities to generate
hallucinations and existing LLMs face great challenges in recognizing the
hallucinations in text. In addition, the performance can be improved by
providing external knowledge or adding reasoning steps. Our benchmark can be
accessed at https://github.com/RUCAIBox/HELMA.
- Abstract(参考訳): chatgptのような大規模言語モデル(llm)は、ソースと矛盾したり、事実的知識によって検証できない幻覚や \ie コンテンツを生成する傾向がある。
コンテンツの種類や,llmがどの程度幻覚に適しているかを理解するために,大言語モデル(helma)ベンチマークの幻覚評価(hallucination evaluation for large language models)を紹介する。
これらのサンプルを生成するために,chatgpt ベースの2ステップフレームワーク \ie sample-then-filtering を提案する。
具体的には,まず2つの異なるサンプリング法を適用し,指示に基づいて幻覚的なサンプルを生成し,サンプル強調フィルタリング法を用いて最適なサンプルを選択する。
また,ChatGPT応答の幻覚に注釈を付けるために,人間のラベルも採用している。
実験の結果,ChatGPTは幻覚を発生させる可能性が示唆され,既存のLLMはテキストで幻覚を認識する上で大きな課題に直面している。
さらに、外部の知識を提供するか、推論ステップを追加することでパフォーマンスを向上させることができる。
私たちのベンチマークはhttps://github.com/RUCAIBox/HELMAでアクセスできます。
関連論文リスト
- ANAH: Analytical Annotation of Hallucinations in Large Language Models [65.12177400764506]
我々は、大言語モデルにおける幻覚の@textbfAN$alytical $textbfA$nnotationを提供するデータセットである$textbfANAH$を提示する。
ANAHは、700以上のトピックをカバーする4.3k LLM応答のための12kの文レベルのアノテーションで構成されている。
幻覚アノテーションの微粒化により, LLMの幻覚が解答に蓄積されることを定量的に確認し, ANAHを用いて幻覚アノテーションを訓練し, 評価する。
論文 参考訳(メタデータ) (2024-05-30T17:54:40Z) - Hallucination Diversity-Aware Active Learning for Text Summarization [46.00645048690819]
LLM(Large Language Models)は、幻覚出力を生成するための妥当性を示す。
幻覚を緩和するための既存の方法は、通常、LLM出力の幻覚を識別し修正するために、人為的なアノテーションを必要とする。
LLM幻覚を緩和する最初のアクティブラーニングフレームワークを提案し,必要な幻覚アノテーションのコストを削減した。
論文 参考訳(メタデータ) (2024-04-02T02:30:27Z) - Hal-Eval: A Universal and Fine-grained Hallucination Evaluation
Framework for Large Vision Language Models [36.98580310654515]
我々は,新しいカテゴリーであるイベント幻覚(Event Hallucination)を特徴とする,幻覚の洗練された分類を導入した。
次に,多種多様な幻覚からなる微粒な幻覚データの生成とフィルタリングに高度LLMを利用する。
提案するベンチマークでは,広帯域の幻覚に対処するLVLMの能力を顕著に評価している。
論文 参考訳(メタデータ) (2024-02-24T05:14:52Z) - The Dawn After the Dark: An Empirical Study on Factuality Hallucination
in Large Language Models [134.6697160940223]
幻覚は、大きな言語モデルの信頼できるデプロイには大きな課題となります。
幻覚(検出)の検出方法、LLMが幻覚(ソース)をなぜ検出するのか、そしてそれを緩和するために何ができるか、という3つの重要な疑問がよく研究されるべきである。
本研究は, 幻覚検出, 発生源, 緩和の3つの側面に着目した, LLM幻覚の系統的研究である。
論文 参考訳(メタデータ) (2024-01-06T12:40:45Z) - Alleviating Hallucinations of Large Language Models through Induced
Hallucinations [67.35512483340837]
大規模言語モデル(LLM)は、不正確な情報や製造された情報を含む応答を生成するために観察されている。
幻覚を緩和するための単純なtextitInduce-then-Contrast Decoding (ICD) 戦略を提案する。
論文 参考訳(メタデータ) (2023-12-25T12:32:49Z) - Evaluation and Analysis of Hallucination in Large Vision-Language Models [49.19829480199372]
LVLM(Large Vision-Language Models)は近年大きな成功を収めている。
LVLMは今でも幻覚に悩まされている。
幻覚とは、視覚入力に存在しないLVLMの応答の情報を指す。
論文 参考訳(メタデータ) (2023-08-29T08:51:24Z) - Evaluating Object Hallucination in Large Vision-Language Models [122.40337582958453]
本研究は,大規模視覚言語モデル(LVLM)の物体幻覚に関する最初の体系的研究である。
LVLMは、記述中の対象画像と矛盾しないオブジェクトを生成する傾向がある。
対象の幻覚を評価するために,POPEと呼ばれるポーリングに基づくクエリ手法を提案する。
論文 参考訳(メタデータ) (2023-05-17T16:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。