論文の概要: HalluDial: A Large-Scale Benchmark for Automatic Dialogue-Level Hallucination Evaluation
- arxiv url: http://arxiv.org/abs/2406.07070v1
- Date: Tue, 11 Jun 2024 08:56:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 16:44:39.035404
- Title: HalluDial: A Large-Scale Benchmark for Automatic Dialogue-Level Hallucination Evaluation
- Title(参考訳): HalluDial: 対話レベル自動幻覚評価のための大規模ベンチマーク
- Authors: Wen Luo, Tianshu Shen, Wei Li, Guangyue Peng, Richeng Xuan, Houfeng Wang, Xi Yang,
- Abstract要約: 大規模言語モデル(LLM)は自然言語処理(NLP)の分野で大きく進歩した。
HalluDialは、対話レベルの幻覚自動評価のための、初めての総合的な大規模ベンチマークである。
ベンチマークには4,094の対話があり、合計146,856のサンプルが含まれている。
- 参考スコア(独自算出の注目度): 19.318217051269382
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have significantly advanced the field of Natural Language Processing (NLP), achieving remarkable performance across diverse tasks and enabling widespread real-world applications. However, LLMs are prone to hallucination, generating content that either conflicts with established knowledge or is unfaithful to the original sources. Existing hallucination benchmarks primarily focus on sentence- or passage-level hallucination detection, neglecting dialogue-level evaluation, hallucination localization, and rationale provision. They also predominantly target factuality hallucinations while underestimating faithfulness hallucinations, often relying on labor-intensive or non-specialized evaluators. To address these limitations, we propose HalluDial, the first comprehensive large-scale benchmark for automatic dialogue-level hallucination evaluation. HalluDial encompasses both spontaneous and induced hallucination scenarios, covering factuality and faithfulness hallucinations. The benchmark includes 4,094 dialogues with a total of 146,856 samples. Leveraging HalluDial, we conduct a comprehensive meta-evaluation of LLMs' hallucination evaluation capabilities in information-seeking dialogues and introduce a specialized judge language model, HalluJudge. The high data quality of HalluDial enables HalluJudge to achieve superior or competitive performance in hallucination evaluation, facilitating the automatic assessment of dialogue-level hallucinations in LLMs and providing valuable insights into this phenomenon. The dataset and the code are available at https://github.com/FlagOpen/HalluDial.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語処理(NLP)の分野を著しく進歩させ、多様なタスクにまたがる顕著なパフォーマンスを達成し、幅広い現実世界のアプリケーションを実現する。
しかし、LSMは幻覚を起こす傾向があり、確立した知識と矛盾するコンテンツを生成するか、元の情報源に反するコンテンツを生成する。
既存の幻覚ベンチマークは、主に文レベルの幻覚検出、対話レベルの評価の無視、幻覚の局所化、合理的な規定に焦点を当てている。
また、主に事実の幻覚を標的にしつつ、忠実な幻覚を過小評価し、労働集約的あるいは非専門的評価者に依存している。
これらの制約に対処するため,我々は,対話レベルの幻覚自動評価のための総合的な大規模ベンチマークであるHaluDialを提案する。
HalluDialは自然幻覚と帰納幻覚の両方を包含し、事実と忠実な幻覚を包含している。
ベンチマークには4,094の対話があり、合計146,856のサンプルが含まれている。
HalluDialを活用することで、情報検索対話におけるLLMの幻覚評価能力を包括的にメタ評価し、特殊な判断言語モデルである HalluJudge を導入する。
HalluDialの高データ品質により、HauJudgeは幻覚評価において優れた、あるいは競争的なパフォーマンスを達成でき、LLMにおける対話レベルの幻覚の自動評価を容易にし、この現象に関する貴重な洞察を提供することができる。
データセットとコードはhttps://github.com/FlagOpen/HalluDial.comで公開されている。
関連論文リスト
- Hallu-PI: Evaluating Hallucination in Multi-modal Large Language Models within Perturbed Inputs [54.50483041708911]
Hallu-PIは、Perturbed Inputs内のMLLMの幻覚を評価するために設計された最初のベンチマークである。
Hallu-PIは7つの摂動シナリオで構成され、11種類のオブジェクトから1,260の摂動イメージを含んでいる。
我々の研究は、MLLMが様々な種類の幻覚を処理できる能力に深刻なバイアスがあることを明らかにした。
論文 参考訳(メタデータ) (2024-08-02T16:07:15Z) - ANAH-v2: Scaling Analytical Hallucination Annotation of Large Language Models [65.12177400764506]
大規模言語モデル (LLM) は、様々な領域や広範囲のアプリケーションにまたがる、長い形式の質問応答タスクにおいて幻覚を示す。
現在の幻覚検出と緩和データセットはドメインやサイズによって制限されている。
本稿では,幻覚アノテーションデータセットを同時に,段階的にスケールアップする反復的自己学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-05T17:56:38Z) - Detecting and Evaluating Medical Hallucinations in Large Vision Language Models [22.30139330566514]
大規模ビジョン言語モデル(LVLM)は、医療アプリケーションにとってますます不可欠なものになっている。
LVLMは幻覚への感受性を継承する。
幻覚検出と評価に特化して設計された最初のベンチマークであるMed-HallMarkを紹介する。
また,正確な幻覚検出のための医療用LVLMであるMedHallDetectorも紹介した。
論文 参考訳(メタデータ) (2024-06-14T17:14:22Z) - ANAH: Analytical Annotation of Hallucinations in Large Language Models [65.12177400764506]
我々は、大言語モデルにおける幻覚の@textbfAN$alytical $textbfA$nnotationを提供するデータセットである$textbfANAH$を提示する。
ANAHは、700以上のトピックをカバーする4.3k LLM応答のための12kの文レベルのアノテーションで構成されている。
幻覚アノテーションの微粒化により, LLMの幻覚が解答に蓄積されることを定量的に確認し, ANAHを用いて幻覚アノテーションを訓練し, 評価する。
論文 参考訳(メタデータ) (2024-05-30T17:54:40Z) - DiaHalu: A Dialogue-level Hallucination Evaluation Benchmark for Large Language Models [26.289847386286446]
本稿では,対話レベルの幻覚評価ベンチマークDiaHaluを提案する。
収集したトピックをシステムプロンプトに統合し、2つのChatGPT3.5間の対話を促進する。
人間の言語規則に従わない内容を手動で修正し、LLMを再生させ、人間と機械の相互作用のシナリオをシミュレートする。
論文 参考訳(メタデータ) (2024-03-01T15:38:55Z) - Hal-Eval: A Universal and Fine-grained Hallucination Evaluation Framework for Large Vision Language Models [35.45859414670449]
我々は,新しいカテゴリーであるイベント幻覚(Event Hallucination)を特徴とする,幻覚の洗練された分類を導入した。
次に,多種多様な幻覚からなる微粒な幻覚データの生成とフィルタリングに高度LLMを利用する。
提案するベンチマークでは,広帯域の幻覚に対処するLVLMの能力を顕著に評価している。
論文 参考訳(メタデータ) (2024-02-24T05:14:52Z) - Analyzing and Mitigating Object Hallucination in Large Vision-Language Models [110.12460299261531]
大規模視覚言語モデル(LVLM)は、人間の言語で視覚情報を理解する際、顕著な能力を示した。
LVLMは依然として物体幻覚に悩まされており、画像に実際に存在しない物体を含む記述を生成するという問題である。
そこで我々は,LVLMの幻覚を再現するアルゴリズム LVLM Hallucination Revisor (LURE) を提案する。
論文 参考訳(メタデータ) (2023-10-01T18:10:53Z) - Evaluation and Analysis of Hallucination in Large Vision-Language Models [49.19829480199372]
LVLM(Large Vision-Language Models)は近年大きな成功を収めている。
LVLMは今でも幻覚に悩まされている。
幻覚とは、視覚入力に存在しないLVLMの応答の情報を指す。
論文 参考訳(メタデータ) (2023-08-29T08:51:24Z) - HaluEval: A Large-Scale Hallucination Evaluation Benchmark for Large
Language Models [146.87696738011712]
大型言語モデル(LLM)は幻覚を生成する傾向があり、すなわち、ソースと矛盾したり、事実の知識によって検証できないコンテンツである。
言語モデル(HaluEval)のための幻覚評価ベンチマーク(Halucination Evaluation benchmark)を導入する。
論文 参考訳(メタデータ) (2023-05-19T15:36:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。