論文の概要: DiaHalu: A Dialogue-level Hallucination Evaluation Benchmark for Large Language Models
- arxiv url: http://arxiv.org/abs/2403.00896v3
- Date: Thu, 10 Oct 2024 08:27:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-11 14:29:40.711967
- Title: DiaHalu: A Dialogue-level Hallucination Evaluation Benchmark for Large Language Models
- Title(参考訳): DiaHalu: 大規模言語モデルのための対話レベルの幻覚評価ベンチマーク
- Authors: Kedi Chen, Qin Chen, Jie Zhou, Yishen He, Liang He,
- Abstract要約: 本稿では,対話レベルの幻覚評価ベンチマークDiaHaluを提案する。
収集したトピックをシステムプロンプトに統合し、2つのChatGPT3.5間の対話を促進する。
人間の言語規則に従わない内容を手動で修正し、LLMを再生させ、人間と機械の相互作用のシナリオをシミュレートする。
- 参考スコア(独自算出の注目度): 26.289847386286446
- License:
- Abstract: Since large language models (LLMs) achieve significant success in recent years, the hallucination issue remains a challenge, numerous benchmarks are proposed to detect the hallucination. Nevertheless, some of these benchmarks are not naturally generated by LLMs but are intentionally induced. Also, many merely focus on the factuality hallucination while ignoring the faithfulness hallucination. Additionally, although dialogue pattern is more widely utilized in the era of LLMs, current benchmarks only concentrate on sentence-level and passage-level hallucination. In this study, we propose DiaHalu, the first dialogue-level hallucination evaluation benchmark to our knowledge. Initially, we integrate the collected topics into system prompts and facilitate a dialogue between two ChatGPT3.5. Subsequently, we manually modify the contents that do not adhere to human language conventions and then have LLMs re-generate, simulating authentic human-machine interaction scenarios. Finally, professional scholars annotate all the samples in the dataset. DiaHalu covers four common multi-turn dialogue domains and five hallucination subtypes, extended from factuality and faithfulness hallucination. Experiments through some well-known LLMs and detection methods on the dataset show that DiaHalu is a challenging benchmark, holding significant value for further research.
- Abstract(参考訳): 近年, 大規模言語モデル (LLM) が大きな成功を収めているため, 幻覚の問題は依然として課題であり, 幻覚を検出するためのベンチマークが多数提案されている。
しかしながら、これらのベンチマークのいくつかはLLMによって自然に生成されるものではなく、意図的に誘導される。
また、忠実な幻覚を無視しながら、事実の幻覚にのみ焦点をあてる者も多い。
さらに,LLMの時代には,対話パターンが広く利用されているが,現在のベンチマークでは文レベルと通過レベルの幻覚にのみ焦点が当てられている。
本研究では,対話レベルの幻覚評価ベンチマークDiaHaluを提案する。
当初、収集したトピックをシステムプロンプトに統合し、2つのChatGPT3.5間の対話を容易にする。
その後、人間の言語規則に従わない内容を手動で修正し、LLMを再生させ、人間と機械の相互作用シナリオをシミュレートする。
最後に、専門家はデータセットのすべてのサンプルに注釈を付ける。
DiaHaluは4つの共通多ターン対話ドメインと5つの幻覚サブタイプをカバーしており、事実性と忠実な幻覚から拡張されている。
データセット上のよく知られたLCMと検出方法による実験は、DiaHaluが挑戦的なベンチマークであり、さらなる研究に重要な価値を持っていることを示している。
関連論文リスト
- Unified Triplet-Level Hallucination Evaluation for Large Vision-Language Models [22.996176483599868]
我々は,LVLM(Large Vision-Language Models)における対象と関係の幻覚を同時に測定するための統一的なフレームワークを設計する。
本稿では,トリプルトレベルの幻覚評価ベンチマークTri-HEを紹介する。
論文 参考訳(メタデータ) (2024-10-30T15:25:06Z) - FaithBench: A Diverse Hallucination Benchmark for Summarization by Modern LLMs [2.871226288151562]
本稿では,10の現代LSMによる難解な幻覚を含む要約幻覚ベンチマークであるFaithBenchを紹介する。
その結果, GPT-4o と GPT-3.5-Turbo が最も幻覚が少ないことが判明した。
最高の幻覚検出モデルでさえ、FaithBenchには50%近い精度があり、将来の改善の余地がたくさんあることを示している。
論文 参考訳(メタデータ) (2024-10-17T04:30:46Z) - LongHalQA: Long-Context Hallucination Evaluation for MultiModal Large Language Models [96.64960606650115]
LongHalQA (LongHalQA) は、6Kの長い複雑な幻覚テキストからなるLLMフリー幻覚ベンチマークである。
LongHalQA は GPT4V の生成した幻覚データによって特徴付けられる。
論文 参考訳(メタデータ) (2024-10-13T18:59:58Z) - ANAH-v2: Scaling Analytical Hallucination Annotation of Large Language Models [65.12177400764506]
大規模言語モデル (LLM) は、様々な領域や広範囲のアプリケーションにまたがる、長い形式の質問応答タスクにおいて幻覚を示す。
現在の幻覚検出と緩和データセットはドメインやサイズによって制限されている。
本稿では,幻覚アノテーションデータセットを同時に,段階的にスケールアップする反復的自己学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-05T17:56:38Z) - HalluDial: A Large-Scale Benchmark for Automatic Dialogue-Level Hallucination Evaluation [19.318217051269382]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野で大きく進歩した。
HalluDialは、対話レベルの幻覚自動評価のための、初めての総合的な大規模ベンチマークである。
ベンチマークには4,094の対話があり、合計146,856のサンプルが含まれている。
論文 参考訳(メタデータ) (2024-06-11T08:56:18Z) - ANAH: Analytical Annotation of Hallucinations in Large Language Models [65.12177400764506]
我々は、大言語モデルにおける幻覚の@textbfAN$alytical $textbfA$nnotationを提供するデータセットである$textbfANAH$を提示する。
ANAHは、700以上のトピックをカバーする4.3k LLM応答のための12kの文レベルのアノテーションで構成されている。
幻覚アノテーションの微粒化により, LLMの幻覚が解答に蓄積されることを定量的に確認し, ANAHを用いて幻覚アノテーションを訓練し, 評価する。
論文 参考訳(メタデータ) (2024-05-30T17:54:40Z) - The Dawn After the Dark: An Empirical Study on Factuality Hallucination
in Large Language Models [134.6697160940223]
幻覚は、大きな言語モデルの信頼できるデプロイには大きな課題となります。
幻覚(検出)の検出方法、LLMが幻覚(ソース)をなぜ検出するのか、そしてそれを緩和するために何ができるか、という3つの重要な疑問がよく研究されるべきである。
本研究は, 幻覚検出, 発生源, 緩和の3つの側面に着目した, LLM幻覚の系統的研究である。
論文 参考訳(メタデータ) (2024-01-06T12:40:45Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z) - HaluEval: A Large-Scale Hallucination Evaluation Benchmark for Large
Language Models [146.87696738011712]
大型言語モデル(LLM)は幻覚を生成する傾向があり、すなわち、ソースと矛盾したり、事実の知識によって検証できないコンテンツである。
言語モデル(HaluEval)のための幻覚評価ベンチマーク(Halucination Evaluation benchmark)を導入する。
論文 参考訳(メタデータ) (2023-05-19T15:36:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。