論文の概要: FactCHD: Benchmarking Fact-Conflicting Hallucination Detection
- arxiv url: http://arxiv.org/abs/2310.12086v2
- Date: Thu, 18 Jan 2024 16:20:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-19 19:59:38.544810
- Title: FactCHD: Benchmarking Fact-Conflicting Hallucination Detection
- Title(参考訳): FactCHD: Fact-Conflicting Hallucination Detectionのベンチマーク
- Authors: Xiang Chen, Duanzheng Song, Honghao Gui, Chenxi Wang, Ningyu Zhang,
Jiang Yong, Fei Huang, Chengfei Lv, Dan Zhang, Huajun Chen
- Abstract要約: FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
- 参考スコア(独自算出の注目度): 52.513957834345746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite their impressive generative capabilities, LLMs are hindered by
fact-conflicting hallucinations in real-world applications. The accurate
identification of hallucinations in texts generated by LLMs, especially in
complex inferential scenarios, is a relatively unexplored area. To address this
gap, we present FactCHD, a dedicated benchmark designed for the detection of
fact-conflicting hallucinations from LLMs. FactCHD features a diverse dataset
that spans various factuality patterns, including vanilla, multi-hop,
comparison, and set operation. A distinctive element of FactCHD is its
integration of fact-based evidence chains, significantly enhancing the depth of
evaluating the detectors' explanations. Experiments on different LLMs expose
the shortcomings of current approaches in detecting factual errors accurately.
Furthermore, we introduce Truth-Triangulator that synthesizes reflective
considerations by tool-enhanced ChatGPT and LoRA-tuning based on Llama2, aiming
to yield more credible detection through the amalgamation of predictive results
and evidence. The benchmark dataset is available at
https://github.com/zjunlp/FactCHD.
- Abstract(参考訳): その素晴らしい生成能力にもかかわらず、llmは実世界のアプリケーションにおける事実衝突幻覚によって妨げられている。
LLMによって生成されたテキスト中の幻覚の正確な同定は、特に複雑な推論シナリオにおいて、比較的未発見の領域である。
このギャップに対処するため,本研究では,LLMから事実強調幻覚を検出するための専用のベンチマークであるFactCHDを提案する。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
FactCHDの特徴的な要素は、事実に基づくエビデンス連鎖の統合であり、検出器の説明を評価する深さを著しく高めている。
異なるLLMの実験は、事実誤りを正確に検出する現在のアプローチの欠点を明らかにする。
さらに,ツールエンハンスされたchatgptとllama2に基づくlora-tuningによるリフレクティブな考察を合成し,予測結果とエビデンスを融合することで,より信頼性の高い検出を可能にする真理トライアンギュレータを提案する。
ベンチマークデータセットはhttps://github.com/zjunlp/factchdで入手できる。
関連論文リスト
- LLM Hallucination Reasoning with Zero-shot Knowledge Test [10.306443936136425]
我々は,LLM生成テキストを3つのカテゴリの1つに分類する新たなタスクであるHalucination Reasoningを導入する。
新たなデータセットを用いた実験により,幻覚推論における本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-11-14T18:55:26Z) - Mitigating Entity-Level Hallucination in Large Language Models [11.872916697604278]
本稿では,大規模言語モデル(LLM)における幻覚の検出・緩和手法として,幻覚検出(DRAD)に基づく動的検索拡張を提案する。
実験の結果,LDMにおける幻覚の検出と緩和の両面において,DRADは優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-12T16:47:34Z) - Hallucination Detection: Robustly Discerning Reliable Answers in Large Language Models [70.19081534515371]
大規模言語モデル(LLM)は様々な自然言語処理タスクで広く採用されている。
それらは、入力源から逸脱する不信または矛盾したコンテンツを生成し、深刻な結果をもたらす。
本稿では,LLMの生成した回答の幻覚を効果的に検出するために,RelDという頑健な識別器を提案する。
論文 参考訳(メタデータ) (2024-07-04T18:47:42Z) - Drowzee: Metamorphic Testing for Fact-Conflicting Hallucination Detection in Large Language Models [11.138489774712163]
我々は、FCH(Fact-Conflicting Hallucinations)の検出のためのメタモルフィックテストを強化するために、論理プログラミングを活用する革新的なアプローチを提案する。
テストケースを生成し,9つのドメインにまたがる6つの異なる大言語モデルに対して幻覚を検知し,24.7%から59.8%の比率を示した。
論文 参考訳(メタデータ) (2024-05-01T17:24:42Z) - KnowHalu: Hallucination Detection via Multi-Form Knowledge Based Factual Checking [55.2155025063668]
KnowHaluは、大規模言語モデル(LLM)によって生成されたテキスト中の幻覚を検出する新しいアプローチである
ステップワイズ推論、マルチフォームクエリ、ファクトチェックのためのマルチフォーム知識、フュージョンベースの検出メカニズムを使用する。
評価の結果,KnowHaluは様々なタスクにおける幻覚検出においてSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-04-03T02:52:07Z) - Enhancing Uncertainty-Based Hallucination Detection with Stronger Focus [99.33091772494751]
大規模言語モデル(LLM)は、様々な分野にわたる印象的なパフォーマンスで大きな人気を集めている。
LLMは、ユーザの期待を満たさない非現実的あるいは非感覚的なアウトプットを幻覚させる傾向がある。
LLMにおける幻覚を検出するための新しい基準のない不確実性に基づく手法を提案する。
論文 参考訳(メタデータ) (2023-11-22T08:39:17Z) - Chainpoll: A high efficacy method for LLM hallucination detection [0.0]
そこで我々はChainPollという幻覚検出手法を紹介した。
我々はまた、最近の研究から幻覚検出指標を評価するためのベンチマークデータセットの洗練されたコレクションであるRealHallも公開した。
論文 参考訳(メタデータ) (2023-10-22T14:45:14Z) - A New Benchmark and Reverse Validation Method for Passage-level
Hallucination Detection [63.56136319976554]
大きな言語モデル(LLM)は幻覚を発生させ、ミッションクリティカルなタスクにデプロイすると大きなダメージを与える可能性がある。
本稿では,逆検証に基づく自己チェック手法を提案し,ゼロリソース方式で事実誤りを自動的に検出する。
提案手法と既存のゼロリソース検出手法を2つのデータセット上で実証的に評価した。
論文 参考訳(メタデータ) (2023-10-10T10:14:59Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。