論文の概要: Unveiling the Siren's Song: Towards Reliable Fact-Conflicting
Hallucination Detection
- arxiv url: http://arxiv.org/abs/2310.12086v1
- Date: Wed, 18 Oct 2023 16:27:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 15:47:32.328814
- Title: Unveiling the Siren's Song: Towards Reliable Fact-Conflicting
Hallucination Detection
- Title(参考訳): サイレンの歌を解き明かす:幻覚検出の信頼性を目指して
- Authors: Xiang Chen, Duanzheng Song, Honghao Gui, Chengxi Wang, Ningyu Zhang,
Fei Huang, Chengfei Lv, Dan Zhang, Huajun Chen
- Abstract要約: FactCHDは、LLM(Large Language Models)用に細心に設計された、事実にこだわる幻覚検出ベンチマークである。
我々のベンチマークは、バニラ、マルチホップ、比較、セットオペレーティングパターンなど、幅広い事実性パターンを同化している。
Llama2 に基づくツール強化 ChatGPT と Lora-tuning による反射的考察を合成する TRUTH-TRIANGULATOR を提案する。
- 参考スコア(独自算出の注目度): 51.73054312781554
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs), such as ChatGPT/GPT-4, have garnered widespread
attention owing to their myriad of practical applications, yet their adoption
has been constrained by issues of fact-conflicting hallucinations across web
platforms. The assessment of factuality in text, produced by LLMs, remains
inadequately explored, extending not only to the judgment of vanilla facts but
also encompassing the evaluation of factual errors emerging in complex
inferential tasks like multi-hop, and etc. In response, we introduce FactCHD, a
fact-conflicting hallucination detection benchmark meticulously designed for
LLMs. Functioning as a pivotal tool in evaluating factuality within
"Query-Respons" contexts, our benchmark assimilates a large-scale dataset,
encapsulating a broad spectrum of factuality patterns, such as vanilla,
multi-hops, comparison, and set-operation patterns. A distinctive feature of
our benchmark is its incorporation of fact-based chains of evidence, thereby
facilitating comprehensive and conducive factual reasoning throughout the
assessment process. We evaluate multiple LLMs, demonstrating the effectiveness
of the benchmark and current methods fall short of faithfully detecting factual
errors. Furthermore, we present TRUTH-TRIANGULATOR that synthesizes reflective
considerations by tool-enhanced ChatGPT and LoRA-tuning based on Llama2, aiming
to yield more credible detection through the amalgamation of predictive results
and evidence. The benchmark dataset and source code will be made available in
https://github.com/zjunlp/FactCHD.
- Abstract(参考訳): chatgpt/gpt-4のような大規模言語モデル(llm)は、その無数の実用的応用のために広く注目を集めているが、webプラットフォーム間で事実衝突の幻覚の問題によって採用が制限されている。
LLMによるテキストにおける事実性の評価は、バニラ事実の判断だけでなく、マルチホップなどの複雑な推論タスクに現れる事実的誤りの評価も含んでいるため、まだ不十分である。
そこで本研究では,LLM向けに精密に設計されたファクトコンフリクト幻覚検出ベンチマークであるFactCHDを紹介する。
クエリ応答"コンテキスト内で事実性を評価する上で重要なツールとして機能するベンチマークでは,大規模データセットを統一し,バニラやマルチホップ,比較,セット操作パターンなど,さまざまな事実性パターンをカプセル化する。
我々のベンチマークの特徴は、事実に基づく証拠の連鎖を組み込むことで、評価プロセス全体を通して包括的で導出的な事実推論を促進することである。
我々は複数のllmを評価し、ベンチマークと現在の手法の有効性を実証し、事実的誤りを忠実に検出することができなかった。
さらに,ツールエンハンスされたchatgptとllama2に基づくlora-tuningによるリフレクティブな考察を合成し,予測結果とエビデンスを融合することで,より信頼性の高い検出を可能にする真理トライアンギュレータを提案する。
ベンチマークデータセットとソースコードはhttps://github.com/zjunlp/FactCHDで公開される。
関連論文リスト
- LLM Hallucination Reasoning with Zero-shot Knowledge Test [10.306443936136425]
我々は,LLM生成テキストを3つのカテゴリの1つに分類する新たなタスクであるHalucination Reasoningを導入する。
新たなデータセットを用いた実験により,幻覚推論における本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-11-14T18:55:26Z) - Mitigating Entity-Level Hallucination in Large Language Models [11.872916697604278]
本稿では,大規模言語モデル(LLM)における幻覚の検出・緩和手法として,幻覚検出(DRAD)に基づく動的検索拡張を提案する。
実験の結果,LDMにおける幻覚の検出と緩和の両面において,DRADは優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-12T16:47:34Z) - Hallucination Detection: Robustly Discerning Reliable Answers in Large Language Models [70.19081534515371]
大規模言語モデル(LLM)は様々な自然言語処理タスクで広く採用されている。
それらは、入力源から逸脱する不信または矛盾したコンテンツを生成し、深刻な結果をもたらす。
本稿では,LLMの生成した回答の幻覚を効果的に検出するために,RelDという頑健な識別器を提案する。
論文 参考訳(メタデータ) (2024-07-04T18:47:42Z) - Drowzee: Metamorphic Testing for Fact-Conflicting Hallucination Detection in Large Language Models [11.138489774712163]
我々は、FCH(Fact-Conflicting Hallucinations)の検出のためのメタモルフィックテストを強化するために、論理プログラミングを活用する革新的なアプローチを提案する。
テストケースを生成し,9つのドメインにまたがる6つの異なる大言語モデルに対して幻覚を検知し,24.7%から59.8%の比率を示した。
論文 参考訳(メタデータ) (2024-05-01T17:24:42Z) - KnowHalu: Hallucination Detection via Multi-Form Knowledge Based Factual Checking [55.2155025063668]
KnowHaluは、大規模言語モデル(LLM)によって生成されたテキスト中の幻覚を検出する新しいアプローチである
ステップワイズ推論、マルチフォームクエリ、ファクトチェックのためのマルチフォーム知識、フュージョンベースの検出メカニズムを使用する。
評価の結果,KnowHaluは様々なタスクにおける幻覚検出においてSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-04-03T02:52:07Z) - Enhancing Uncertainty-Based Hallucination Detection with Stronger Focus [99.33091772494751]
大規模言語モデル(LLM)は、様々な分野にわたる印象的なパフォーマンスで大きな人気を集めている。
LLMは、ユーザの期待を満たさない非現実的あるいは非感覚的なアウトプットを幻覚させる傾向がある。
LLMにおける幻覚を検出するための新しい基準のない不確実性に基づく手法を提案する。
論文 参考訳(メタデータ) (2023-11-22T08:39:17Z) - Chainpoll: A high efficacy method for LLM hallucination detection [0.0]
そこで我々はChainPollという幻覚検出手法を紹介した。
我々はまた、最近の研究から幻覚検出指標を評価するためのベンチマークデータセットの洗練されたコレクションであるRealHallも公開した。
論文 参考訳(メタデータ) (2023-10-22T14:45:14Z) - A New Benchmark and Reverse Validation Method for Passage-level
Hallucination Detection [63.56136319976554]
大きな言語モデル(LLM)は幻覚を発生させ、ミッションクリティカルなタスクにデプロイすると大きなダメージを与える可能性がある。
本稿では,逆検証に基づく自己チェック手法を提案し,ゼロリソース方式で事実誤りを自動的に検出する。
提案手法と既存のゼロリソース検出手法を2つのデータセット上で実証的に評価した。
論文 参考訳(メタデータ) (2023-10-10T10:14:59Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。