Fugu-MT 論文翻訳(概要): FactCHD: Benchmarking Fact-Conflicting Hallucination Detection

論文の概要: FactCHD: Benchmarking Fact-Conflicting Hallucination Detection

arxiv url: http://arxiv.org/abs/2310.12086v2
Date: Thu, 18 Jan 2024 16:20:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-19 19:59:38.544810
Title: FactCHD: Benchmarking Fact-Conflicting Hallucination Detection
Title（参考訳）: FactCHD: Fact-Conflicting Hallucination Detectionのベンチマーク
Authors: Xiang Chen, Duanzheng Song, Honghao Gui, Chenxi Wang, Ningyu Zhang, Jiang Yong, Fei Huang, Chengfei Lv, Dan Zhang, Huajun Chen
Abstract要約: FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。 FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。 Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
参考スコア（独自算出の注目度）: 52.513957834345746
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite their impressive generative capabilities, LLMs are hindered by fact-conflicting hallucinations in real-world applications. The accurate identification of hallucinations in texts generated by LLMs, especially in complex inferential scenarios, is a relatively unexplored area. To address this gap, we present FactCHD, a dedicated benchmark designed for the detection of fact-conflicting hallucinations from LLMs. FactCHD features a diverse dataset that spans various factuality patterns, including vanilla, multi-hop, comparison, and set operation. A distinctive element of FactCHD is its integration of fact-based evidence chains, significantly enhancing the depth of evaluating the detectors' explanations. Experiments on different LLMs expose the shortcomings of current approaches in detecting factual errors accurately. Furthermore, we introduce Truth-Triangulator that synthesizes reflective considerations by tool-enhanced ChatGPT and LoRA-tuning based on Llama2, aiming to yield more credible detection through the amalgamation of predictive results and evidence. The benchmark dataset is available at https://github.com/zjunlp/FactCHD.
Abstract（参考訳）: その素晴らしい生成能力にもかかわらず、llmは実世界のアプリケーションにおける事実衝突幻覚によって妨げられている。 LLMによって生成されたテキスト中の幻覚の正確な同定は、特に複雑な推論シナリオにおいて、比較的未発見の領域である。このギャップに対処するため,本研究では,LLMから事実強調幻覚を検出するための専用のベンチマークであるFactCHDを提案する。 FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。 FactCHDの特徴的な要素は、事実に基づくエビデンス連鎖の統合であり、検出器の説明を評価する深さを著しく高めている。異なるLLMの実験は、事実誤りを正確に検出する現在のアプローチの欠点を明らかにする。さらに,ツールエンハンスされたchatgptとllama2に基づくlora-tuningによるリフレクティブな考察を合成し,予測結果とエビデンスを融合することで,より信頼性の高い検出を可能にする真理トライアンギュレータを提案する。ベンチマークデータセットはhttps://github.com/zjunlp/factchdで入手できる。

関連論文リスト

Counterfactual Probing for Hallucination Detection and Mitigation in Large Language Models [0.0]
本研究では,大規模言語モデルにおける幻覚の検出と緩和のための新しいアプローチである,対物探索を提案する。提案手法は, 疑わしいが微妙な事実誤りを含む反事実文を動的に生成し, これらの摂動に対するモデルの感度を評価する。
論文参考訳（メタデータ） (2025-08-03T17:29:48Z)
Verifying the Verifiers: Unveiling Pitfalls and Potentials in Fact Verifiers [59.168391398830515]
我々は,14のファクトチェックベンチマークのサンプルを用いて,12の事前学習LDMと1つの特殊ファクト検証器を評価した。データセットにおけるアノテーションエラーとあいまいさに対処することの重要性を強調します。最上位のパフォーマンスを実現するために、前作でしばしば見落とされがちな、数ショットのインコンテキストの例を持つフロンティアLSM。
論文参考訳（メタデータ） (2025-06-16T10:32:10Z)
Uncertainty-Aware Fusion: An Ensemble Framework for Mitigating Hallucinations in Large Language Models [2.98260857963929]
大規模言語モデル(LLM)は、ユーザの信頼を損なう可能性のある非実効的なアウトプットを幻覚し、生成することが知られている。表現編集やコントラスト復号といった幻覚を直接緩和する従来の手法は、しばしば追加のトレーニングデータを必要とし、実装の複雑さを伴います。本研究では,その精度と自己評価能力に基づいて,複数のLSMを戦略的に組み合わせて幻覚を低減するためのアンサンブルフレームワークであるUncertainty-Aware Fusion (UAF)を提案する。
論文参考訳（メタデータ） (2025-02-22T10:48:18Z)
Detecting LLM Fact-conflicting Hallucinations Enhanced by Temporal-logic-based Reasoning [10.606613497282398]
Drowzeeは、大規模言語モデルのためのエンドツーエンドのメタモルフィックテストフレームワークである。時相論理を用いて、大規模な言語モデルにおけるファクト・コンフリクト・幻覚(FCH)を識別する。その結果、ドロージーは24.7%から59.8%までの非時間関連幻覚率と16.7%から39.2%の時間関連幻覚率を効果的に同定した。
論文参考訳（メタデータ） (2025-02-19T04:21:46Z)
HuDEx: Integrating Hallucination Detection and Explainability for Enhancing the Reliability of LLM responses [0.12499537119440242]
本稿では,HuDExと命名された幻覚検出モデルについて説明する。提案モデルでは,検出を説明と統合する新たなアプローチを提供し,ユーザとLLM自体がエラーを理解し,低減することができる。
論文参考訳（メタデータ） (2025-02-12T04:17:02Z)
LLM Hallucination Reasoning with Zero-shot Knowledge Test [10.306443936136425]
我々は,LLM生成テキストを3つのカテゴリの1つに分類する新たなタスクであるHalucination Reasoningを導入する。新たなデータセットを用いた実験により,幻覚推論における本手法の有効性が示された。
論文参考訳（メタデータ） (2024-11-14T18:55:26Z)
Mitigating Entity-Level Hallucination in Large Language Models [11.872916697604278]
本稿では,大規模言語モデル(LLM)における幻覚の検出・緩和手法として,幻覚検出(DRAD)に基づく動的検索拡張を提案する。実験の結果,LDMにおける幻覚の検出と緩和の両面において,DRADは優れた性能を示した。
論文参考訳（メタデータ） (2024-07-12T16:47:34Z)
Hallucination Detection: Robustly Discerning Reliable Answers in Large Language Models [70.19081534515371]
大規模言語モデル(LLM)は様々な自然言語処理タスクで広く採用されている。それらは、入力源から逸脱する不信または矛盾したコンテンツを生成し、深刻な結果をもたらす。本稿では,LLMの生成した回答の幻覚を効果的に検出するために,RelDという頑健な識別器を提案する。
論文参考訳（メタデータ） (2024-07-04T18:47:42Z)
Drowzee: Metamorphic Testing for Fact-Conflicting Hallucination Detection in Large Language Models [11.138489774712163]
我々は、FCH(Fact-Conflicting Hallucinations)の検出のためのメタモルフィックテストを強化するために、論理プログラミングを活用する革新的なアプローチを提案する。テストケースを生成し,9つのドメインにまたがる6つの異なる大言語モデルに対して幻覚を検知し,24.7%から59.8%の比率を示した。
論文参考訳（メタデータ） (2024-05-01T17:24:42Z)
KnowHalu: Hallucination Detection via Multi-Form Knowledge Based Factual Checking [55.2155025063668]
KnowHaluは、大規模言語モデル(LLM)によって生成されたテキスト中の幻覚を検出する新しいアプローチであるステップワイズ推論、マルチフォームクエリ、ファクトチェックのためのマルチフォーム知識、フュージョンベースの検出メカニズムを使用する。評価の結果,KnowHaluは様々なタスクにおける幻覚検出においてSOTAベースラインを著しく上回っていることがわかった。
論文参考訳（メタデータ） (2024-04-03T02:52:07Z)
Enhancing Uncertainty-Based Hallucination Detection with Stronger Focus [99.33091772494751]
大規模言語モデル(LLM)は、様々な分野にわたる印象的なパフォーマンスで大きな人気を集めている。 LLMは、ユーザの期待を満たさない非現実的あるいは非感覚的なアウトプットを幻覚させる傾向がある。 LLMにおける幻覚を検出するための新しい基準のない不確実性に基づく手法を提案する。
論文参考訳（メタデータ） (2023-11-22T08:39:17Z)
Chainpoll: A high efficacy method for LLM hallucination detection [0.0]
そこで我々はChainPollという幻覚検出手法を紹介した。我々はまた、最近の研究から幻覚検出指標を評価するためのベンチマークデータセットの洗練されたコレクションであるRealHallも公開した。
論文参考訳（メタデータ） (2023-10-22T14:45:14Z)
A New Benchmark and Reverse Validation Method for Passage-level Hallucination Detection [63.56136319976554]
大きな言語モデル(LLM)は幻覚を発生させ、ミッションクリティカルなタスクにデプロイすると大きなダメージを与える可能性がある。本稿では,逆検証に基づく自己チェック手法を提案し,ゼロリソース方式で事実誤りを自動的に検出する。提案手法と既存のゼロリソース検出手法を2つのデータセット上で実証的に評価した。
論文参考訳（メタデータ） (2023-10-10T10:14:59Z)
AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文参考訳（メタデータ） (2023-09-30T05:20:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。