論文の概要: Halu-J: Critique-Based Hallucination Judge
- arxiv url: http://arxiv.org/abs/2407.12943v1
- Date: Wed, 17 Jul 2024 18:21:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 19:33:23.377304
- Title: Halu-J: Critique-Based Hallucination Judge
- Title(参考訳): Halu-J:批判に基づく幻覚の裁判官
- Authors: Binjie Wang, Steffi Chern, Ethan Chern, Pengfei Liu,
- Abstract要約: 批判に基づく幻覚判断器であるHalu-Jを紹介する。
Halu-Jは、関連する証拠を選択し、詳細な批評を提供することで幻覚の検出を強化する。
実験の結果,Hlu-J は GPT-4o よりも多値幻覚検出に優れていた。
- 参考スコア(独自算出の注目度): 22.79828961875684
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) frequently generate non-factual content, known as hallucinations. Existing retrieval-augmented-based hallucination detection approaches typically address this by framing it as a classification task, evaluating hallucinations based on their consistency with retrieved evidence. However, this approach usually lacks detailed explanations for these evaluations and does not assess the reliability of these explanations. Furthermore, deficiencies in retrieval systems can lead to irrelevant or partially relevant evidence retrieval, impairing the detection process. Moreover, while real-world hallucination detection requires analyzing multiple pieces of evidence, current systems usually treat all evidence uniformly without considering its relevance to the content. To address these challenges, we introduce Halu-J, a critique-based hallucination judge with 7 billion parameters. Halu-J enhances hallucination detection by selecting pertinent evidence and providing detailed critiques. Our experiments indicate that Halu-J outperforms GPT-4o in multiple-evidence hallucination detection and matches its capability in critique generation and evidence selection. We also introduce ME-FEVER, a new dataset designed for multiple-evidence hallucination detection. Our code and dataset can be found in https://github.com/GAIR-NLP/factool .
- Abstract(参考訳): 大型言語モデル (LLM) は幻覚として知られる非現実的なコンテンツを頻繁に生成する。
既存の検索強化型幻覚検出手法は、典型的には、それを分類タスクとしてフレーミングすることでこの問題に対処し、検索された証拠との整合性に基づいて幻覚を評価する。
しかし、このアプローチにはこれらの評価に関する詳細な説明が欠如しており、これらの説明の信頼性は評価されていない。
さらに、検索システムの欠陥は、検出過程を損なうことなく、無関係または部分的に関係のある証拠の検索につながる可能性がある。
さらに、実世界の幻覚検出には複数の証拠を解析する必要があるが、現在のシステムは通常、その内容との関連性を考慮せずに全ての証拠を均一に扱う。
これらの課題に対処するために、70億のパラメータを持つ批判に基づく幻覚判断器であるHalu-Jを紹介する。
Halu-Jは、関連する証拠を選択し、詳細な批評を提供することで幻覚の検出を強化する。
実験の結果,Hlu-JはGPT-4oよりも多値幻覚検出に優れており,批判生成やエビデンス選択の能力と一致していることがわかった。
また,マルチエビデンス幻覚検出のための新しいデータセットであるME-FEVERを紹介する。
私たちのコードとデータセットはhttps://github.com/GAIR-NLP/factool.orgで確認できます。
関連論文リスト
- Hallucination Detection: Robustly Discerning Reliable Answers in Large Language Models [70.19081534515371]
大規模言語モデル(LLM)は様々な自然言語処理タスクで広く採用されている。
それらは、入力源から逸脱する不信または矛盾したコンテンツを生成し、深刻な結果をもたらす。
本稿では,LLMの生成した回答の幻覚を効果的に検出するために,RelDという頑健な識別器を提案する。
論文 参考訳(メタデータ) (2024-07-04T18:47:42Z) - Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback [48.065569871444275]
我々は,LVLM(Large Vision Language Models)における幻覚の検出と緩和について,きめ細かいAIフィードバックを用いて提案する。
プロプライエタリモデルによる小型幻覚アノテーションデータセットを生成する。
そこで本研究では,幻覚緩和モデルの訓練のための選好データセットを自動構築する検出テーマ書き換えパイプラインを提案する。
論文 参考訳(メタデータ) (2024-04-22T14:46:10Z) - KnowHalu: Hallucination Detection via Multi-Form Knowledge Based Factual Checking [55.2155025063668]
KnowHaluは、大規模言語モデル(LLM)によって生成されたテキスト中の幻覚を検出する新しいアプローチである
ステップワイズ推論、マルチフォームクエリ、ファクトチェックのためのマルチフォーム知識、フュージョンベースの検出メカニズムを使用する。
評価の結果,KnowHaluは様々なタスクにおける幻覚検出においてSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-04-03T02:52:07Z) - Fine-grained Hallucination Detection and Editing for Language Models [114.28828114834657]
大規模言語モデル(LM)は、しばしば幻覚と呼ばれる事実的誤りを引き起こす傾向にある。
我々は,幻覚の包括的分類を導入し,幻覚が多様な形態で現れることを議論する。
本稿では, 幻覚自動検出のための新しいタスクを提案し, 新たな評価ベンチマークであるFavaBenchを構築した。
論文 参考訳(メタデータ) (2024-01-12T19:02:48Z) - DelucionQA: Detecting Hallucinations in Domain-specific Question
Answering [22.23664008053246]
幻覚は、大言語モデル(LLM)によって生成されたテキストでよく知られた現象である
我々は、ドメイン固有のQAタスクのためのLLMの検索による幻覚をキャプチャするデータセットDelucionQAを紹介する。
本研究では,研究コミュニティの今後の研究のベースラインとして,幻覚検出手法のセットを提案する。
論文 参考訳(メタデータ) (2023-12-08T17:41:06Z) - HalluciDoctor: Mitigating Hallucinatory Toxicity in Visual Instruction Data [102.56792377624927]
機械生成データに固有の幻覚は未発見のままである。
本稿では,クロスチェックパラダイムに基づく新しい幻覚検出・除去フレームワークであるHaluciDoctorを提案する。
LLaVAに比べて44.6%の幻覚を緩和し,競争性能を維持した。
論文 参考訳(メタデータ) (2023-11-22T04:52:58Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z) - Diving Deep into Modes of Fact Hallucinations in Dialogue Systems [2.8360662552057323]
知識グラフ(KG)に基づく会話は、しばしば大きな事前訓練されたモデルを使用し、通常、事実幻覚に悩まされる。
我々は、応答を生成しながら、誤った内容を制御する微妙な信号を提供するエンティティレベルの幻覚検出システムを構築した。
論文 参考訳(メタデータ) (2023-01-11T13:08:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。