論文の概要: FACTOID: FACtual enTailment fOr hallucInation Detection
- arxiv url: http://arxiv.org/abs/2403.19113v1
- Date: Thu, 28 Mar 2024 03:09:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-29 17:32:29.551250
- Title: FACTOID: FACtual enTailment fOr hallucInation Detection
- Title(参考訳): FACTOID:FACtual entailment fOr Hallucination Detection
- Authors: Vipula Rawte, S. M Towhidul Islam Tonmoy, Krishnav Rajbangshi, Shravani Nag, Aman Chadha, Amit P. Sheth, Amitava Das,
- Abstract要約: RAGは、Large Language Modelsが生成したテキストがサポートされているか、矛盾しているかを確認するために、TE(textual Entailment)や同様の手法に依存している。
FEは、LLMが生成したコンテンツの事実的不正確な検出と、現実と矛盾する特定のテキストセグメントの強調を目的としている。
FEは、GPT-3、SpanBERT、RoFormerとともに、e5-mistral-7b-instructのような最先端(SoTA)のテキスト埋め込みを組み込んでいる。
- 参考スコア(独自算出の注目度): 10.20632187568563
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The widespread adoption of Large Language Models (LLMs) has facilitated numerous benefits. However, hallucination is a significant concern. In response, Retrieval Augmented Generation (RAG) has emerged as a highly promising paradigm to improve LLM outputs by grounding them in factual information. RAG relies on textual entailment (TE) or similar methods to check if the text produced by LLMs is supported or contradicted, compared to retrieved documents. This paper argues that conventional TE methods are inadequate for spotting hallucinations in content generated by LLMs. For instance, consider a prompt about the 'USA's stance on the Ukraine war''. The AI-generated text states, ...U.S. President Barack Obama says the U.S. will not put troops in Ukraine...'' However, during the war the U.S. president is Joe Biden which contradicts factual reality. Moreover, current TE systems are unable to accurately annotate the given text and identify the exact portion that is contradicted. To address this, we introduces a new type of TE called ``Factual Entailment (FE).'', aims to detect factual inaccuracies in content generated by LLMs while also highlighting the specific text segment that contradicts reality. We present FACTOID (FACTual enTAILment for hallucInation Detection), a benchmark dataset for FE. We propose a multi-task learning (MTL) framework for FE, incorporating state-of-the-art (SoTA) long text embeddings such as e5-mistral-7b-instruct, along with GPT-3, SpanBERT, and RoFormer. The proposed MTL architecture for FE achieves an avg. 40\% improvement in accuracy on the FACTOID benchmark compared to SoTA TE methods. As FE automatically detects hallucinations, we assessed 15 modern LLMs and ranked them using our proposed Auto Hallucination Vulnerability Index (HVI_auto). This index quantifies and offers a comparative scale to evaluate and rank LLMs according to their hallucinations.
- Abstract(参考訳): LLM(Large Language Models)の普及により、多くのメリットがもたらされた。
しかし、幻覚は重要な懸念事項である。
これに対し、レトリーバル拡張生成(RAG)は、実情報に基づいてLLM出力を改善するための、非常に有望なパラダイムとして登場した。
RAGは、検索された文書と比較して、LLMが生成したテキストがサポートされているか、矛盾しているかを確認するために、TE(textual Entailment)または類似の手法に依存している。
本稿では,従来のTE法は,LLMが生成した内容の幻覚の発見に不適切である,と論じる。
例えば、「ウクライナ戦争に対する米国の姿勢」について、一言のプロンプトを考えてみましょう。
バラク・オバマ米大統領は、「米国はウクライナに軍隊を配置しない」と述べたが、戦争中はジョー・バイデン米大統領が事実上の現実と矛盾している。
さらに、現在のTEシステムは、与えられたテキストを正確にアノテートし、矛盾している正確な部分を特定することができない。
これを解決するために、 ``Factual Entailment (FE) と呼ばれる新しいタイプのTEを紹介した。
LLMが生成したコンテンツの事実的不正確性を検出すると同時に、現実に反する特定のテキストセグメントを強調することを目的としている。
FEのベンチマークデータセットであるFACTOID(Factual enTAILment for Hallucination Detection)を提案する。
GPT-3, SpanBERT, RoFormerとともに, e5-mistral-7b-instructsのような最先端(SoTA)のテキスト埋め込みを組み込んだマルチタスク学習(MTL)フレームワークを提案する。
FE のための MTL アーキテクチャは avg を達成する。
FACTOIDの精度はSoTA TE法と比較して40%向上した。
FEは幻覚を自動的に検出するので、15個の近代LCMを評価、提案したオート幻覚脆弱性指数(HVI_auto)を用いて評価した。
この指標は、その幻覚に応じてLSMを評価し、ランク付けするための比較尺度を定量化し、提供する。
関連論文リスト
- RAGged Edges: The Double-Edged Sword of Retrieval-Augmented Chatbots [5.174023161939957]
ChatGPTの幻覚(もっともらしいが偽の情報を生み出す)は大きな課題となる。
本稿では、外部知識をプロンプトと統合することにより、検索・拡張生成が幻覚にどのように対処できるかを考察する。
以上の結果から,RAGの精度は向上するが,事前学習されたモデル理解と直接矛盾する場合は,まだ誤解が残る可能性がある。
論文 参考訳(メタデータ) (2024-03-02T12:19:04Z) - UFO: a Unified and Flexible Framework for Evaluating Factuality of Large
Language Models [73.73303148524398]
大規模言語モデル(LLM)は、人間の知識との整合性に欠けるテキストを生成し、事実的不正確さやテキスト・ハロシン化をもたらす。
プラグアンドプレイのファクトソースに対する事実を検証するための,LLMに基づく統一的かつ柔軟な評価フレームワークである textttUFO を提案する。
論文 参考訳(メタデータ) (2024-02-22T16:45:32Z) - A Glitch in the Matrix? Locating and Detecting Language Model Grounding
with Fakepedia [68.00056517461402]
大規模言語モデル(LLM)は、そのコンテキストで提供される新しい情報を引き出すという印象的な能力を持つ。
しかし、この文脈的基盤のメカニズムはいまだに不明である。
本稿では,Fakepedia を用いたグラウンドディング能力の研究手法を提案する。
論文 参考訳(メタデータ) (2023-12-04T17:35:42Z) - FAITHSCORE: Evaluating Hallucinations in Large Vision-Language Models [17.9443875180437]
本稿では,大規模な視覚言語モデル(LVLM)から生成した自由形式の回答の忠実度を測定するための基準フリーできめ細かな評価指標であるFAITHSCOREを紹介する。
現状のLVLMにおける幻覚を,データセット上でFAITHSCOREを用いて測定する。
その結果、現在のシステムは、画像に不満足な幻覚コンテンツを生成する傾向にあり、将来の改善の余地が残されていることが明らかとなった。
論文 参考訳(メタデータ) (2023-11-02T01:21:45Z) - Improving Factual Consistency of Text Summarization by Adversarially
Decoupling Comprehension and Embellishment Abilities of LLMs [67.56087611675606]
大規模言語モデル(LLM)は、本来の記事と現実的に矛盾する要約を生成する。
これらの幻覚は、従来の方法による検出が困難である。
LLM(DECENT)の能力を阻害する逆デカップリング法を提案する。
論文 参考訳(メタデータ) (2023-10-30T08:40:16Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [52.513957834345746]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z) - "According to ...": Prompting Language Models Improves Quoting from
Pre-Training Data [52.03853726206584]
LLM(Large Language Models)は、実データに基づいて事前訓練されているにもかかわらず、幻覚と偽情報を生成する。
本稿では,従来観察されていたテキストに対してLLMを接地応答に誘導する手法を提案する。
基礎となるテキストコーパスにモデル生成回答が直接現れる範囲を計測する新しい評価指標(QUIP-Score)を提案する。
論文 参考訳(メタデータ) (2023-05-22T17:25:24Z) - LLM Paternity Test: Generated Text Detection with LLM Genetic Inheritance [58.63888295471187]
大きな言語モデル(LLM)は、様々な誤用のリスクを負うテキストを生成することができる。
モデル関連テキスト検出手法 LLM Paternity Test (LLM-Pat) を提案する。
高い類似性は、候補テキストが遺伝的特性に似た機械生成であることを示している。
論文 参考訳(メタデータ) (2023-05-21T17:26:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。