論文の概要: FACTOID: FACtual enTailment fOr hallucInation Detection
- arxiv url: http://arxiv.org/abs/2403.19113v1
- Date: Thu, 28 Mar 2024 03:09:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-29 17:32:29.551250
- Title: FACTOID: FACtual enTailment fOr hallucInation Detection
- Title(参考訳): FACTOID:FACtual entailment fOr Hallucination Detection
- Authors: Vipula Rawte, S. M Towhidul Islam Tonmoy, Krishnav Rajbangshi, Shravani Nag, Aman Chadha, Amit P. Sheth, Amitava Das,
- Abstract要約: RAGは、Large Language Modelsが生成したテキストがサポートされているか、矛盾しているかを確認するために、TE(textual Entailment)や同様の手法に依存している。
FEは、LLMが生成したコンテンツの事実的不正確な検出と、現実と矛盾する特定のテキストセグメントの強調を目的としている。
FEは、GPT-3、SpanBERT、RoFormerとともに、e5-mistral-7b-instructのような最先端(SoTA)のテキスト埋め込みを組み込んでいる。
- 参考スコア(独自算出の注目度): 10.20632187568563
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The widespread adoption of Large Language Models (LLMs) has facilitated numerous benefits. However, hallucination is a significant concern. In response, Retrieval Augmented Generation (RAG) has emerged as a highly promising paradigm to improve LLM outputs by grounding them in factual information. RAG relies on textual entailment (TE) or similar methods to check if the text produced by LLMs is supported or contradicted, compared to retrieved documents. This paper argues that conventional TE methods are inadequate for spotting hallucinations in content generated by LLMs. For instance, consider a prompt about the 'USA's stance on the Ukraine war''. The AI-generated text states, ...U.S. President Barack Obama says the U.S. will not put troops in Ukraine...'' However, during the war the U.S. president is Joe Biden which contradicts factual reality. Moreover, current TE systems are unable to accurately annotate the given text and identify the exact portion that is contradicted. To address this, we introduces a new type of TE called ``Factual Entailment (FE).'', aims to detect factual inaccuracies in content generated by LLMs while also highlighting the specific text segment that contradicts reality. We present FACTOID (FACTual enTAILment for hallucInation Detection), a benchmark dataset for FE. We propose a multi-task learning (MTL) framework for FE, incorporating state-of-the-art (SoTA) long text embeddings such as e5-mistral-7b-instruct, along with GPT-3, SpanBERT, and RoFormer. The proposed MTL architecture for FE achieves an avg. 40\% improvement in accuracy on the FACTOID benchmark compared to SoTA TE methods. As FE automatically detects hallucinations, we assessed 15 modern LLMs and ranked them using our proposed Auto Hallucination Vulnerability Index (HVI_auto). This index quantifies and offers a comparative scale to evaluate and rank LLMs according to their hallucinations.
- Abstract(参考訳): LLM(Large Language Models)の普及により、多くのメリットがもたらされた。
しかし、幻覚は重要な懸念事項である。
これに対し、レトリーバル拡張生成(RAG)は、実情報に基づいてLLM出力を改善するための、非常に有望なパラダイムとして登場した。
RAGは、検索された文書と比較して、LLMが生成したテキストがサポートされているか、矛盾しているかを確認するために、TE(textual Entailment)または類似の手法に依存している。
本稿では,従来のTE法は,LLMが生成した内容の幻覚の発見に不適切である,と論じる。
例えば、「ウクライナ戦争に対する米国の姿勢」について、一言のプロンプトを考えてみましょう。
バラク・オバマ米大統領は、「米国はウクライナに軍隊を配置しない」と述べたが、戦争中はジョー・バイデン米大統領が事実上の現実と矛盾している。
さらに、現在のTEシステムは、与えられたテキストを正確にアノテートし、矛盾している正確な部分を特定することができない。
これを解決するために、 ``Factual Entailment (FE) と呼ばれる新しいタイプのTEを紹介した。
LLMが生成したコンテンツの事実的不正確性を検出すると同時に、現実に反する特定のテキストセグメントを強調することを目的としている。
FEのベンチマークデータセットであるFACTOID(Factual enTAILment for Hallucination Detection)を提案する。
GPT-3, SpanBERT, RoFormerとともに, e5-mistral-7b-instructsのような最先端(SoTA)のテキスト埋め込みを組み込んだマルチタスク学習(MTL)フレームワークを提案する。
FE のための MTL アーキテクチャは avg を達成する。
FACTOIDの精度はSoTA TE法と比較して40%向上した。
FEは幻覚を自動的に検出するので、15個の近代LCMを評価、提案したオート幻覚脆弱性指数(HVI_auto)を用いて評価した。
この指標は、その幻覚に応じてLSMを評価し、ランク付けするための比較尺度を定量化し、提供する。
関連論文リスト
- ETF: An Entity Tracing Framework for Hallucination Detection in Code Summaries [29.561699707926056]
大型言語モデル(LLM)は、意図した意味から逸脱する幻覚出力の傾向にある。
コード要約における幻覚検出に特化してキュレートされた$sim$10Kのサンプルを用いたファースト・オブ・ザ・キンドデータセットを提案する。
論文 参考訳(メタデータ) (2024-10-17T19:38:55Z) - LongHalQA: Long-Context Hallucination Evaluation for MultiModal Large Language Models [96.64960606650115]
LongHalQA (LongHalQA) は、6Kの長い複雑な幻覚テキストからなるLLMフリー幻覚ベンチマークである。
LongHalQA は GPT4V の生成した幻覚データによって特徴付けられる。
論文 参考訳(メタデータ) (2024-10-13T18:59:58Z) - Negation Blindness in Large Language Models: Unveiling the NO Syndrome in Image Generation [63.064204206220936]
基礎的な大規模言語モデル(LLM)は、私たちが技術を理解する方法を変えました。
詩の執筆からコーディング、エッセイ生成、パズルの解決まで、様々な課題に長けていることが示されている。
画像生成機能の導入により、より包括的で汎用的なAIツールとなった。
現在特定されている欠陥には、幻覚、偏見、有害なコンテンツを生成するために制限されたコマンドをバイパスすることが含まれる。
論文 参考訳(メタデータ) (2024-08-27T14:40:16Z) - Semantically Diverse Language Generation for Uncertainty Estimation in Language Models [5.8034373350518775]
大規模言語モデル(LLM)は、テキストを生成する際に幻覚に悩まされることがある。
現在のLLMは、テキストトークンを予測および付加することにより、自動回帰形式でテキストを生成する。
LLMの予測不確かさを定量化するために,Semantically Diverse Language Generationを導入する。
論文 参考訳(メタデータ) (2024-06-06T17:53:34Z) - UFO: a Unified and Flexible Framework for Evaluating Factuality of Large
Language Models [73.73303148524398]
大規模言語モデル(LLM)は、人間の知識との整合性に欠けるテキストを生成し、事実的不正確さやテキスト・ハロシン化をもたらす。
プラグアンドプレイのファクトソースに対する事実を検証するための,LLMに基づく統一的かつ柔軟な評価フレームワークである textttUFO を提案する。
論文 参考訳(メタデータ) (2024-02-22T16:45:32Z) - Improving Factual Consistency of Text Summarization by Adversarially
Decoupling Comprehension and Embellishment Abilities of LLMs [67.56087611675606]
大規模言語モデル(LLM)は、本来の記事と現実的に矛盾する要約を生成する。
これらの幻覚は、従来の方法による検出が困難である。
LLM(DECENT)の能力を阻害する逆デカップリング法を提案する。
論文 参考訳(メタデータ) (2023-10-30T08:40:16Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z) - Shifting Attention to Relevance: Towards the Predictive Uncertainty Quantification of Free-Form Large Language Models [27.491408293411734]
大規模言語モデル(LLM)は、言語生成と命令の後に有望な結果を示すが、しばしば「ハロシン化」を示す。
我々の研究は単純な冗長性を導入している: 自動回帰テキストのすべてのトークンが、基礎となる意味を等しく表しているわけではない。
論文 参考訳(メタデータ) (2023-07-03T22:17:16Z) - "According to ...": Prompting Language Models Improves Quoting from
Pre-Training Data [52.03853726206584]
LLM(Large Language Models)は、実データに基づいて事前訓練されているにもかかわらず、幻覚と偽情報を生成する。
本稿では,従来観察されていたテキストに対してLLMを接地応答に誘導する手法を提案する。
基礎となるテキストコーパスにモデル生成回答が直接現れる範囲を計測する新しい評価指標(QUIP-Score)を提案する。
論文 参考訳(メタデータ) (2023-05-22T17:25:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。