論文の概要: REFIND: Retrieval-Augmented Factuality Hallucination Detection in Large Language Models
- arxiv url: http://arxiv.org/abs/2502.13622v1
- Date: Wed, 19 Feb 2025 10:59:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 14:01:31.367918
- Title: REFIND: Retrieval-Augmented Factuality Hallucination Detection in Large Language Models
- Title(参考訳): REFIND: 大規模言語モデルにおける検索機能強化型ファクチュアリティ幻覚検出
- Authors: DongGeon Lee, Hwanjo Yu,
- Abstract要約: 大規模言語モデル(LLM)における幻覚は、質問応答のような知識集約的なタスクにおいて、その信頼性を著しく制限する。
本稿では, 抽出した文書を直接利用して, LLM出力内のハロゲン化スパンを検出する新しいフレームワークREFINDを紹介する。
REFINDは低リソース設定を含む9つの言語で堅牢性を示し、ベースラインモデルではかなり優れていた。
- 参考スコア(独自算出の注目度): 15.380441563675243
- License:
- Abstract: Hallucinations in large language model (LLM) outputs severely limit their reliability in knowledge-intensive tasks such as question answering. To address this challenge, we introduce REFIND (Retrieval-augmented Factuality hallucINation Detection), a novel framework that detects hallucinated spans within LLM outputs by directly leveraging retrieved documents. As part of the REFIND, we propose the Context Sensitivity Ratio (CSR), a novel metric that quantifies the sensitivity of LLM outputs to retrieved evidence. This innovative approach enables REFIND to efficiently and accurately detect hallucinations, setting it apart from existing methods. In the evaluation, REFIND demonstrated robustness across nine languages, including low-resource settings, and significantly outperformed baseline models, achieving superior IoU scores in identifying hallucinated spans. This work highlights the effectiveness of quantifying context sensitivity for hallucination detection, thereby paving the way for more reliable and trustworthy LLM applications across diverse languages.
- Abstract(参考訳): 大規模言語モデル(LLM)における幻覚は、質問応答のような知識集約的なタスクにおいて、その信頼性を著しく制限する。
この課題に対処するために、検索した文書を直接利用してLLM出力内の幻覚的スパンを検出する新しいフレームワークであるREFIND(Retrieval-augmented Factuality Hallucination Detection)を導入する。
REFINDの一部として,LLM出力の感度を定量化して得られた証拠を定量化する新しい尺度であるContext Sensitivity Ratio (CSR)を提案する。
この革新的なアプローチにより、REFINDは幻覚を効率よく正確に検出し、既存の方法と区別することができる。
評価において、REFINDは低リソース設定を含む9言語で堅牢性を示し、ベースラインモデルではかなり優れており、幻覚したスパンを特定するのに優れたIoUスコアを達成できた。
この研究は、幻覚検出のための文脈感度の定量化の有効性を強調し、それによって様々な言語にまたがるより信頼性が高く信頼性の高いLLMアプリケーションへの道を開いた。
関連論文リスト
- LLM Hallucination Reasoning with Zero-shot Knowledge Test [10.306443936136425]
我々は,LLM生成テキストを3つのカテゴリの1つに分類する新たなタスクであるHalucination Reasoningを導入する。
新たなデータセットを用いた実験により,幻覚推論における本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-11-14T18:55:26Z) - Mitigating Entity-Level Hallucination in Large Language Models [11.872916697604278]
本稿では,大規模言語モデル(LLM)における幻覚の検出・緩和手法として,幻覚検出(DRAD)に基づく動的検索拡張を提案する。
実験の結果,LDMにおける幻覚の検出と緩和の両面において,DRADは優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-12T16:47:34Z) - Hallucination Detection: Robustly Discerning Reliable Answers in Large Language Models [70.19081534515371]
大規模言語モデル(LLM)は様々な自然言語処理タスクで広く採用されている。
それらは、入力源から逸脱する不信または矛盾したコンテンツを生成し、深刻な結果をもたらす。
本稿では,LLMの生成した回答の幻覚を効果的に検出するために,RelDという頑健な識別器を提案する。
論文 参考訳(メタデータ) (2024-07-04T18:47:42Z) - Retrieve Only When It Needs: Adaptive Retrieval Augmentation for Hallucination Mitigation in Large Language Models [68.91592125175787]
幻覚は、大規模言語モデル(LLM)の実践的実装において重要な課題となる。
本稿では,幻覚に対処するための選択的検索拡張プロセスにより,Lowenを改良する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-02-16T11:55:40Z) - Comparing Hallucination Detection Metrics for Multilingual Generation [62.97224994631494]
本稿では,各言語にまたがって生成した伝記要約における幻覚を,様々な事実の幻覚検出指標がいかによく識別するかを評価する。
自動測度が相互にどのように相関するか, 事実判断に一致しているかを比較検討した。
我々の分析によると、語彙指標は非効率であるが、NLIベースのメトリクスはよく機能し、多くの設定における人間のアノテーションと相関し、しばしば教師付きモデルよりも優れている。
論文 参考訳(メタデータ) (2024-02-16T08:10:34Z) - INSIDE: LLMs' Internal States Retain the Power of Hallucination Detection [39.52923659121416]
本稿では,textbfinternal textbfStates内に保持される密接な意味情報について,HoluctextbfInation textbfDEtectionについて検討する。
応答の自己整合性をよりよく評価するために、単純で効果的な textbfEigenScore メトリクスが提案されている。
内部状態における極端なアクティベーションを阻害するために,テスト時間特徴クリッピング手法を提案する。
論文 参考訳(メタデータ) (2024-02-06T06:23:12Z) - Enhancing Uncertainty-Based Hallucination Detection with Stronger Focus [99.33091772494751]
大規模言語モデル(LLM)は、様々な分野にわたる印象的なパフォーマンスで大きな人気を集めている。
LLMは、ユーザの期待を満たさない非現実的あるいは非感覚的なアウトプットを幻覚させる傾向がある。
LLMにおける幻覚を検出するための新しい基準のない不確実性に基づく手法を提案する。
論文 参考訳(メタデータ) (2023-11-22T08:39:17Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。