論文の概要: When Models Lie, We Learn: Multilingual Span-Level Hallucination Detection with PsiloQA
- arxiv url: http://arxiv.org/abs/2510.04849v1
- Date: Mon, 06 Oct 2025 14:36:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.901738
- Title: When Models Lie, We Learn: Multilingual Span-Level Hallucination Detection with PsiloQA
- Title(参考訳): PsiloQAを用いた多言語スパンレベル幻覚検出
- Authors: Elisei Rykov, Kseniia Petrushina, Maksim Savkin, Valerii Olisov, Artem Vazhentsev, Kseniia Titova, Alexander Panchenko, Vasily Konovalov, Julia Belikova,
- Abstract要約: PsiloQAは、14言語にまたがるスパンレベルの幻覚を付加した、大規模な多言語データセットである。
我々のデータセットと結果は、多言語設定におけるスケーラブルできめ細かい幻覚検出の開発を促進する。
- 参考スコア(独自算出の注目度): 46.50540400870401
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hallucination detection remains a fundamental challenge for the safe and reliable deployment of large language models (LLMs), especially in applications requiring factual accuracy. Existing hallucination benchmarks often operate at the sequence level and are limited to English, lacking the fine-grained, multilingual supervision needed for a comprehensive evaluation. In this work, we introduce PsiloQA, a large-scale, multilingual dataset annotated with span-level hallucinations across 14 languages. PsiloQA is constructed through an automated three-stage pipeline: generating question-answer pairs from Wikipedia using GPT-4o, eliciting potentially hallucinated answers from diverse LLMs in a no-context setting, and automatically annotating hallucinated spans using GPT-4o by comparing against golden answers and retrieved context. We evaluate a wide range of hallucination detection methods -- including uncertainty quantification, LLM-based tagging, and fine-tuned encoder models -- and show that encoder-based models achieve the strongest performance across languages. Furthermore, PsiloQA demonstrates effective cross-lingual generalization and supports robust knowledge transfer to other benchmarks, all while being significantly more cost-efficient than human-annotated datasets. Our dataset and results advance the development of scalable, fine-grained hallucination detection in multilingual settings.
- Abstract(参考訳): 幻覚検出は、特に事実の正確性を必要とするアプリケーションにおいて、大規模言語モデル(LLM)の安全で信頼性の高いデプロイにおいて、依然として根本的な課題である。
既存の幻覚ベンチマークは、しばしばシーケンスレベルで動作し、英語に限定され、包括的な評価に必要な細粒度で多言語的な監督が欠如している。
本研究では,14言語にまたがる広義の幻覚を付加した大規模多言語データセットであるPsiloQAを紹介する。
PsiloQA は、GPT-4o を用いてウィキペディアから質問応答対を生成すること、非コンテキスト設定で多種多様な LLM から潜在的幻覚応答を抽出すること、GPT-4o から黄金の回答と検索された文脈を比較して幻覚したスパンを自動的に注釈付けすること、という3段階の自動パイプラインによって構築される。
我々は,不確実性定量化,LLMに基づくタグ付け,微調整エンコーダモデルなど,幅広い幻覚検出手法を評価し,エンコーダに基づくモデルが言語間で最高の性能を発揮することを示す。
さらに、PsiloQAは効果的な言語間一般化を示し、他のベンチマークへの堅牢な知識転送をサポートします。
我々のデータセットと結果は、多言語設定におけるスケーラブルできめ細かい幻覚検出の開発を促進する。
関連論文リスト
- Ask a Local: Detecting Hallucinations With Specialized Model Divergence [0.16874375111244325]
本研究では,大規模言語モデルに対する新しい幻覚検出手法であるAsk a Localを紹介する。
提案手法は,言語特化モデルのパープレキシティ分布のばらつきを計算し,ハロゲン化の可能性のあるスパンを同定する。
そこで本研究では,14言語にまたがる人間による質問応答データセットについて,一貫した性能を示す。
論文 参考訳(メタデータ) (2025-06-03T20:00:49Z) - Poly-FEVER: A Multilingual Fact Verification Benchmark for Hallucination Detection in Large Language Models [10.663446796160567]
生成AIにおける幻覚、特にLarge Language Models(LLMs)は、多言語アプリケーションの信頼性に重大な課題をもたらす。
幻覚検出のための既存のベンチマークは、主に英語といくつかの広く話されている言語に焦点を当てている。
大規模多言語事実検証ベンチマークであるPoly-FEVERを紹介する。
論文 参考訳(メタデータ) (2025-03-19T01:46:09Z) - LargePiG: Your Large Language Model is Secretly a Pointer Generator [15.248956952849259]
本稿では,Large Language Models (LLMs) に基づく問合せ生成による幻覚問題の新しいタイプとして,関連性幻覚と事実性幻覚を導入する。
LLM生成クエリの形式からコンテンツを切り離す効果的な方法を提案し、入力から抽出・統合された事実知識を保存し、LLMの強力な言語機能を用いて関数語を含む構文構造をコンパイルする。
論文 参考訳(メタデータ) (2024-10-15T07:41:40Z) - LongHalQA: Long-Context Hallucination Evaluation for MultiModal Large Language Models [96.64960606650115]
LongHalQA (LongHalQA) は、6Kの長い複雑な幻覚テキストからなるLLMフリー幻覚ベンチマークである。
LongHalQA は GPT4V の生成した幻覚データによって特徴付けられる。
論文 参考訳(メタデータ) (2024-10-13T18:59:58Z) - ANAH-v2: Scaling Analytical Hallucination Annotation of Large Language Models [65.12177400764506]
大規模言語モデル (LLM) は、様々な領域や広範囲のアプリケーションにまたがる、長い形式の質問応答タスクにおいて幻覚を示す。
現在の幻覚検出と緩和データセットはドメインやサイズによって制限されている。
本稿では,幻覚アノテーションデータセットを同時に,段階的にスケールアップする反復的自己学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-05T17:56:38Z) - HypoTermQA: Hypothetical Terms Dataset for Benchmarking Hallucination
Tendency of LLMs [0.0]
幻覚は、大規模言語モデル(LLM)の信頼性と整合性に重大な課題をもたらす
本稿では,LLMの幻覚傾向のベンチマークと効率的な幻覚検出を組み合わせた,スケーラブルな自動フレームワークを提案する。
フレームワークはドメインに依存しないため、任意のドメインでのベンチマーク作成や評価に任意の言語モデルを使用することができる。
論文 参考訳(メタデータ) (2024-02-25T22:23:37Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。