論文の概要: HalluScore: Large Language Model Hallucination Question Answering Benchmark
- arxiv url: http://arxiv.org/abs/2605.17007v1
- Date: Sat, 16 May 2026 14:08:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:47.416296
- Title: HalluScore: Large Language Model Hallucination Question Answering Benchmark
- Title(参考訳): HalluScore: ベンチマークに回答する大規模言語モデル幻覚質問
- Authors: Aisha Alansari, Hamzah Luqman,
- Abstract要約: HalluScoreは、大規模言語モデルにおける幻覚行動を評価するために設計された構造化アラビア語質問応答ベンチマークである。
LLMの幻覚の評価、検出、緩和のための827の精査された質問を含んでいる。
われわれは17のアラビア語・多言語・推論LLMの幻覚パターンを包括的に分析した。
- 参考スコア(独自算出の注目度): 3.8100688074986095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have achieved remarkable progress in natural language generation, but remain susceptible to hallucination. In response to growing concerns about hallucinations, several benchmarks have been developed, primarily in English and Chinese. However, Arabic remains underrepresented, with limited benchmarks for LLMs hallucination due to scarce annotated resources and the language's morphological complexity. Consequently, existing benchmarks do not adequately reflect the linguistic, cultural, and reasoning characteristics of Arabic. To address this gap, we introduce HalluScore, a structured Arabic question answering benchmark designed to evaluate hallucination behavior in LLMs across different levels of reasoning difficulty, various knowledge domains, historical timelines, and culturally grounded Arabic scenarios. It contains 827 carefully curated questions for evaluating, detecting, and mitigating hallucination in LLMs. The dataset was constructed through a structured pipeline involving quality assurance, filtering for clarity and factual validity, and model-driven selection to retain questions that consistently trigger hallucinations. Each question is linked to verified ground-truth evidence, answer explanations, and multi-label annotations. Using the HalluScore benchmark, we conduct a comprehensive empirical analysis of hallucination patterns across 17 Arabic, multilingual, and reasoning LLMs. Moreover, we provide high-quality human annotations identifying hallucinated, non-hallucinated, and partially hallucinated responses of all evaluated LLMs. These results suggest that hallucination in Arabic LLMs extends beyond factual inaccuracies, encompassing challenges related to cultural understanding, linguistic reasoning, and logical consistency. We release HalluScore to support future research on improving the reliability and cultural competence of LLMs in Arabic.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語生成において顕著な進歩を遂げているが、幻覚の影響を受けやすいままである。
幻覚に対する懸念が高まる中で、主に英語と中国語でいくつかのベンチマークが開発されている。
しかし、アラビア語はいまだに不足しており、注記資源の不足と言語の形態的複雑さによるLLMの幻覚のベンチマークは限られている。
既存のベンチマークは、アラビア語の言語的、文化的、理性的な特徴を十分に反映していない。
このギャップに対処するために、さまざまな推論難易度、様々な知識領域、歴史的タイムライン、文化的に根ざしたアラビアのシナリオにまたがるLLMにおける幻覚行動を評価するために設計された構造化アラビア語質問応答ベンチマークであるHauScoreを紹介した。
LLMの幻覚の評価、検出、緩和のための827の精査された質問を含んでいる。
データセットは、品質保証、明瞭さと事実の有効性のフィルタリング、そして幻覚を常に引き起こす質問を維持するためのモデル駆動の選択を含む構造化パイプラインによって構築された。
各質問は、検証済みの土台真理証拠、回答説明、マルチラベルアノテーションに関連付けられている。
HalluScoreベンチマークを用いて、17のアラビア語、多言語、推論LLMの幻覚パターンを包括的に分析する。
さらに、評価された全てのLDMの幻覚的、非幻覚的、部分的に幻覚的応答を識別する高品質な人間のアノテーションを提供する。
これらの結果は、アラビア語のLLMにおける幻覚は、文化的理解、言語的推論、論理的整合性に関連する課題を含む、事実的不正確性を超えて広がることを示唆している。
アラビア語におけるLLMの信頼性と文化能力の向上に関する今後の研究を支援するため、HaluScoreをリリースする。
関連論文リスト
- Halluverse-M^3: A multitask multilingual benchmark for hallucination in LLMs [2.453830698820308]
Halluverse-M3は、複数の言語にまたがる幻覚の体系的な分析を可能にするデータセットである。
データセットは、エンティティレベル、関係レベル、および文レベルの幻覚を明確に区別する。
Halluverse-M3は、多言語、マルチタスク設定で幻覚を研究するための現実的で挑戦的なベンチマークを提供する。
論文 参考訳(メタデータ) (2026-02-06T18:16:09Z) - AraHalluEval: A Fine-grained Hallucination Evaluation Framework for Arabic LLMs [3.8100688074986095]
本稿では,アラビア語および多言語大言語モデル(LLM)の最初の幻覚評価について述べる。
本研究は,4つのアラビア事前学習モデル,4つの多言語モデル,および4つの推論モデルを含む合計12個のLLMを評価する。
その結果、すべてのモデルやタスクにおいて、事実の幻覚は忠実度エラーよりも一般的であることが判明した。
論文 参考訳(メタデータ) (2025-09-04T20:57:35Z) - HalluVerse25: Fine-grained Multilingual Benchmark Dataset for LLM Hallucinations [2.3732122943029164]
英語,アラビア語,トルコ語で微粒な幻覚を分類する多言語データセットであるHaluVerse25を紹介する。
我々のデータセット構築パイプラインは、LLMを使用して幻覚を実際の伝記文に注入し、続いて厳密な人間のアノテーションプロセスでデータ品質を保証します。
論文 参考訳(メタデータ) (2025-03-10T20:24:07Z) - Multilingual Hallucination Gaps in Large Language Models [5.505634045241288]
フリーフォームテキスト生成において,複数の言語にまたがる幻覚現象について検討する。
これらのギャップは、使用するプロンプトや言語による幻覚応答の頻度の違いを反映している。
その結果, 幻覚率の変動, 特に高次言語と低次言語の違いが明らかになった。
論文 参考訳(メタデータ) (2024-10-23T20:41:51Z) - LongHalQA: Long-Context Hallucination Evaluation for MultiModal Large Language Models [96.64960606650115]
LongHalQA (LongHalQA) は、6Kの長い複雑な幻覚テキストからなるLLMフリー幻覚ベンチマークである。
LongHalQA は GPT4V の生成した幻覚データによって特徴付けられる。
論文 参考訳(メタデータ) (2024-10-13T18:59:58Z) - Hallucination Detection: Robustly Discerning Reliable Answers in Large Language Models [70.19081534515371]
大規模言語モデル(LLM)は様々な自然言語処理タスクで広く採用されている。
それらは、入力源から逸脱する不信または矛盾したコンテンツを生成し、深刻な結果をもたらす。
本稿では,LLMの生成した回答の幻覚を効果的に検出するために,RelDという頑健な識別器を提案する。
論文 参考訳(メタデータ) (2024-07-04T18:47:42Z) - ANAH: Analytical Annotation of Hallucinations in Large Language Models [65.12177400764506]
我々は、大言語モデルにおける幻覚の@textbfAN$alytical $textbfA$nnotationを提供するデータセットである$textbfANAH$を提示する。
ANAHは、700以上のトピックをカバーする4.3k LLM応答のための12kの文レベルのアノテーションで構成されている。
幻覚アノテーションの微粒化により, LLMの幻覚が解答に蓄積されることを定量的に確認し, ANAHを用いて幻覚アノテーションを訓練し, 評価する。
論文 参考訳(メタデータ) (2024-05-30T17:54:40Z) - HaluEval: A Large-Scale Hallucination Evaluation Benchmark for Large
Language Models [146.87696738011712]
大型言語モデル(LLM)は幻覚を生成する傾向があり、すなわち、ソースと矛盾したり、事実の知識によって検証できないコンテンツである。
言語モデル(HaluEval)のための幻覚評価ベンチマーク(Halucination Evaluation benchmark)を導入する。
論文 参考訳(メタデータ) (2023-05-19T15:36:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。