論文の概要: AraHalluEval: A Fine-grained Hallucination Evaluation Framework for Arabic LLMs
- arxiv url: http://arxiv.org/abs/2509.04656v2
- Date: Tue, 09 Sep 2025 13:49:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 12:33:22.817084
- Title: AraHalluEval: A Fine-grained Hallucination Evaluation Framework for Arabic LLMs
- Title(参考訳): AraHalluEval: アラビアのLLMのためのきめ細かい幻覚評価フレームワーク
- Authors: Aisha Alansari, Hamzah Luqman,
- Abstract要約: 本稿では,アラビア語および多言語大言語モデル(LLM)の最初の幻覚評価について述べる。
本研究は,4つのアラビア事前学習モデル,4つの多言語モデル,および4つの推論モデルを含む合計12個のLLMを評価する。
その結果、すべてのモデルやタスクにおいて、事実の幻覚は忠実度エラーよりも一般的であることが判明した。
- 参考スコア(独自算出の注目度): 3.8100688074986095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, extensive research on the hallucination of the large language models (LLMs) has mainly focused on the English language. Despite the growing number of multilingual and Arabic-specific LLMs, evaluating LLMs' hallucination in the Arabic context remains relatively underexplored. The knowledge gap is particularly pressing given Arabic's widespread use across many regions and its importance in global communication and media. This paper presents the first comprehensive hallucination evaluation of Arabic and multilingual LLMs on two critical Arabic natural language generation tasks: generative question answering (GQA) and summarization. This study evaluates a total of 12 LLMs, including 4 Arabic pre-trained models, 4 multilingual models, and 4 reasoning-based models. To assess the factual consistency and faithfulness of LLMs' outputs, we developed a fine-grained hallucination evaluation framework consisting of 12 fine-grained hallucination indicators that represent the varying characteristics of each task. The results reveal that factual hallucinations are more prevalent than faithfulness errors across all models and tasks. Notably, the Arabic pre-trained model Allam consistently demonstrates lower hallucination rates than multilingual models and a comparative performance with reasoning-based models. The code is available at: https://github.com/aishaalansari57/AraHalluEval
- Abstract(参考訳): 近年,大規模言語モデル (LLM) の幻覚に関する広範な研究は,主に英語に焦点を当てている。
多言語およびアラビア語固有のLLMの増加にもかかわらず、アラビア語の文脈におけるLLMの幻覚の評価は比較的過小評価されている。
この知識格差は、アラビア語が多くの地域で広く使われていることや、グローバルなコミュニケーションやメディアにおいて重要であることを考えると、特に顕著である。
本稿では,アラビア語と多言語LLMの総合幻覚評価を,生成的質問応答(GQA)と要約という2つの重要なアラビア語の自然言語生成タスクに対して行った。
本研究は,4つのアラビア事前学習モデル,4つの多言語モデル,および4つの推論モデルを含む合計12個のLLMを評価する。
LLMの出力の事実整合性と忠実性を評価するため,各タスクの特徴を表わす12個の細粒度幻覚指標からなる細粒度幻覚評価フレームワークを開発した。
その結果、すべてのモデルやタスクにおいて、事実の幻覚は忠実度エラーよりも一般的であることが判明した。
特に、アラビアの事前訓練モデルであるAllamは、多言語モデルよりも幻覚率が低く、推論モデルと比較性能が低いことを一貫して示している。
コードは以下の通り。 https://github.com/aishaalansari57/AraHalluEval
関連論文リスト
- HalluVerse25: Fine-grained Multilingual Benchmark Dataset for LLM Hallucinations [2.3732122943029164]
英語,アラビア語,トルコ語で微粒な幻覚を分類する多言語データセットであるHaluVerse25を紹介する。
我々のデータセット構築パイプラインは、LLMを使用して幻覚を実際の伝記文に注入し、続いて厳密な人間のアノテーションプロセスでデータ品質を保証します。
論文 参考訳(メタデータ) (2025-03-10T20:24:07Z) - How Much Do LLMs Hallucinate across Languages? On Multilingual Estimation of LLM Hallucination in the Wild [11.82100047858478]
幻覚とは、大規模言語モデルが非現実的または不誠実な応答を生成する傾向である。
我々は多言語幻覚検出モデルを訓練し、30言語にわたる大規模な研究を行う。
その結果,LLMは高次情報源言語に対するより幻覚的なトークンでより長い応答を生成するが,言語の長さ正規化幻覚率とそれらのデジタル表現との間には相関がないことが判明した。
論文 参考訳(メタデータ) (2025-02-18T11:32:43Z) - FaithBench: A Diverse Hallucination Benchmark for Summarization by Modern LLMs [2.871226288151562]
本稿では,10の現代LSMによる難解な幻覚を含む要約幻覚ベンチマークであるFaithBenchを紹介する。
その結果, GPT-4o と GPT-3.5-Turbo が最も幻覚が少ないことが判明した。
最高の幻覚検出モデルでさえ、FaithBenchには50%近い精度があり、将来の改善の余地がたくさんあることを示している。
論文 参考訳(メタデータ) (2024-10-17T04:30:46Z) - ANAH: Analytical Annotation of Hallucinations in Large Language Models [65.12177400764506]
我々は、大言語モデルにおける幻覚の@textbfAN$alytical $textbfA$nnotationを提供するデータセットである$textbfANAH$を提示する。
ANAHは、700以上のトピックをカバーする4.3k LLM応答のための12kの文レベルのアノテーションで構成されている。
幻覚アノテーションの微粒化により, LLMの幻覚が解答に蓄積されることを定量的に確認し, ANAHを用いて幻覚アノテーションを訓練し, 評価する。
論文 参考訳(メタデータ) (2024-05-30T17:54:40Z) - "Knowing When You Don't Know": A Multilingual Relevance Assessment Dataset for Robust Retrieval-Augmented Generation [90.09260023184932]
Retrieval-Augmented Generation (RAG) は、外部の知識源を活用して、事実の幻覚を減らすことで、Large Language Model (LLM) を出力する。
NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。
本研究は,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sr。
論文 参考訳(メタデータ) (2023-12-18T17:18:04Z) - Evaluating Hallucinations in Chinese Large Language Models [65.4771562909392]
我々は,中国大言語モデルにおける幻覚現象を測定するために,HaluQA(中国語幻覚質問回答)というベンチマークを構築した。
GLM-130B と ChatGPT の2種類の幻覚について考察した。
評価のために,モデル出力が幻覚的かどうかを判定するために,GPT-4を用いた自動評価手法を設計する。
論文 参考訳(メタデータ) (2023-10-05T07:57:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。