論文の概要: PerHalluEval: Persian Hallucination Evaluation Benchmark for Large Language Models
- arxiv url: http://arxiv.org/abs/2509.21104v1
- Date: Thu, 25 Sep 2025 12:50:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.910284
- Title: PerHalluEval: Persian Hallucination Evaluation Benchmark for Large Language Models
- Title(参考訳): PerHalluEval: 大規模言語モデルのペルシャ幻覚評価ベンチマーク
- Authors: Mohammad Hosseini, Kimia Hosseini, Shayan Bali, Zahra Zanjani, Saeedeh Momtazi,
- Abstract要約: PerHalluEvalはペルシア語用に調整された最初の動的幻覚評価ベンチマークである。
本ベンチマークでは,QAおよび要約タスクに関する妥当な回答と要約を生成する。
生成したトークンのログ確率を用いて、最も信頼できる幻覚インスタンスを選択しました。
- 参考スコア(独自算出の注目度): 2.049767929976436
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hallucination is a persistent issue affecting all large language Models (LLMs), particularly within low-resource languages such as Persian. PerHalluEval (Persian Hallucination Evaluation) is the first dynamic hallucination evaluation benchmark tailored for the Persian language. Our benchmark leverages a three-stage LLM-driven pipeline, augmented with human validation, to generate plausible answers and summaries regarding QA and summarization tasks, focusing on detecting extrinsic and intrinsic hallucinations. Moreover, we used the log probabilities of generated tokens to select the most believable hallucinated instances. In addition, we engaged human annotators to highlight Persian-specific contexts in the QA dataset in order to evaluate LLMs' performance on content specifically related to Persian culture. Our evaluation of 12 LLMs, including open- and closed-source models using PerHalluEval, revealed that the models generally struggle in detecting hallucinated Persian text. We showed that providing external knowledge, i.e., the original document for the summarization task, could mitigate hallucination partially. Furthermore, there was no significant difference in terms of hallucination when comparing LLMs specifically trained for Persian with others.
- Abstract(参考訳): 幻覚は全ての大きな言語モデル(LLM)、特にペルシャ語のような低リソース言語に影響を及ぼす永続的な問題である。
PerHalluEval (Persian Hallucination Evaluation) はペルシア語向けに開発された最初の動的幻覚評価ベンチマークである。
本ベンチマークでは,3段階のLCM駆動パイプラインを用いて,QAおよび要約タスクに関する妥当な回答と要約を生成し,外因性および内因性幻覚の検出に重点を置いている。
さらに,生成したトークンのログ確率を用いて,最も信頼性の高い幻覚インスタンスを選択する。
さらに,人間アノテータによるQAデータセットのペルシャ固有のコンテキストの強調を行い,ペルシャ文化に関連するコンテンツ上でのLLMのパフォーマンスを評価する。
PerHalluEval を用いたオープンソースモデルやクローズドソースモデルを含む12個の LLM の評価により,これらのモデルが幻覚ペルシャ文字の検出に一般的に苦慮していることが明らかとなった。
要約作業の原文書である外部知識の提供は,幻覚を部分的に緩和できることを示した。
さらに、ペルシャ語で特別に訓練されたLSMを他者と比較した場合、幻覚の点で有意な差はなかった。
関連論文リスト
- ANAH-v2: Scaling Analytical Hallucination Annotation of Large Language Models [65.12177400764506]
大規模言語モデル (LLM) は、様々な領域や広範囲のアプリケーションにまたがる、長い形式の質問応答タスクにおいて幻覚を示す。
現在の幻覚検出と緩和データセットはドメインやサイズによって制限されている。
本稿では,幻覚アノテーションデータセットを同時に,段階的にスケールアップする反復的自己学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-05T17:56:38Z) - HalluDial: A Large-Scale Benchmark for Automatic Dialogue-Level Hallucination Evaluation [19.318217051269382]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野で大きく進歩した。
HalluDialは、対話レベルの幻覚自動評価のための、初めての総合的な大規模ベンチマークである。
ベンチマークには4,094の対話があり、合計146,856のサンプルが含まれている。
論文 参考訳(メタデータ) (2024-06-11T08:56:18Z) - ANAH: Analytical Annotation of Hallucinations in Large Language Models [65.12177400764506]
我々は、大言語モデルにおける幻覚の@textbfAN$alytical $textbfA$nnotationを提供するデータセットである$textbfANAH$を提示する。
ANAHは、700以上のトピックをカバーする4.3k LLM応答のための12kの文レベルのアノテーションで構成されている。
幻覚アノテーションの微粒化により, LLMの幻覚が解答に蓄積されることを定量的に確認し, ANAHを用いて幻覚アノテーションを訓練し, 評価する。
論文 参考訳(メタデータ) (2024-05-30T17:54:40Z) - HaluEval: A Large-Scale Hallucination Evaluation Benchmark for Large
Language Models [146.87696738011712]
大型言語モデル(LLM)は幻覚を生成する傾向があり、すなわち、ソースと矛盾したり、事実の知識によって検証できないコンテンツである。
言語モデル(HaluEval)のための幻覚評価ベンチマーク(Halucination Evaluation benchmark)を導入する。
論文 参考訳(メタデータ) (2023-05-19T15:36:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。