論文の概要: BenHalluEval: A Multi-Task Hallucination Evaluation Framework for Large Language Models on Bengali
- arxiv url: http://arxiv.org/abs/2605.31483v2
- Date: Wed, 03 Jun 2026 05:04:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 17:40:41.569076
- Title: BenHalluEval: A Multi-Task Hallucination Evaluation Framework for Large Language Models on Bengali
- Title(参考訳): BenHalluEval: Bengali上の大規模言語モデルのためのマルチタスク幻覚評価フレームワーク
- Authors: Shefayat E Shams Adib, Ahmed Alfey Sani, Ekramul Alam Esham, Ajwad Abrar, Ishmam Tashdeed, Md Taukir Azam Chowdhury,
- Abstract要約: ベンガルの幻覚評価フレームワークであるBenHalluEvalを紹介する。
GPT-5.4を12種類のタスク特異的幻覚タイプで用いた12,000の幻覚候補を構築した。
BenHalluScoreは、モデルとタスク間で7.72%から55.42%の範囲の2トラックキャリブレーション指標である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite Bengali being the sixth most spoken language in the world, no prior work has systematically evaluated hallucination in large language models (LLMs) for Bengali. We introduce BenHalluEval, a fine-grained hallucination evaluation framework for Bengali covering four tasks: Generative Question Answering (GQA), Bangla-English Code-Mixed QA, Summarization, and Reasoning. We construct 12,000 hallucinated candidates using GPT-5.4 across twelve task-specific hallucination types, drawn from three existing Bengali datasets, and evaluate seven LLMs spanning reasoning-oriented, multilingual, and Bengali-centric categories under a dual-track protocol that independently measures false-positive rate on ground-truth instances (Track A) and hallucination detection rate on hallucinated candidates (Track B). To jointly penalise both failure modes and prevent inflated scores from uniform response bias, we propose BenHalluScore, a dual-track calibration metric that ranges from 7.72% to 55.42% across models and tasks, revealing substantial variation in hallucination calibration. Chain-of-thought prompting, applied as a mitigation strategy, shifts response distributions without consistently improving hallucination discrimination. BenHalluEval establishes the first dedicated hallucination benchmark for Bengali and highlights the inadequacy of single-track and prompting-only evaluation approaches for low-resource language settings. The dataset and code are available at https://anonymous.4open.science/r/BanglaHalluEval-EB77.
- Abstract(参考訳): ベンガル語は世界で6番目に話されている言語であるにもかかわらず、ベンガル語に対する大きな言語モデル(LLM)の幻覚を体系的に評価する以前の研究は行われていない。
我々はBenHalluEvalを紹介した。Bengaliの幻覚評価フレームワークは,GQA(Generative Question Answering),Bangla- English Code-Mixed QA,Summarization,Reasoningの4つのタスクをカバーしている。
GPT-5.4を既存のベンガルデータセットから抽出した12種類のタスク固有幻覚型を用いて12,000の幻覚候補を構築し,2重トラックプロトコルを用いて,理性指向,多言語,ベンガル中心のカテゴリにまたがる7つのLDMを評価し,地上実例の偽陽性率(トラックA)と幻覚検出率(トラックB)を独立に測定した。
両障害モードを共同でペナライズし,一様応答バイアスから膨らませたスコアを防止するために,モデルとタスク間で7.72%から55.42%の範囲の2トラックキャリブレーション指標であるBenHalluScoreを提案し,幻覚キャリブレーションのかなりの変動を明らかにした。
連鎖促進策は緩和戦略として適用され、幻覚の識別を常に改善することなく応答分布をシフトさせる。
BenHalluEvalはBengaliの最初の専用幻覚ベンチマークを確立し、シングルトラックの不適切さと低リソース言語設定に対するプロンプトのみの評価アプローチを強調している。
データセットとコードはhttps://anonymous.4open.science/r/BanglaHalluEval-EB77で公開されている。
関連論文リスト
- Benchmarking Bengali Dialectal Bias: A Multi-Stage Framework Integrating RAG-Based Translation and Human-Augmented RLAIF [0.3227658251731014]
大規模言語モデル(LLM)は、低リソース言語の方言に対する性能バイアスを頻繁に示している。
ベンガル方言9方言を対象に,LLM質問応答における方言バイアスを評価するための2段階の枠組みを提案する。
論文 参考訳(メタデータ) (2026-03-22T18:44:57Z) - DSC2025 -- ViHallu Challenge: Detecting Hallucination in Vietnamese LLMs [5.740643252319679]
本稿ではベトナム語モデルにおける幻覚検出のための大規模共有タスクであるDSC2025 ViHallu Challengeを紹介する。
提案するViHalluデータセットは,1万個の注釈付き三重項(コンテキスト,プロンプト,応答)からなる。
合計111チームが参加し、マクロF1スコアは84.80%、ベースラインエンコーダのみスコアは32.83%だった。
論文 参考訳(メタデータ) (2026-01-08T08:27:47Z) - BengaliFig: A Low-Resource Challenge for Figurative and Culturally Grounded Reasoning in Bengali [0.0]
コンパクトでリッチな注釈付き挑戦集合であるBengaliFigを提示する。
データセットには、ベンガルの口頭と文学の伝統から採られた435のユニークな謎が含まれている。
各項目は、推論タイプ、トラップタイプ、文化的深さ、回答カテゴリ、難易度を5次元にアノテートする。
論文 参考訳(メタデータ) (2025-11-25T15:26:47Z) - Parameter-Efficient Fine-Tuning for Low-Resource Languages: A Comparative Study of LLMs for Bengali Hate Speech Detection [0.0]
本稿では,LoRAとQLoRAを用いたベンガルヘイトスピーチ検出におけるPEFT(Efficient Fine-Tuning)の最初の応用について述べる。
BD-SHSデータセットには50,281の注釈付きコメントが記載されている。
Llama-3.2-3Bは92.23%、Mistral-7Bは88.94%、Gemma-3-4Bは80.25%だった。
論文 参考訳(メタデータ) (2025-10-19T20:03:22Z) - ANAH: Analytical Annotation of Hallucinations in Large Language Models [65.12177400764506]
我々は、大言語モデルにおける幻覚の@textbfAN$alytical $textbfA$nnotationを提供するデータセットである$textbfANAH$を提示する。
ANAHは、700以上のトピックをカバーする4.3k LLM応答のための12kの文レベルのアノテーションで構成されている。
幻覚アノテーションの微粒化により, LLMの幻覚が解答に蓄積されることを定量的に確認し, ANAHを用いて幻覚アノテーションを訓練し, 評価する。
論文 参考訳(メタデータ) (2024-05-30T17:54:40Z) - "Knowing When You Don't Know": A Multilingual Relevance Assessment Dataset for Robust Retrieval-Augmented Generation [90.09260023184932]
Retrieval-Augmented Generation (RAG) は、外部の知識源を活用して、事実の幻覚を減らすことで、Large Language Model (LLM) を出力する。
NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。
本研究は,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sr。
論文 参考訳(メタデータ) (2023-12-18T17:18:04Z) - Evaluating Hallucinations in Chinese Large Language Models [65.4771562909392]
我々は,中国大言語モデルにおける幻覚現象を測定するために,HaluQA(中国語幻覚質問回答)というベンチマークを構築した。
GLM-130B と ChatGPT の2種類の幻覚について考察した。
評価のために,モデル出力が幻覚的かどうかを判定するために,GPT-4を用いた自動評価手法を設計する。
論文 参考訳(メタデータ) (2023-10-05T07:57:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。