論文の概要: Halluverse-M^3: A multitask multilingual benchmark for hallucination in LLMs
- arxiv url: http://arxiv.org/abs/2602.06920v1
- Date: Fri, 06 Feb 2026 18:16:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.519914
- Title: Halluverse-M^3: A multitask multilingual benchmark for hallucination in LLMs
- Title(参考訳): Halluverse-M^3: LLMにおける幻覚のためのマルチタスク多言語ベンチマーク
- Authors: Samir Abdaljalil, Parichit Sharma, Erchin Serpedin, Hasan Kurban,
- Abstract要約: Halluverse-M3は、複数の言語にまたがる幻覚の体系的な分析を可能にするデータセットである。
データセットは、エンティティレベル、関係レベル、および文レベルの幻覚を明確に区別する。
Halluverse-M3は、多言語、マルチタスク設定で幻覚を研究するための現実的で挑戦的なベンチマークを提供する。
- 参考スコア(独自算出の注目度): 2.453830698820308
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hallucinations in large language models remain a persistent challenge, particularly in multilingual and generative settings where factual consistency is difficult to maintain. While recent models show strong performance on English-centric benchmarks, their behavior across languages, tasks, and hallucination types is not yet well understood. In this work, we introduce Halluverse-M^3, a dataset designed to enable systematic analysis of hallucinations across multiple languages, multiple generation tasks, and multiple hallucination categories. Halluverse-M^3 covers four languages, English, Arabic, Hindi, and Turkish, and supports two generation tasks: question answering and dialogue summarization. The dataset explicitly distinguishes between entity-level, relation-level, and sentence-level hallucinations. Hallucinated outputs are constructed through a controlled editing process and validated by human annotators, ensuring clear alignment between original content and hallucinated generations. Using this dataset, we evaluate a diverse set of contemporary open-source and proprietary language models on fine-grained hallucination detection. Our results show that question answering is consistently easier than dialogue summarization, while sentence-level hallucinations remain challenging even for the strongest models. Performance is highest in English and degrades in lower-resource languages, with Hindi exhibiting the lowest detection accuracy. Overall, Halluverse-M^3 provides a realistic and challenging benchmark for studying hallucinations in multilingual, multi-task settings. We release the dataset to support future research on hallucination detection and mitigation\footnote{https://huggingface.co/datasets/sabdalja/HalluVerse-M3}.
- Abstract(参考訳): 大規模言語モデルにおける幻覚は、特に事実整合性の維持が困難である多言語および生成的環境において、永続的な課題である。
最近のモデルでは、英語中心のベンチマークでは高いパフォーマンスを示しているが、言語、タスク、幻覚のタイプ間での振る舞いはまだよく分かっていない。
本研究では,複数の言語にまたがる幻覚の系統的解析,複数生成タスク,複数の幻覚カテゴリを実現するためのデータセットであるHaluverse-M^3を紹介する。
Halluverse-M^3は、英語、アラビア語、ヒンディー語、トルコ語の4つの言語をカバーし、質問応答と対話要約の2世代タスクをサポートしている。
データセットは、エンティティレベル、関係レベル、および文レベルの幻覚を明確に区別する。
幻覚出力は、制御された編集プロセスを通じて構築され、人間の注釈によって検証され、オリジナルコンテンツと幻覚世代との明確な整合性を確保する。
本データセットを用いて,より微細な幻覚検出において,同時代のオープンソースおよびプロプライエタリ言語モデルの多種多様な集合を評価する。
以上の結果から,最強モデルにおいても文レベルの幻覚は困難でありながら,対話の要約よりも質問応答が一貫して容易であることが示唆された。
パフォーマンスは英語が最も高く、低リソース言語では劣化し、ヒンディー語では検出精度が最も低い。
Halluverse-M^3は、多言語、マルチタスク設定における幻覚を研究するための現実的で挑戦的なベンチマークを提供する。
幻覚の検出と緩和に関する将来の研究を支援するデータセットをリリースする。
関連論文リスト
- Investigating Hallucination in Conversations for Low Resource Languages [6.439114994667614]
大きな言語モデル(LLM)は、人間の文章によく似たテキストを生成するのに顕著な習熟性を示している。
一般に「幻覚」と呼ばれる、事実的に誤った主張をしばしば生み出す。
本研究は,Hindi,Farsi,Mandarinの3言語における会話データに拡張する。
マンダリンでは LLM の幻覚反応は極めて少ないが, ヒンディー語やファルシ語では幻覚反応が著しく多いことが判明した。
論文 参考訳(メタデータ) (2025-07-30T14:39:51Z) - HalluVerse25: Fine-grained Multilingual Benchmark Dataset for LLM Hallucinations [2.3732122943029164]
英語,アラビア語,トルコ語で微粒な幻覚を分類する多言語データセットであるHaluVerse25を紹介する。
我々のデータセット構築パイプラインは、LLMを使用して幻覚を実際の伝記文に注入し、続いて厳密な人間のアノテーションプロセスでデータ品質を保証します。
論文 参考訳(メタデータ) (2025-03-10T20:24:07Z) - Multilingual Hallucination Gaps in Large Language Models [5.505634045241288]
フリーフォームテキスト生成において,複数の言語にまたがる幻覚現象について検討する。
これらのギャップは、使用するプロンプトや言語による幻覚応答の頻度の違いを反映している。
その結果, 幻覚率の変動, 特に高次言語と低次言語の違いが明らかになった。
論文 参考訳(メタデータ) (2024-10-23T20:41:51Z) - LongHalQA: Long-Context Hallucination Evaluation for MultiModal Large Language Models [96.64960606650115]
LongHalQA (LongHalQA) は、6Kの長い複雑な幻覚テキストからなるLLMフリー幻覚ベンチマークである。
LongHalQA は GPT4V の生成した幻覚データによって特徴付けられる。
論文 参考訳(メタデータ) (2024-10-13T18:59:58Z) - Mitigating Multilingual Hallucination in Large Vision-Language Models [35.75851356840673]
大規模視覚言語モデル(LVLM)のための2段階多言語幻覚除去(MHR)フレームワークを提案する。
多言語リソースの複雑な手動アノテーションに頼る代わりに,新しい言語間アライメント手法を提案する。
当社のフレームワークは,13言語で平均19.0%の精度向上を実現しています。
論文 参考訳(メタデータ) (2024-08-01T13:34:35Z) - ANAH-v2: Scaling Analytical Hallucination Annotation of Large Language Models [65.12177400764506]
大規模言語モデル (LLM) は、様々な領域や広範囲のアプリケーションにまたがる、長い形式の質問応答タスクにおいて幻覚を示す。
現在の幻覚検出と緩和データセットはドメインやサイズによって制限されている。
本稿では,幻覚アノテーションデータセットを同時に,段階的にスケールアップする反復的自己学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-05T17:56:38Z) - VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models [59.05674402770661]
本稿では,大規模ビデオ言語モデル(LVLM)における幻覚検出のための最初の総合的ベンチマークであるVideoHallucerを紹介する。
VideoHallucerは幻覚を2つの主なタイプに分類する。
論文 参考訳(メタデータ) (2024-06-24T06:21:59Z) - DiaHalu: A Dialogue-level Hallucination Evaluation Benchmark for Large Language Models [26.289847386286446]
本稿では,対話レベルの幻覚評価ベンチマークDiaHaluを提案する。
収集したトピックをシステムプロンプトに統合し、2つのChatGPT3.5間の対話を促進する。
人間の言語規則に従わない内容を手動で修正し、LLMを再生させ、人間と機械の相互作用のシナリオをシミュレートする。
論文 参考訳(メタデータ) (2024-03-01T15:38:55Z) - Fine-grained Hallucination Detection and Editing for Language Models [109.56911670376932]
大規模言語モデル(LM)は、しばしば幻覚と呼ばれる事実的誤りを引き起こす傾向にある。
我々は,幻覚の包括的分類を導入し,幻覚が多様な形態で現れることを議論する。
本稿では, 幻覚自動検出のための新しいタスクを提案し, 新たな評価ベンチマークであるFavaBenchを構築した。
論文 参考訳(メタデータ) (2024-01-12T19:02:48Z) - Hallucination Augmented Contrastive Learning for Multimodal Large
Language Model [53.65682783591723]
マルチモーダル大規模言語モデル(MLLM)は、自然言語と視覚情報を効率的に統合し、マルチモーダルタスクを処理できることが示されている。
しかし、MLLMは幻覚の基本的な限界に直面しており、誤った情報や偽情報を生成する傾向がある。
本稿では,MLLMにおける幻覚を表現学習の新たな視点から論じる。
論文 参考訳(メタデータ) (2023-12-12T04:05:15Z) - Hallucinations in Large Multilingual Translation Models [70.10455226752015]
大規模多言語機械翻訳システムでは、多数の言語間で直接翻訳できることが顕著に示されている。
野生に配備されると、これらのモデルが幻覚翻訳を生成し、ユーザーの信頼を著しく損なう可能性があり、安全性の懸念が高まる。
幻覚に関する既存の研究は、主に高ソース言語で訓練された小さなバイリンガルモデルに焦点を当てている。
論文 参考訳(メタデータ) (2023-03-28T16:17:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。