論文の概要: Challenging Multilingual LLMs: A New Taxonomy and Benchmark for Unraveling Hallucination in Translation
- arxiv url: http://arxiv.org/abs/2510.24073v1
- Date: Tue, 28 Oct 2025 05:17:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.791692
- Title: Challenging Multilingual LLMs: A New Taxonomy and Benchmark for Unraveling Hallucination in Translation
- Title(参考訳): 多言語LLMの対応 : 翻訳における幻覚の解明のための新しい分類法とベンチマーク
- Authors: Xinwei Wu, Heng Liu, Jiang Zhou, Xiaohu Zhao, Linlong Xu, Longyue Wang, Weihua Luo, Kaifu Zhang,
- Abstract要約: 大規模言語モデル(LLM)は高度な機械翻訳を持つが、幻覚に弱いままである。
我々は,教科と教科を分離する分類の枠組みを導入する。
この分類法でガイドされたHaloMTBenchは、英語からXまでの11方向にわたる多言語で人間認証されたベンチマークです。
- 参考スコア(独自算出の注目度): 35.888173303377854
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have advanced machine translation but remain vulnerable to hallucinations. Unfortunately, existing MT benchmarks are not capable of exposing failures in multilingual LLMs. To disclose hallucination in multilingual LLMs, we introduce a diagnostic framework with a taxonomy that separates Instruction Detachment from Source Detachment. Guided by this taxonomy, we create HalloMTBench, a multilingual, human-verified benchmark across 11 English-to-X directions. We employed 4 frontier LLMs to generate candidates and scrutinize these candidates with an ensemble of LLM judges, and expert validation. In this way, we curate 5,435 high-quality instances. We have evaluated 17 LLMs on HalloMTBench. Results reveal distinct ``hallucination triggers'' -- unique failure patterns reflecting model scale, source length sensitivity, linguistic biases, and Reinforcement-Learning (RL) amplified language mixing. HalloMTBench offers a forward-looking testbed for diagnosing LLM translation failures. HalloMTBench is available in https://huggingface.co/collections/AIDC-AI/marco-mt.
- Abstract(参考訳): 大規模言語モデル(LLM)は高度な機械翻訳を持つが、幻覚に弱いままである。
残念ながら、既存のMTベンチマークは多言語LLMの障害を露呈することができない。
多言語LLMにおける幻覚を明らかにするために,教科と教科を分離した分類を用いた診断枠組みを導入する。
この分類法でガイドされたHaloMTBenchは、英語からXまでの11方向にわたる多言語で人間認証されたベンチマークです。
我々は,4つのフロンティアLSMを用いて候補を生成し,これらの候補をLLM審査員のアンサンブルで精査し,専門家による検証を行った。
このようにして、私たちは5,435の高品質のインスタンスをキュレートします。
我々はハロMTBenchで17個のLLMを評価した。
結果は、モデルスケール、ソース長感度、言語バイアス、強化学習(Reinforcement-Learning、RL)増幅言語混合を反映するユニークな障害パターンを明らかにしている。
HalloMTBenchは、LLM翻訳障害を診断するための前方テストベッドを提供する。
HalloMTBenchはhttps://huggingface.co/collections/AIDC-AI/marco-mtで入手できる。
関連論文リスト
- Can LLMs Detect Intrinsic Hallucinations in Paraphrasing and Machine Translation? [7.416552590139255]
本研究では,2つの条件生成タスクにおける内因性幻覚を検出する能力に基づいて,オープンアクセス LLM スイートの評価を行った。
モデルの性能はタスクや言語によってどのように異なるかを研究する。
パフォーマンスはモデルによって異なるが、プロンプト間で一貫性がある。
論文 参考訳(メタデータ) (2025-04-29T12:30:05Z) - Mitigating Multilingual Hallucination in Large Vision-Language Models [35.75851356840673]
大規模視覚言語モデル(LVLM)のための2段階多言語幻覚除去(MHR)フレームワークを提案する。
多言語リソースの複雑な手動アノテーションに頼る代わりに,新しい言語間アライメント手法を提案する。
当社のフレームワークは,13言語で平均19.0%の精度向上を実現しています。
論文 参考訳(メタデータ) (2024-08-01T13:34:35Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - How Vocabulary Sharing Facilitates Multilingualism in LLaMA? [19.136382859468693]
大きな言語モデル(LLM)は英語のタスクに強いパフォーマンスを示すが、他の言語には制限がある。
本研究では,語彙共有の観点からLLMの多言語的能力について検討する。
論文 参考訳(メタデータ) (2023-11-15T16:13:14Z) - Multilingual Machine Translation with Large Language Models: Empirical Results and Analysis [103.89753784762445]
大規模言語モデル(LLM)は多言語機械翻訳(MMT)の処理において顕著な可能性を示した。
本稿では, MMT における LLM の利点と課題を体系的に検討する。
また,ChatGPTとGPT-4を含む8つのLLMを徹底的に評価した。
論文 参考訳(メタデータ) (2023-04-10T15:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。