論文の概要: How Much Do LLMs Hallucinate across Languages? On Multilingual Estimation of LLM Hallucination in the Wild
- arxiv url: http://arxiv.org/abs/2502.12769v1
- Date: Tue, 18 Feb 2025 11:32:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:08:41.022637
- Title: How Much Do LLMs Hallucinate across Languages? On Multilingual Estimation of LLM Hallucination in the Wild
- Title(参考訳): 言語間のLLMの幻覚はどの程度あるか : 野生におけるLLMの幻覚の多言語的推定について
- Authors: Saad Obaid ul Islam, Anne Lauscher, Goran Glavaš,
- Abstract要約: 幻覚とは、大規模言語モデルが非現実的または不誠実な応答を生成する傾向である。
我々は多言語幻覚検出モデルを訓練し、30言語にわたる大規模な研究を行う。
その結果,LLMは高次情報源言語に対するより幻覚的なトークンでより長い応答を生成するが,言語の長さ正規化幻覚率とそれらのデジタル表現との間には相関がないことが判明した。
- 参考スコア(独自算出の注目度): 11.82100047858478
- License:
- Abstract: In the age of misinformation, hallucination -- the tendency of Large Language Models (LLMs) to generate non-factual or unfaithful responses -- represents the main risk for their global utility. Despite LLMs becoming increasingly multilingual, the vast majority of research on detecting and quantifying LLM hallucination are (a) English-centric and (b) focus on machine translation (MT) and summarization, tasks that are less common ``in the wild'' than open information seeking. In contrast, we aim to quantify the extent of LLM hallucination across languages in knowledge-intensive long-form question answering. To this end, we train a multilingual hallucination detection model and conduct a large-scale study across 30 languages and 6 open-source LLM families. We start from an English hallucination detection dataset and rely on MT to generate (noisy) training data in other languages. We also manually annotate gold data for five high-resource languages; we then demonstrate, for these languages, that the estimates of hallucination rates are similar between silver (LLM-generated) and gold test sets, validating the use of silver data for estimating hallucination rates for other languages. For the final rates estimation, we build a knowledge-intensive QA dataset for 30 languages with LLM-generated prompts and Wikipedia articles as references. We find that, while LLMs generate longer responses with more hallucinated tokens for higher-resource languages, there is no correlation between length-normalized hallucination rates of languages and their digital representation. Further, we find that smaller LLMs exhibit larger hallucination rates than larger models.
- Abstract(参考訳): 誤報の時代には、幻覚(Large Language Models:LLM)が非現実的または不誠実な応答を生み出す傾向)は、彼らのグローバルユーティリティーの主要なリスクである。
LLMの多言語化はますます進んでいるが、LLM幻覚の検出と定量化に関する研究の大部分がそうである。
(a)英語中心で
b) 機械翻訳(MT)と要約(要約)に焦点をあてる。
対照的に、知識集約型長文質問応答における言語間のLLM幻覚の程度を定量化することを目的としている。
この目的のために、多言語幻覚検出モデルを訓練し、30の言語と6つのオープンソースLLMファミリーにわたる大規模な研究を行う。
英語の幻覚検出データセットから始まり、MTを利用して他の言語で(ノイズの多い)トレーニングデータを生成する。
これらの言語では、幻覚率の推定値が銀(LLM生成)と金のテストセットに類似していることを示し、他の言語に対する幻覚率の推定に銀のデータを使用することを検証する。
最終レート推定のために,LLM生成プロンプトとウィキペディア記事を参照した30言語を対象とした知識集約型QAデータセットを構築した。
その結果,LLMは高次情報源言語に対するより幻覚的なトークンでより長い応答を生成するが,言語の長さ正規化幻覚率とそれらのデジタル表現との間には相関がないことが判明した。
さらに,LLMはより大きなモデルよりも幻覚率が高いことが判明した。
関連論文リスト
- Multilingual Hallucination Gaps in Large Language Models [5.505634045241288]
フリーフォームテキスト生成において,複数の言語にまたがる幻覚現象について検討する。
これらのギャップは、使用するプロンプトや言語による幻覚応答の頻度の違いを反映している。
その結果, 幻覚率の変動, 特に高次言語と低次言語の違いが明らかになった。
論文 参考訳(メタデータ) (2024-10-23T20:41:51Z) - LongHalQA: Long-Context Hallucination Evaluation for MultiModal Large Language Models [96.64960606650115]
LongHalQA (LongHalQA) は、6Kの長い複雑な幻覚テキストからなるLLMフリー幻覚ベンチマークである。
LongHalQA は GPT4V の生成した幻覚データによって特徴付けられる。
論文 参考訳(メタデータ) (2024-10-13T18:59:58Z) - Mitigating Multilingual Hallucination in Large Vision-Language Models [35.75851356840673]
大規模視覚言語モデル(LVLM)のための2段階多言語幻覚除去(MHR)フレームワークを提案する。
多言語リソースの複雑な手動アノテーションに頼る代わりに,新しい言語間アライメント手法を提案する。
当社のフレームワークは,13言語で平均19.0%の精度向上を実現しています。
論文 参考訳(メタデータ) (2024-08-01T13:34:35Z) - Hallucination Detection: Robustly Discerning Reliable Answers in Large Language Models [70.19081534515371]
大規模言語モデル(LLM)は様々な自然言語処理タスクで広く採用されている。
それらは、入力源から逸脱する不信または矛盾したコンテンツを生成し、深刻な結果をもたらす。
本稿では,LLMの生成した回答の幻覚を効果的に検出するために,RelDという頑健な識別器を提案する。
論文 参考訳(メタデータ) (2024-07-04T18:47:42Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか?
本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models [117.20416338476856]
大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。
LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。
以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
論文 参考訳(メタデータ) (2024-02-26T09:36:05Z) - Comparing Hallucination Detection Metrics for Multilingual Generation [62.97224994631494]
本稿では,各言語にまたがって生成した伝記要約における幻覚を,様々な事実の幻覚検出指標がいかによく識別するかを評価する。
自動測度が相互にどのように相関するか, 事実判断に一致しているかを比較検討した。
我々の分析によると、語彙指標は非効率であるが、NLIベースのメトリクスはよく機能し、多くの設定における人間のアノテーションと相関し、しばしば教師付きモデルよりも優れている。
論文 参考訳(メタデータ) (2024-02-16T08:10:34Z) - The Dawn After the Dark: An Empirical Study on Factuality Hallucination
in Large Language Models [134.6697160940223]
幻覚は、大きな言語モデルの信頼できるデプロイには大きな課題となります。
幻覚(検出)の検出方法、LLMが幻覚(ソース)をなぜ検出するのか、そしてそれを緩和するために何ができるか、という3つの重要な疑問がよく研究されるべきである。
本研究は, 幻覚検出, 発生源, 緩和の3つの側面に着目した, LLM幻覚の系統的研究である。
論文 参考訳(メタデータ) (2024-01-06T12:40:45Z) - A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions [40.79317187623401]
大規模言語モデル(LLM)の出現は、自然言語処理(NLP)において大きなブレークスルーとなった。
LLMは幻覚を起こす傾向があり、可視だが非現実的な内容を生成する。
この現象は、実世界の情報検索システムにおけるLCMの信頼性に対する重大な懸念を引き起こす。
論文 参考訳(メタデータ) (2023-11-09T09:25:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。