論文の概要: Multilingual Hallucination Gaps in Large Language Models
- arxiv url: http://arxiv.org/abs/2410.18270v1
- Date: Wed, 23 Oct 2024 20:41:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-25 16:44:11.326069
- Title: Multilingual Hallucination Gaps in Large Language Models
- Title(参考訳): 大規模言語モデルにおける多言語ハロシン化ギャップ
- Authors: Cléa Chataigner, Afaf Taïk, Golnoosh Farnadi,
- Abstract要約: フリーフォームテキスト生成において,複数の言語にまたがる幻覚現象について検討する。
これらのギャップは、使用するプロンプトや言語による幻覚応答の頻度の違いを反映している。
その結果, 幻覚率の変動, 特に高次言語と低次言語の違いが明らかになった。
- 参考スコア(独自算出の注目度): 5.505634045241288
- License:
- Abstract: Large language models (LLMs) are increasingly used as alternatives to traditional search engines given their capacity to generate text that resembles human language. However, this shift is concerning, as LLMs often generate hallucinations, misleading or false information that appears highly credible. In this study, we explore the phenomenon of hallucinations across multiple languages in freeform text generation, focusing on what we call multilingual hallucination gaps. These gaps reflect differences in the frequency of hallucinated answers depending on the prompt and language used. To quantify such hallucinations, we used the FactScore metric and extended its framework to a multilingual setting. We conducted experiments using LLMs from the LLaMA, Qwen, and Aya families, generating biographies in 19 languages and comparing the results to Wikipedia pages. Our results reveal variations in hallucination rates, especially between high and low resource languages, raising important questions about LLM multilingual performance and the challenges in evaluating hallucinations in multilingual freeform text generation.
- Abstract(参考訳): 大型言語モデル (LLM) は、人間の言語に似たテキストを生成する能力から、従来の検索エンジンの代替として使われるものが増えてきている。
しかし、この変化はLLMがしばしば幻覚、誤解を招く、あるいは非常に信頼できるように見える偽の情報を生成するため、関係している。
本研究では,複数言語にまたがる幻覚現象をフリーフォームテキスト生成において考察し,マルチリンガル幻覚ギャップ(multilingual hallucination gaps)と呼ぶものに着目した。
これらのギャップは、使用するプロンプトや言語による幻覚応答の頻度の違いを反映している。
このような幻覚を定量化するために、FactScoreメトリックを使用し、そのフレームワークを多言語設定に拡張した。
LLaMA,Qwen,AyaファミリーのLLMを用いて実験を行い,19言語で伝記を作成し,その結果をウィキペディアページと比較した。
以上の結果から,特に高次・低次言語間の幻覚率の変動が明らかとなり,LLM多言語性能に関する重要な疑問と,多言語フリーフォームテキスト生成における幻覚評価の課題が浮き彫りになった。
関連論文リスト
- Mitigating Multilingual Hallucination in Large Vision-Language Models [35.75851356840673]
大規模視覚言語モデル(LVLM)のための2段階多言語幻覚除去(MHR)フレームワークを提案する。
多言語リソースの複雑な手動アノテーションに頼る代わりに,新しい言語間アライメント手法を提案する。
当社のフレームワークは,13言語で平均19.0%の精度向上を実現しています。
論文 参考訳(メタデータ) (2024-08-01T13:34:35Z) - Hallucination Detection: Robustly Discerning Reliable Answers in Large Language Models [70.19081534515371]
大規模言語モデル(LLM)は様々な自然言語処理タスクで広く採用されている。
それらは、入力源から逸脱する不信または矛盾したコンテンツを生成し、深刻な結果をもたらす。
本稿では,LLMの生成した回答の幻覚を効果的に検出するために,RelDという頑健な識別器を提案する。
論文 参考訳(メタデータ) (2024-07-04T18:47:42Z) - Hallucination Diversity-Aware Active Learning for Text Summarization [46.00645048690819]
LLM(Large Language Models)は、幻覚出力を生成するための妥当性を示す。
幻覚を緩和するための既存の方法は、通常、LLM出力の幻覚を識別し修正するために、人為的なアノテーションを必要とする。
LLM幻覚を緩和する最初のアクティブラーニングフレームワークを提案し,必要な幻覚アノテーションのコストを削減した。
論文 参考訳(メタデータ) (2024-04-02T02:30:27Z) - Exploring and Evaluating Hallucinations in LLM-Powered Code Generation [14.438161741833687]
LLM(Large Language Models)は、ユーザの意図から逸脱した出力を生成し、内部的不整合を示すか、事実的知識と不整合を示す。
既存の研究は主に、自然言語生成の分野における幻覚の投資に重点を置いている。
我々は,LLM生成コードのテーマ解析を行い,その内に存在する幻覚を要約し,分類する。
幻覚認識におけるLLMの性能評価のためのベンチマークであるHaluCodeを提案する。
論文 参考訳(メタデータ) (2024-04-01T07:31:45Z) - Comparing Hallucination Detection Metrics for Multilingual Generation [62.97224994631494]
本稿では,各言語にまたがって生成した伝記要約における幻覚を,様々な事実の幻覚検出指標がいかによく識別するかを評価する。
自動測度が相互にどのように相関するか, 事実判断に一致しているかを比較検討した。
我々の分析によると、語彙指標は非効率であるが、NLIベースのメトリクスはよく機能し、多くの設定における人間のアノテーションと相関し、しばしば教師付きモデルよりも優れている。
論文 参考訳(メタデータ) (2024-02-16T08:10:34Z) - Hallucination Augmented Contrastive Learning for Multimodal Large
Language Model [53.65682783591723]
マルチモーダル大規模言語モデル(MLLM)は、自然言語と視覚情報を効率的に統合し、マルチモーダルタスクを処理できることが示されている。
しかし、MLLMは幻覚の基本的な限界に直面しており、誤った情報や偽情報を生成する傾向がある。
本稿では,MLLMにおける幻覚を表現学習の新たな視点から論じる。
論文 参考訳(メタデータ) (2023-12-12T04:05:15Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z) - HaluEval: A Large-Scale Hallucination Evaluation Benchmark for Large
Language Models [146.87696738011712]
大型言語モデル(LLM)は幻覚を生成する傾向があり、すなわち、ソースと矛盾したり、事実の知識によって検証できないコンテンツである。
言語モデル(HaluEval)のための幻覚評価ベンチマーク(Halucination Evaluation benchmark)を導入する。
論文 参考訳(メタデータ) (2023-05-19T15:36:27Z) - Hallucinations in Large Multilingual Translation Models [70.10455226752015]
大規模多言語機械翻訳システムでは、多数の言語間で直接翻訳できることが顕著に示されている。
野生に配備されると、これらのモデルが幻覚翻訳を生成し、ユーザーの信頼を著しく損なう可能性があり、安全性の懸念が高まる。
幻覚に関する既存の研究は、主に高ソース言語で訓練された小さなバイリンガルモデルに焦点を当てている。
論文 参考訳(メタデータ) (2023-03-28T16:17:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。