論文の概要: Investigating Hallucination in Conversations for Low Resource Languages
- arxiv url: http://arxiv.org/abs/2507.22720v1
- Date: Wed, 30 Jul 2025 14:39:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 16:14:18.260013
- Title: Investigating Hallucination in Conversations for Low Resource Languages
- Title(参考訳): 低資源言語会話における幻覚の検討
- Authors: Amit Das, Md. Najib Hasan, Souvika Sarkar, Zheng Zhang, Fatemeh Jamshidi, Tathagata Bhattacharya, Nilanjana Raychawdhury, Dongji Feng, Vinija Jain, Aman Chadha,
- Abstract要約: 大きな言語モデル(LLM)は、人間の文章によく似たテキストを生成するのに顕著な習熟性を示している。
一般に「幻覚」と呼ばれる、事実的に誤った主張をしばしば生み出す。
本研究は,Hindi,Farsi,Mandarinの3言語における会話データに拡張する。
マンダリンでは LLM の幻覚反応は極めて少ないが, ヒンディー語やファルシ語では幻覚反応が著しく多いことが判明した。
- 参考スコア(独自算出の注目度): 6.439114994667614
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable proficiency in generating text that closely resemble human writing. However, they often generate factually incorrect statements, a problem typically referred to as 'hallucination'. Addressing hallucination is crucial for enhancing the reliability and effectiveness of LLMs. While much research has focused on hallucinations in English, our study extends this investigation to conversational data in three languages: Hindi, Farsi, and Mandarin. We offer a comprehensive analysis of a dataset to examine both factual and linguistic errors in these languages for GPT-3.5, GPT-4o, Llama-3.1, Gemma-2.0, DeepSeek-R1 and Qwen-3. We found that LLMs produce very few hallucinated responses in Mandarin but generate a significantly higher number of hallucinations in Hindi and Farsi.
- Abstract(参考訳): 大規模言語モデル(LLM)は、人間の文章によく似たテキストを生成するのに顕著な習熟性を示した。
しかし、それらはしばしば「幻覚」と呼ばれる問題である事実的に誤った文を生成する。
LLMの信頼性と有効性を高めるためには,幻覚への対処が重要である。
多くの研究が英語の幻覚に焦点を当てているが、この調査はヒンディー語、ファージ語、マンダリン語という3つの言語での会話データにまで拡張されている。
GPT-3.5, GPT-4o, Llama-3.1, Gemma-2.0, DeepSeek-R1, Qwen-3 の各言語における事実的および言語的誤りを総合的に分析する。
マンダリンでは LLM の幻覚反応は極めて少ないが, ヒンディー語やファルシ語では幻覚反応が著しく多いことが判明した。
関連論文リスト
- TUM-MiKaNi at SemEval-2025 Task 3: Towards Multilingual and Knowledge-Aware Non-factual Hallucination Identification [2.3999111269325266]
本稿では,SemEval-2025 Task-3, Mu-SHROOM, Multilingual Shared-task on Hallucinations and Related Observable Overgeneration misstakesについて述べる。
本稿では,Wikipediaに対する検索に基づく事実検証と,共通幻覚パターンを識別するBERTベースのシステムを組み合わせた2部パイプラインを提案する。
論文 参考訳(メタデータ) (2025-07-01T09:00:50Z) - How Much Do LLMs Hallucinate across Languages? On Multilingual Estimation of LLM Hallucination in the Wild [11.82100047858478]
幻覚とは、大規模言語モデルが非現実的または不誠実な応答を生成する傾向である。
我々は多言語幻覚検出モデルを訓練し、30言語にわたる大規模な研究を行う。
その結果,LLMは高次情報源言語に対するより幻覚的なトークンでより長い応答を生成するが,言語の長さ正規化幻覚率とそれらのデジタル表現との間には相関がないことが判明した。
論文 参考訳(メタデータ) (2025-02-18T11:32:43Z) - Multilingual Hallucination Gaps in Large Language Models [5.505634045241288]
フリーフォームテキスト生成において,複数の言語にまたがる幻覚現象について検討する。
これらのギャップは、使用するプロンプトや言語による幻覚応答の頻度の違いを反映している。
その結果, 幻覚率の変動, 特に高次言語と低次言語の違いが明らかになった。
論文 参考訳(メタデータ) (2024-10-23T20:41:51Z) - MedHalu: Hallucinations in Responses to Healthcare Queries by Large Language Models [26.464489158584463]
患者からのリアルタイム医療クエリに対するLCM生成反応における幻覚の先駆的な研究を行う。
MedHaluは、健康関連トピックが多種多様である、注意深く構築された医療幻覚データセットである。
MedHaluDetect フレームワークを導入し,幻覚検出における様々な LLM の機能を評価する。
論文 参考訳(メタデータ) (2024-09-29T00:09:01Z) - Hallucination Detection: Robustly Discerning Reliable Answers in Large Language Models [70.19081534515371]
大規模言語モデル(LLM)は様々な自然言語処理タスクで広く採用されている。
それらは、入力源から逸脱する不信または矛盾したコンテンツを生成し、深刻な結果をもたらす。
本稿では,LLMの生成した回答の幻覚を効果的に検出するために,RelDという頑健な識別器を提案する。
論文 参考訳(メタデータ) (2024-07-04T18:47:42Z) - ANAH: Analytical Annotation of Hallucinations in Large Language Models [65.12177400764506]
我々は、大言語モデルにおける幻覚の@textbfAN$alytical $textbfA$nnotationを提供するデータセットである$textbfANAH$を提示する。
ANAHは、700以上のトピックをカバーする4.3k LLM応答のための12kの文レベルのアノテーションで構成されている。
幻覚アノテーションの微粒化により, LLMの幻覚が解答に蓄積されることを定量的に確認し, ANAHを用いて幻覚アノテーションを訓練し, 評価する。
論文 参考訳(メタデータ) (2024-05-30T17:54:40Z) - Comparing Hallucination Detection Metrics for Multilingual Generation [62.97224994631494]
本稿では,各言語にまたがって生成した伝記要約における幻覚を,様々な事実の幻覚検出指標がいかによく識別するかを評価する。
自動測度が相互にどのように相関するか, 事実判断に一致しているかを比較検討した。
我々の分析によると、語彙指標は非効率であるが、NLIベースのメトリクスはよく機能し、多くの設定における人間のアノテーションと相関し、しばしば教師付きモデルよりも優れている。
論文 参考訳(メタデータ) (2024-02-16T08:10:34Z) - Fine-grained Hallucination Detection and Editing for Language Models [109.56911670376932]
大規模言語モデル(LM)は、しばしば幻覚と呼ばれる事実的誤りを引き起こす傾向にある。
我々は,幻覚の包括的分類を導入し,幻覚が多様な形態で現れることを議論する。
本稿では, 幻覚自動検出のための新しいタスクを提案し, 新たな評価ベンチマークであるFavaBenchを構築した。
論文 参考訳(メタデータ) (2024-01-12T19:02:48Z) - The Dawn After the Dark: An Empirical Study on Factuality Hallucination
in Large Language Models [134.6697160940223]
幻覚は、大きな言語モデルの信頼できるデプロイには大きな課題となります。
幻覚(検出)の検出方法、LLMが幻覚(ソース)をなぜ検出するのか、そしてそれを緩和するために何ができるか、という3つの重要な疑問がよく研究されるべきである。
本研究は, 幻覚検出, 発生源, 緩和の3つの側面に着目した, LLM幻覚の系統的研究である。
論文 参考訳(メタデータ) (2024-01-06T12:40:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。