論文の概要: Do LLM hallucination detectors suffer from low-resource effect?
- arxiv url: http://arxiv.org/abs/2601.16766v1
- Date: Fri, 23 Jan 2026 14:13:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.712474
- Title: Do LLM hallucination detectors suffer from low-resource effect?
- Title(参考訳): LLM幻覚検出器は低リソース効果に悩まされているか?
- Authors: Debtanu Datta, Mohan Kishore Chilukuri, Yash Kumar, Saptarshi Ghosh, Muhammad Bilal Zafar,
- Abstract要約: 幻覚検出装置は低リソース効果に悩まされているか?
我々は3つの領域にまたがる5つのタスク(実際のリコール、STEM、人文科学)で実験を行う。
予想通り、低リソース言語のタスク精度は大きな低下(英語と比較して)を経験するが、検出器の精度の低下はタスク精度の低下の何倍も小さいことが多い。
- 参考スコア(独自算出の注目度): 6.161991507801969
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLMs, while outperforming humans in a wide range of tasks, can still fail in unanticipated ways. We focus on two pervasive failure modes: (i) hallucinations, where models produce incorrect information about the world, and (ii) the low-resource effect, where the models show impressive performance in high-resource languages like English but the performance degrades significantly in low-resource languages like Bengali. We study the intersection of these issues and ask: do hallucination detectors suffer from the low-resource effect? We conduct experiments on five tasks across three domains (factual recall, STEM, and Humanities). Experiments with four LLMs and three hallucination detectors reveal a curious finding: As expected, the task accuracies in low-resource languages experience large drops (compared to English). However, the drop in detectors' accuracy is often several times smaller than the drop in task accuracy. Our findings suggest that even in low-resource languages, the internal mechanisms of LLMs might encode signals about their uncertainty. Further, the detectors are robust within language (even for non-English) and in multilingual setups, but not in cross-lingual settings without in-language supervision.
- Abstract(参考訳): LLMは、幅広いタスクで人間より優れていますが、予想外の方法で失敗する可能性があります。
私たちは2つの広範な障害モードに注目しています。
(i)幻覚で、モデルが世界に関する誤った情報を生成し、
(ii)低リソース効果では、英語のような高リソース言語では顕著な性能を示すが、ベンガル語のような低リソース言語では性能が著しく低下する。
幻覚検出装置は低リソース効果に悩まされているか?
我々は3つの領域にわたる5つのタスク(実際のリコール、STEM、人文科学)で実験を行う。
4つのLDMと3つの幻覚検出器による実験では、興味深い発見が示されています。
しかし、検出器の精度の低下は、しばしばタスクの精度の低下の何倍も小さい。
その結果,低リソース言語においてもLCMの内部メカニズムが不確実性に関する情報を符号化する可能性が示唆された。
さらに、検出器は言語内(非英語でも)と多言語設定では堅牢であるが、言語内監督なしでは言語間設定では堅牢である。
関連論文リスト
- Can LLMs Detect Intrinsic Hallucinations in Paraphrasing and Machine Translation? [7.416552590139255]
本研究では,2つの条件生成タスクにおける内因性幻覚を検出する能力に基づいて,オープンアクセス LLM スイートの評価を行った。
モデルの性能はタスクや言語によってどのように異なるかを研究する。
パフォーマンスはモデルによって異なるが、プロンプト間で一貫性がある。
論文 参考訳(メタデータ) (2025-04-29T12:30:05Z) - How Much Do LLMs Hallucinate across Languages? On Multilingual Estimation of LLM Hallucination in the Wild [22.24685025857759]
幻覚とは、大規模言語モデルが非現実的または不誠実な応答を生成する傾向である。
我々は多言語幻覚検出モデルを訓練し、30言語にわたる大規模な研究を行う。
その結果,LLMは高次情報源言語に対するより幻覚的なトークンでより長い応答を生成するが,言語の長さ正規化幻覚率とそれらのデジタル表現との間には相関がないことが判明した。
論文 参考訳(メタデータ) (2025-02-18T11:32:43Z) - Mitigating Multilingual Hallucination in Large Vision-Language Models [35.75851356840673]
大規模視覚言語モデル(LVLM)のための2段階多言語幻覚除去(MHR)フレームワークを提案する。
多言語リソースの複雑な手動アノテーションに頼る代わりに,新しい言語間アライメント手法を提案する。
当社のフレームワークは,13言語で平均19.0%の精度向上を実現しています。
論文 参考訳(メタデータ) (2024-08-01T13:34:35Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - Chain-of-Dictionary Prompting Elicits Translation in Large Language Models [100.47154959254937]
大規模言語モデル(LLM)は多言語ニューラルマシン翻訳(MNMT)において驚くほど優れた性能を示した
入力単語のサブセットに対する多言語辞書の連鎖による事前知識でLLMを拡張して翻訳能力を引き出す新しい方法であるCoDを提案する。
論文 参考訳(メタデータ) (2023-05-11T05:19:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。