Fugu-MT 論文翻訳(概要): Comparing Hallucination Detection Metrics for Multilingual Generation

論文の概要: Comparing Hallucination Detection Metrics for Multilingual Generation

arxiv url: http://arxiv.org/abs/2402.10496v1
Date: Fri, 16 Feb 2024 08:10:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-19 17:04:36.380280
Title: Comparing Hallucination Detection Metrics for Multilingual Generation
Title（参考訳）: 多言語生成のための幻覚検出指標の比較
Authors: Haoqiang Kang, Terra Blevins, Luke Zettlemoyer
Abstract要約: 本稿では,幻覚検出指標が英語以外の言語でどのように機能するかを理解するためのギャップを埋めることを目的とする。語彙的メトリクスや自然言語推論(NLI)に基づくメトリクスなど,さまざまな検出指標の有効性を評価する。我々の経験的分析により,語彙的指標は限られた有効性を示すが,NLIに基づく指標は文レベルでの高リソース言語では良好に機能することがわかった。
参考スコア（独自算出の注目度）: 70.77449818379056
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While many automatic hallucination detection techniques have been proposed for English texts, their effectiveness in multilingual contexts remains unexplored. This paper aims to bridge the gap in understanding how these hallucination detection metrics perform on non-English languages. We evaluate the efficacy of various detection metrics, including lexical metrics like ROUGE and Named Entity Overlap and Natural Language Inference (NLI)-based metrics, at detecting hallucinations in biographical summaries in many languages; we also evaluate how correlated these different metrics are to gauge whether they measure the same phenomena. Our empirical analysis reveals that while lexical metrics show limited effectiveness, NLI-based metrics perform well in high-resource languages at the sentence level. In contrast, NLI-based metrics often fail to detect atomic fact hallucinations. Our findings highlight existing gaps in multilingual hallucination detection and motivate future research to develop more robust detection methods for LLM hallucination in other languages.
Abstract（参考訳）: 多くの自動幻覚検出技術が英語テキストに対して提案されているが、多言語文脈における効果は未解明である。本稿では,これらの幻覚検出指標が非英語言語でどのように機能するかを理解する上でのギャップを埋めることを目的とする。我々は, ROUGE や Named Entity Overlap や Natural Language Inference (NLI) などの語彙的指標を含む様々な検出指標の有効性を評価するとともに, それぞれの指標が同じ現象を測るかどうかの相関性も評価した。経験的分析の結果,語彙的指標は限定的な効果を示すが,nliベースの指標は文レベルでは高資源言語でよく機能することが明らかとなった。対照的に、NLIベースのメトリクスは、しばしば原子的事実幻覚を検出するのに失敗する。本研究は,多言語幻覚検出における既存のギャップを浮き彫りにして,LLM幻覚のより堅牢な検出法を他の言語で開発するための将来の研究を動機づけるものである。

関連論文リスト

Evaluating Evaluation Metrics -- The Mirage of Hallucination Detection [26.521892016176036]
幻覚は言語モデルの信頼性と普及に大きな障害となる。 4つのデータセット、37の言語モデル、5つの復号法で幻覚検出指標を大規模に評価する。
論文参考訳（メタデータ） (2025-04-25T06:37:29Z)
Poly-FEVER: A Multilingual Fact Verification Benchmark for Hallucination Detection in Large Language Models [10.663446796160567]
生成AIにおける幻覚、特にLarge Language Models(LLMs)は、多言語アプリケーションの信頼性に重大な課題をもたらす。幻覚検出のための既存のベンチマークは、主に英語といくつかの広く話されている言語に焦点を当てている。大規模多言語事実検証ベンチマークであるPoly-FEVERを紹介する。
論文参考訳（メタデータ） (2025-03-19T01:46:09Z)
How Much Do LLMs Hallucinate across Languages? On Multilingual Estimation of LLM Hallucination in the Wild [11.82100047858478]
幻覚とは、大規模言語モデルが非現実的または不誠実な応答を生成する傾向である。我々は多言語幻覚検出モデルを訓練し、30言語にわたる大規模な研究を行う。その結果,LLMは高次情報源言語に対するより幻覚的なトークンでより長い応答を生成するが,言語の長さ正規化幻覚率とそれらのデジタル表現との間には相関がないことが判明した。
論文参考訳（メタデータ） (2025-02-18T11:32:43Z)
Dialectal Toxicity Detection: Evaluating LLM-as-a-Judge Consistency Across Language Varieties [23.777874316083984]
現代のLSMによる毒性の検出に方言の違いがどう影響するかについては、体系的な研究はほとんど行われていない。 10の言語クラスタと60の変種をカバーする合成変換と人間による翻訳により、多言語データセットを作成する。次に,多言語,方言,LLM-ヒト間の毒性を評価できる3つのLSMを評価した。
論文参考訳（メタデータ） (2024-11-17T03:53:24Z)
Multilingual Hallucination Gaps in Large Language Models [5.505634045241288]
フリーフォームテキスト生成において,複数の言語にまたがる幻覚現象について検討する。これらのギャップは、使用するプロンプトや言語による幻覚応答の頻度の違いを反映している。その結果, 幻覚率の変動, 特に高次言語と低次言語の違いが明らかになった。
論文参考訳（メタデータ） (2024-10-23T20:41:51Z)
Hallucination Detection: Robustly Discerning Reliable Answers in Large Language Models [70.19081534515371]
大規模言語モデル(LLM)は様々な自然言語処理タスクで広く採用されている。それらは、入力源から逸脱する不信または矛盾したコンテンツを生成し、深刻な結果をもたらす。本稿では,LLMの生成した回答の幻覚を効果的に検出するために,RelDという頑健な識別器を提案する。
論文参考訳（メタデータ） (2024-07-04T18:47:42Z)
Fine-grained Hallucination Detection and Editing for Language Models [109.56911670376932]
大規模言語モデル(LM)は、しばしば幻覚と呼ばれる事実的誤りを引き起こす傾向にある。我々は,幻覚の包括的分類を導入し,幻覚が多様な形態で現れることを議論する。本稿では, 幻覚自動検出のための新しいタスクを提案し, 新たな評価ベンチマークであるFavaBenchを構築した。
論文参考訳（メタデータ） (2024-01-12T19:02:48Z)
Enhancing Uncertainty-Based Hallucination Detection with Stronger Focus [99.33091772494751]
大規模言語モデル(LLM)は、様々な分野にわたる印象的なパフォーマンスで大きな人気を集めている。 LLMは、ユーザの期待を満たさない非現実的あるいは非感覚的なアウトプットを幻覚させる傾向がある。 LLMにおける幻覚を検出するための新しい基準のない不確実性に基づく手法を提案する。
論文参考訳（メタデータ） (2023-11-22T08:39:17Z)
A New Benchmark and Reverse Validation Method for Passage-level Hallucination Detection [63.56136319976554]
大きな言語モデル(LLM)は幻覚を発生させ、ミッションクリティカルなタスクにデプロイすると大きなダメージを与える可能性がある。本稿では,逆検証に基づく自己チェック手法を提案し,ゼロリソース方式で事実誤りを自動的に検出する。提案手法と既存のゼロリソース検出手法を2つのデータセット上で実証的に評価した。
論文参考訳（メタデータ） (2023-10-10T10:14:59Z)
AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文参考訳（メタデータ） (2023-09-30T05:20:02Z)
Zero-Resource Hallucination Prevention for Large Language Models [45.4155729393135]
ハロシン化(Hallucination)とは、大規模言語モデル(LLM)が事実的に不正確な情報を生成する事例を指す。本稿では,SELF-FAMILIARITYと呼ばれる,入力命令に含まれる概念に対するモデルの親しみ度を評価する新しい自己評価手法を提案する。 4つの異なる大言語モデルでSELF-FAMILIARITYを検証し、既存の手法と比較して一貫して優れた性能を示す。
論文参考訳（メタデータ） (2023-09-06T01:57:36Z)
Detecting and Mitigating Hallucinations in Multilingual Summarisation [40.5267502712576]
幻覚は抽象的な要約のためのニューラルネットワークの信頼性に重大な課題をもたらす。我々は、非英語要約の忠実度を評価する新しい計量mFACTを開発した。そこで我々は,言語間移動による幻覚を減らすための,シンプルだが効果的な方法を提案する。
論文参考訳（メタデータ） (2023-05-23T02:59:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。