論文の概要: Comparing Hallucination Detection Metrics for Multilingual Generation
- arxiv url: http://arxiv.org/abs/2402.10496v1
- Date: Fri, 16 Feb 2024 08:10:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 17:04:36.380280
- Title: Comparing Hallucination Detection Metrics for Multilingual Generation
- Title(参考訳): 多言語生成のための幻覚検出指標の比較
- Authors: Haoqiang Kang, Terra Blevins, Luke Zettlemoyer
- Abstract要約: 本稿では,幻覚検出指標が英語以外の言語でどのように機能するかを理解するためのギャップを埋めることを目的とする。
語彙的メトリクスや自然言語推論(NLI)に基づくメトリクスなど,さまざまな検出指標の有効性を評価する。
我々の経験的分析により,語彙的指標は限られた有効性を示すが,NLIに基づく指標は文レベルでの高リソース言語では良好に機能することがわかった。
- 参考スコア(独自算出の注目度): 70.77449818379056
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While many automatic hallucination detection techniques have been proposed
for English texts, their effectiveness in multilingual contexts remains
unexplored. This paper aims to bridge the gap in understanding how these
hallucination detection metrics perform on non-English languages. We evaluate
the efficacy of various detection metrics, including lexical metrics like ROUGE
and Named Entity Overlap and Natural Language Inference (NLI)-based metrics, at
detecting hallucinations in biographical summaries in many languages; we also
evaluate how correlated these different metrics are to gauge whether they
measure the same phenomena. Our empirical analysis reveals that while lexical
metrics show limited effectiveness, NLI-based metrics perform well in
high-resource languages at the sentence level. In contrast, NLI-based metrics
often fail to detect atomic fact hallucinations. Our findings highlight
existing gaps in multilingual hallucination detection and motivate future
research to develop more robust detection methods for LLM hallucination in
other languages.
- Abstract(参考訳): 多くの自動幻覚検出技術が英語テキストに対して提案されているが、多言語文脈における効果は未解明である。
本稿では,これらの幻覚検出指標が非英語言語でどのように機能するかを理解する上でのギャップを埋めることを目的とする。
我々は, ROUGE や Named Entity Overlap や Natural Language Inference (NLI) などの語彙的指標を含む様々な検出指標の有効性を評価するとともに, それぞれの指標が同じ現象を測るかどうかの相関性も評価した。
経験的分析の結果,語彙的指標は限定的な効果を示すが,nliベースの指標は文レベルでは高資源言語でよく機能することが明らかとなった。
対照的に、NLIベースのメトリクスは、しばしば原子的事実幻覚を検出するのに失敗する。
本研究は,多言語幻覚検出における既存のギャップを浮き彫りにして,LLM幻覚のより堅牢な検出法を他の言語で開発するための将来の研究を動機づけるものである。
関連論文リスト
- From One to Many: Expanding the Scope of Toxicity Mitigation in Language
Models [11.805944680474823]
言語モデルが多言語機能を取り入れているため、私たちの安全対策はペースを保ちます。
言語間で十分なアノテートされたデータセットがないため、私たちは翻訳データを用いて緩和手法を評価し、強化する。
これにより,翻訳品質と言語間移動が毒性軽減に及ぼす影響を検討することができる。
論文 参考訳(メタデータ) (2024-03-06T17:51:43Z) - INSIDE: LLMs' Internal States Retain the Power of Hallucination
Detection [41.23176896032034]
本稿では,textbfinternal textbfStates内に保持される密接な意味情報について,HoluctextbfInation textbfDEtectionについて検討する。
応答の自己整合性をよりよく評価するために、単純で効果的な textbfEigenScore メトリクスが提案されている。
内部状態における極端なアクティベーションを阻害するために,テスト時間特徴クリッピング手法を提案する。
論文 参考訳(メタデータ) (2024-02-06T06:23:12Z) - Enhancing Uncertainty-Based Hallucination Detection with Stronger Focus [99.33091772494751]
大規模言語モデル(LLM)は、様々な分野にわたる印象的なパフォーマンスで大きな人気を集めている。
LLMは、ユーザの期待を満たさない非現実的あるいは非感覚的なアウトプットを幻覚させる傾向がある。
LLMにおける幻覚を検出するための新しい基準のない不確実性に基づく手法を提案する。
論文 参考訳(メタデータ) (2023-11-22T08:39:17Z) - A New Benchmark and Reverse Validation Method for Passage-level
Hallucination Detection [63.56136319976554]
大きな言語モデル(LLM)は幻覚を発生させ、ミッションクリティカルなタスクにデプロイすると大きなダメージを与える可能性がある。
本稿では,逆検証に基づく自己チェック手法を提案し,ゼロリソース方式で事実誤りを自動的に検出する。
提案手法と既存のゼロリソース検出手法を2つのデータセット上で実証的に評価した。
論文 参考訳(メタデータ) (2023-10-10T10:14:59Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language
Models [63.973142426228016]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z) - Detecting and Mitigating Hallucinations in Multilingual Summarisation [40.5267502712576]
幻覚は抽象的な要約のためのニューラルネットワークの信頼性に重大な課題をもたらす。
我々は、非英語要約の忠実度を評価する新しい計量mFACTを開発した。
そこで我々は,言語間移動による幻覚を減らすための,シンプルだが効果的な方法を提案する。
論文 参考訳(メタデータ) (2023-05-23T02:59:25Z) - DEMETR: Diagnosing Evaluation Metrics for Translation [21.25704103403547]
我々は、英語31K例の診断データセットであるDEMETRをリリースする。
学習指標はDEMETRの文字列ベースの指標よりもかなり優れていることがわかった。
論文 参考訳(メタデータ) (2022-10-25T03:25:44Z) - Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z) - The Secret is in the Spectra: Predicting Cross-lingual Task Performance
with Spectral Similarity Measures [83.53361353172261]
本稿では,モノリンガル埋め込み空間の類似性とタスク性能の相関性に着目した大規模研究を行う。
2つの埋め込み空間間のいくつかの同型測度を導入し、それぞれのスペクトルの関連統計に基づく。
このようなスペクトル同型尺度から得られた言語類似度スコアは、異なる言語間タスクで観測された性能と強く関連していることを実証的に示す。
論文 参考訳(メタデータ) (2020-01-30T00:09:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。