論文の概要: keepitsimple at SemEval-2025 Task 3: LLM-Uncertainty based Approach for Multilingual Hallucination Span Detection
- arxiv url: http://arxiv.org/abs/2505.17485v1
- Date: Fri, 23 May 2025 05:25:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.836017
- Title: keepitsimple at SemEval-2025 Task 3: LLM-Uncertainty based Approach for Multilingual Hallucination Span Detection
- Title(参考訳): SemEval-2025 Task 3: LLM-Incertainty based Approach for Multilingual Hallucination Span Detection
- Authors: Saketh Reddy Vemula, Parameswari Krishnamurthy,
- Abstract要約: ブラックボックス言語モデル生成テキストにおける幻覚の特定は、現実世界の応用に不可欠である。
本問題の解法は, 幻覚的スパンを特定するために, 実測的な応答のばらつきを生かしたものである。
エントロピーに基づく解析により,このばらつきを計測し,幻覚部分の正確な同定を可能にする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Identification of hallucination spans in black-box language model generated text is essential for applications in the real world. A recent attempt at this direction is SemEval-2025 Task 3, Mu-SHROOM-a Multilingual Shared Task on Hallucinations and Related Observable Over-generation Errors. In this work, we present our solution to this problem, which capitalizes on the variability of stochastically-sampled responses in order to identify hallucinated spans. Our hypothesis is that if a language model is certain of a fact, its sampled responses will be uniform, while hallucinated facts will yield different and conflicting results. We measure this divergence through entropy-based analysis, allowing for accurate identification of hallucinated segments. Our method is not dependent on additional training and hence is cost-effective and adaptable. In addition, we conduct extensive hyperparameter tuning and perform error analysis, giving us crucial insights into model behavior.
- Abstract(参考訳): ブラックボックス言語モデル生成テキストにおける幻覚の特定は、現実世界の応用に不可欠である。
この方向に向けた最近の試みはSemEval-2025 Task 3, Mu-SHROOM-a Multilingual Shared Task on Hallucinations and Related Observable Over- Generation Errorsである。
そこで本研究では, 確率的にサンプリングされた応答の変動に乗じて, 幻覚的スパンを同定する手法を提案する。
我々の仮説は、ある言語モデルが事実を確信しているなら、そのサンプル応答は均一であり、一方、幻覚的事実は異なる結果と矛盾する結果をもたらすというものである。
エントロピーに基づく解析により,このばらつきを計測し,幻覚部分の正確な同定を可能にする。
我々の方法は追加の訓練に依存しないので、費用対効果と適応性がある。
さらに、広範にハイパーパラメータチューニングを行い、エラー解析を行い、モデル動作に関する重要な洞察を与えます。
関連論文リスト
- RePPL: Recalibrating Perplexity by Uncertainty in Semantic Propagation and Language Generation for Explainable QA Hallucination Detection [29.344966292751817]
幻覚は大きな言語モデルにとって 重要な障害です
これら2つの側面により不確実性の測定を補正するRePPLを提案する。
提案手法は,様々なQAデータセットにまたがる最高の包括的検出性能を実現する。
論文 参考訳(メタデータ) (2025-05-21T11:23:05Z) - HausaNLP at SemEval-2025 Task 3: Towards a Fine-Grained Model-Aware Hallucination Detection [1.8230982862848586]
本研究の目的は, 幻覚の発生と重篤さに関する, 微妙な, モデルに配慮した理解を英語で提供することである。
自然言語の推論と400サンプルの合成データセットを用いたModernBERTモデルの微調整を行った。
その結果,モデルの信頼度と幻覚の有無との間には,正の相関が認められた。
論文 参考訳(メタデータ) (2025-03-25T13:40:22Z) - SLPL SHROOM at SemEval2024 Task 06: A comprehensive study on models ability to detect hallucination [1.4705596514165422]
本研究では,SemEval-2024タスク6の3つのタスク(機械翻訳,定義モデリング,パラフレーズ生成)における幻覚検出手法について検討する。
生成したテキストと事実参照のセマンティックな類似性、および相互の出力を判断する言語モデルのアンサンブルの2つの方法を評価する。
論文 参考訳(メタデータ) (2024-04-07T07:34:49Z) - On Large Language Models' Hallucination with Regard to Known Facts [74.96789694959894]
大規模な言語モデルはファクトイドの質問に答えることに成功したが、幻覚を起こす傾向がある。
正しい解答知識を持つLLMの現象を推論力学の観点から検討する。
我々の研究は、LLMの幻覚が既知の事実について、そしてより重要なのは、幻覚を正確に予測する理由を理解することに光を当てた。
論文 参考訳(メタデータ) (2024-03-29T06:48:30Z) - Fine-grained Hallucination Detection and Editing for Language Models [109.56911670376932]
大規模言語モデル(LM)は、しばしば幻覚と呼ばれる事実的誤りを引き起こす傾向にある。
我々は,幻覚の包括的分類を導入し,幻覚が多様な形態で現れることを議論する。
本稿では, 幻覚自動検出のための新しいタスクを提案し, 新たな評価ベンチマークであるFavaBenchを構築した。
論文 参考訳(メタデータ) (2024-01-12T19:02:48Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z) - On Hallucination and Predictive Uncertainty in Conditional Language
Generation [76.18783678114325]
高い予測の不確実性は幻覚の確率が高い。
認識的不確実性は、アレエータ的あるいは全体的不確実性よりも幻覚の指標である。
提案したビームサーチ変種との幻覚を抑えるため、標準メートル法で取引性能のより良い結果を得るのに役立ちます。
論文 参考訳(メタデータ) (2021-03-28T00:32:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。