論文の概要: HausaNLP at SemEval-2025 Task 3: Towards a Fine-Grained Model-Aware Hallucination Detection
- arxiv url: http://arxiv.org/abs/2503.19650v1
- Date: Tue, 25 Mar 2025 13:40:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:52:16.055947
- Title: HausaNLP at SemEval-2025 Task 3: Towards a Fine-Grained Model-Aware Hallucination Detection
- Title(参考訳): SemEval-2025 タスク3における HausaNLP:細粒モデル認識幻覚検出に向けて
- Authors: Maryam Bala, Amina Imam Abubakar, Abdulhamid Abubakar, Abdulkadir Shehu Bichi, Hafsa Kabir Ahmad, Sani Abdullahi Sani, Idris Abdulmumin, Shamsuddeen Hassan Muhamad, Ibrahim Said Ahmad,
- Abstract要約: 本研究の目的は, 幻覚の発生と重篤さに関する, 微妙な, モデルに配慮した理解を英語で提供することである。
自然言語の推論と400サンプルの合成データセットを用いたModernBERTモデルの微調整を行った。
その結果,モデルの信頼度と幻覚の有無との間には,正の相関が認められた。
- 参考スコア(独自算出の注目度): 1.8230982862848586
- License:
- Abstract: This paper presents our findings of the Multilingual Shared Task on Hallucinations and Related Observable Overgeneration Mistakes, MU-SHROOM, which focuses on identifying hallucinations and related overgeneration errors in large language models (LLMs). The shared task involves detecting specific text spans that constitute hallucinations in the outputs generated by LLMs in 14 languages. To address this task, we aim to provide a nuanced, model-aware understanding of hallucination occurrences and severity in English. We used natural language inference and fine-tuned a ModernBERT model using a synthetic dataset of 400 samples, achieving an Intersection over Union (IoU) score of 0.032 and a correlation score of 0.422. These results indicate a moderately positive correlation between the model's confidence scores and the actual presence of hallucinations. The IoU score indicates that our model has a relatively low overlap between the predicted hallucination span and the truth annotation. The performance is unsurprising, given the intricate nature of hallucination detection. Hallucinations often manifest subtly, relying on context, making pinpointing their exact boundaries formidable.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)における幻覚と関連する過剰発生誤りの同定に焦点をあてた多言語共有課題MU-SHROOMについて述べる。
共有タスクは、14言語でLLMが生成した出力の幻覚を構成する特定のテキストスパンを検出することを含む。
この課題に対処するため,本研究では,幻覚の発生と重大度に関する曖昧でモデルに配慮した理解を英語で提供することを目的とする。
自然言語の推論と400サンプルの合成データセットを用いたModernBERTモデルの微調整を行い、IoU(Intersection over Union)スコア0.032、相関スコア0.422を達成した。
これらの結果から,モデルの信頼度と幻覚の有無の正の相関が示唆された。
IoUスコアは、予測された幻覚と真理の注釈との間に比較的低い重なりがあることを示している。
幻覚検出の複雑な性質を考えると、パフォーマンスは驚くにあたらない。
幻覚は、しばしば文脈に依存して微妙に現れ、その正確な境界を暗示する。
関連論文リスト
- Reefknot: A Comprehensive Benchmark for Relation Hallucination Evaluation, Analysis and Mitigation in Multimodal Large Language Models [13.48296910438554]
我々は2万以上の実世界のサンプルからなる関係幻覚を対象とする総合的なベンチマークであるReefknotを紹介した。
関係幻覚を体系的に定義し、知覚的視点と認知的視点を統合するとともに、Visual Genomeのシーングラフデータセットを用いて関係ベースのコーパスを構築する。
本稿では,Reefknotを含む3つのデータセットに対して,幻覚率を平均9.75%削減する信頼性に基づく新たな緩和戦略を提案する。
論文 参考訳(メタデータ) (2024-08-18T10:07:02Z) - Knowledge Overshadowing Causes Amalgamated Hallucination in Large Language Models [65.32990889402927]
「我々はこの現象を知識の誇張として造る。」
その結果, 幻覚率の増大は, 不均衡比と支配的条件記述の長さに左右されることがわかった。
本稿では,その発生前に幻覚をキャッチするための信号として,オーバーシェーディング条件を用いることを提案する。
論文 参考訳(メタデータ) (2024-07-10T20:37:42Z) - SLPL SHROOM at SemEval2024 Task 06: A comprehensive study on models ability to detect hallucination [1.4705596514165422]
本研究では,SemEval-2024タスク6の3つのタスク(機械翻訳,定義モデリング,パラフレーズ生成)における幻覚検出手法について検討する。
生成したテキストと事実参照のセマンティックな類似性、および相互の出力を判断する言語モデルのアンサンブルの2つの方法を評価する。
論文 参考訳(メタデータ) (2024-04-07T07:34:49Z) - Fine-grained Hallucination Detection and Editing for Language Models [109.56911670376932]
大規模言語モデル(LM)は、しばしば幻覚と呼ばれる事実的誤りを引き起こす傾向にある。
我々は,幻覚の包括的分類を導入し,幻覚が多様な形態で現れることを議論する。
本稿では, 幻覚自動検出のための新しいタスクを提案し, 新たな評価ベンチマークであるFavaBenchを構築した。
論文 参考訳(メタデータ) (2024-01-12T19:02:48Z) - Hallucinations in Neural Automatic Speech Recognition: Identifying
Errors and Hallucinatory Models [11.492702369437785]
幻覚は、ソースの発声とは意味的に無関係であるが、それでも流動的でコヒーレントである。
単語誤り率などの一般的なメトリクスは、幻覚モデルと非幻覚モデルとを区別できないことを示す。
本研究は,幻覚を識別する枠組みを考案し,その意味的関係と基礎的真理と流布との関係を解析する。
論文 参考訳(メタデータ) (2024-01-03T06:56:56Z) - Alleviating Hallucinations of Large Language Models through Induced
Hallucinations [67.35512483340837]
大規模言語モデル(LLM)は、不正確な情報や製造された情報を含む応答を生成するために観察されている。
幻覚を緩和するための単純なtextitInduce-then-Contrast Decoding (ICD) 戦略を提案する。
論文 参考訳(メタデータ) (2023-12-25T12:32:49Z) - Hallucination Augmented Contrastive Learning for Multimodal Large
Language Model [53.65682783591723]
マルチモーダル大規模言語モデル(MLLM)は、自然言語と視覚情報を効率的に統合し、マルチモーダルタスクを処理できることが示されている。
しかし、MLLMは幻覚の基本的な限界に直面しており、誤った情報や偽情報を生成する傾向がある。
本稿では,MLLMにおける幻覚を表現学習の新たな視点から論じる。
論文 参考訳(メタデータ) (2023-12-12T04:05:15Z) - HalluciDoctor: Mitigating Hallucinatory Toxicity in Visual Instruction Data [102.56792377624927]
機械生成データに固有の幻覚は未発見のままである。
本稿では,クロスチェックパラダイムに基づく新しい幻覚検出・除去フレームワークであるHaluciDoctorを提案する。
LLaVAに比べて44.6%の幻覚を緩和し,競争性能を維持した。
論文 参考訳(メタデータ) (2023-11-22T04:52:58Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z) - Detecting and Preventing Hallucinations in Large Vision Language Models [4.7264116948935975]
M-HalDetectは、詳細な画像記述のための最初のマルチモーダル幻覚検出データセットである。
InstructBLIPから細粒度マルチモーダル報酬モデルを訓練し,その有効性を評価する。
LLaVAとmPLUG-OWLの幻覚をそれぞれ15%と57%低減する。
論文 参考訳(メタデータ) (2023-08-11T21:35:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。