論文の概要: HalluSearch at SemEval-2025 Task 3: A Search-Enhanced RAG Pipeline for Hallucination Detection
- arxiv url: http://arxiv.org/abs/2504.10168v1
- Date: Mon, 14 Apr 2025 12:22:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:55:12.099426
- Title: HalluSearch at SemEval-2025 Task 3: A Search-Enhanced RAG Pipeline for Hallucination Detection
- Title(参考訳): Hallu Search at SemEval-2025 Task 3: Search-Enhanced RAG Pipeline for Hallucination Detection (英語)
- Authors: Mohamed A. Abdallah, Samhaa R. El-Beltagy,
- Abstract要約: HalluSearchは、LLM(Large Language Model)出力で生成されたテキストスパンを検出するために設計されたパイプラインである。
14の異なる言語で特定およびローカライズするために、検索強化された検証と、きめ細かい事実分割を結合する。
実証的な評価によると、HaluSearchは競争力があり、英語(トップ10%)とチェコ語の両方で4位となっている。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: In this paper, we present HalluSearch, a multilingual pipeline designed to detect fabricated text spans in Large Language Model (LLM) outputs. Developed as part of Mu-SHROOM, the Multilingual Shared-task on Hallucinations and Related Observable Overgeneration Mistakes, HalluSearch couples retrieval-augmented verification with fine-grained factual splitting to identify and localize hallucinations in fourteen different languages. Empirical evaluations show that HalluSearch performs competitively, placing fourth in both English (within the top ten percent) and Czech. While the system's retrieval-based strategy generally proves robust, it faces challenges in languages with limited online coverage, underscoring the need for further research to ensure consistent hallucination detection across diverse linguistic contexts.
- Abstract(参考訳): 本稿では,Large Language Model (LLM) 出力における生成テキストスパンを検出するために設計された多言語パイプラインである HalluSearch を提案する。
Mu-SHROOMの一部として開発され、ハルーサーチは14の異なる言語で幻覚を識別・ローカライズするために、微妙な事実分割による検索強化された検証を結合する。
実証的な評価によると、HaluSearchは競争力があり、英語(トップ10%)とチェコ語の両方で4位となっている。
このシステムの検索ベースの戦略は一般に堅牢であることが証明されているが、オンライン範囲が限られている言語では困難に直面しており、さまざまな言語文脈で一貫した幻覚の検出を確実にするためのさらなる研究の必要性が強調されている。
関連論文リスト
- Multilingual Retrieval Augmented Generation for Culturally-Sensitive Tasks: A Benchmark for Cross-lingual Robustness [30.00463676754559]
49言語にまたがる14kのウィキペディア文書と組み合わせた720の領域紛争クエリからなるベンチマークであるBordIRLinesを紹介した。
実験の結果,多言語文書を検索することで応答の整合性が向上し,純言語文書よりも地政学的バイアスが低減されることがわかった。
言語間RAGがIRから文書の内容にどのように影響するかについて、さらなる実験と事例研究を行った。
論文 参考訳(メタデータ) (2024-10-02T01:59:07Z) - Multilingual Fine-Grained News Headline Hallucination Detection [40.62136051552646]
複数言語できめ細かなニュース見出しの幻覚検出データセットについて紹介する。
このデータセットには5つの言語で1万以上のペアが含まれており、それぞれに専門家による詳細な幻覚タイプが注釈付けされている。
本稿では,言語に依存した実演選択と粗粒化プロンプトという2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-22T18:37:53Z) - Hallucination Detection: Robustly Discerning Reliable Answers in Large Language Models [70.19081534515371]
大規模言語モデル(LLM)は様々な自然言語処理タスクで広く採用されている。
それらは、入力源から逸脱する不信または矛盾したコンテンツを生成し、深刻な結果をもたらす。
本稿では,LLMの生成した回答の幻覚を効果的に検出するために,RelDという頑健な識別器を提案する。
論文 参考訳(メタデータ) (2024-07-04T18:47:42Z) - SLPL SHROOM at SemEval2024 Task 06: A comprehensive study on models ability to detect hallucination [1.4705596514165422]
本研究では,SemEval-2024タスク6の3つのタスク(機械翻訳,定義モデリング,パラフレーズ生成)における幻覚検出手法について検討する。
生成したテキストと事実参照のセマンティックな類似性、および相互の出力を判断する言語モデルのアンサンブルの2つの方法を評価する。
論文 参考訳(メタデータ) (2024-04-07T07:34:49Z) - KnowHalu: Hallucination Detection via Multi-Form Knowledge Based Factual Checking [55.2155025063668]
KnowHaluは、大規模言語モデル(LLM)によって生成されたテキスト中の幻覚を検出する新しいアプローチである
ステップワイズ推論、マルチフォームクエリ、ファクトチェックのためのマルチフォーム知識、フュージョンベースの検出メカニズムを使用する。
評価の結果,KnowHaluは様々なタスクにおける幻覚検出においてSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-04-03T02:52:07Z) - Comparing Hallucination Detection Metrics for Multilingual Generation [62.97224994631494]
本稿では,各言語にまたがって生成した伝記要約における幻覚を,様々な事実の幻覚検出指標がいかによく識別するかを評価する。
自動測度が相互にどのように相関するか, 事実判断に一致しているかを比較検討した。
我々の分析によると、語彙指標は非効率であるが、NLIベースのメトリクスはよく機能し、多くの設定における人間のアノテーションと相関し、しばしば教師付きモデルよりも優れている。
論文 参考訳(メタデータ) (2024-02-16T08:10:34Z) - Fine-grained Hallucination Detection and Editing for Language Models [109.56911670376932]
大規模言語モデル(LM)は、しばしば幻覚と呼ばれる事実的誤りを引き起こす傾向にある。
我々は,幻覚の包括的分類を導入し,幻覚が多様な形態で現れることを議論する。
本稿では, 幻覚自動検出のための新しいタスクを提案し, 新たな評価ベンチマークであるFavaBenchを構築した。
論文 参考訳(メタデータ) (2024-01-12T19:02:48Z) - Hallucinations in Large Multilingual Translation Models [70.10455226752015]
大規模多言語機械翻訳システムでは、多数の言語間で直接翻訳できることが顕著に示されている。
野生に配備されると、これらのモデルが幻覚翻訳を生成し、ユーザーの信頼を著しく損なう可能性があり、安全性の懸念が高まる。
幻覚に関する既存の研究は、主に高ソース言語で訓練された小さなバイリンガルモデルに焦点を当てている。
論文 参考訳(メタデータ) (2023-03-28T16:17:59Z) - Matching Tweets With Applicable Fact-Checks Across Languages [27.762055254009017]
ソーシャルメディア投稿(ツイート)のクレームに対する既存のファクトチェックを自動的に見つけることに重点を置いています。
モノリンガル(英語のみ)、マルチリンガル(スペイン語、ポルトガル語)、クロスリンガル(ヒンディー語-英語)の設定において、分類と検索の両方の実験を行う。
4つの言語対における「マッチ」分類(平均精度93%)の有望な結果を示す。
論文 参考訳(メタデータ) (2022-02-14T23:33:02Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。