Fugu-MT 論文翻訳(概要): MSA at SemEval-2025 Task 3: High Quality Weak Labeling and LLM Ensemble Verification for Multilingual Hallucination Detection

論文の概要: MSA at SemEval-2025 Task 3: High Quality Weak Labeling and LLM Ensemble Verification for Multilingual Hallucination Detection

arxiv url: http://arxiv.org/abs/2505.20880v1
Date: Tue, 27 May 2025 08:26:17 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-28 17:05:58.51189
Title: MSA at SemEval-2025 Task 3: High Quality Weak Labeling and LLM Ensemble Verification for Multilingual Hallucination Detection
Title（参考訳）: SemEval-2025 Task 3: High Quality Weak Labeling and LLM Ensemble Verification for Multilingual Hallucination Detection (英語)
Authors: Baraa Hikal, Ahmed Nasreldin, Ali Hamdi,
Abstract要約: 本稿では,SemEval-2025 Task 3: Mu-SHROOM, The Multilingual Shared-task on Hallucinations and Related Observable Overgeneration misstakesについて述べる。このタスクは、複数の言語にまたがる命令チューニングされた大規模言語モデル(LLM)によって生成されたテキスト中の幻覚的スパンを検出することを含む。我々のシステムはアラビア語とバスク語で第1位、ドイツ語、スウェーデン語、フィンランド語で第2位、チェコ語、ファルシ語、フランス語で第3位にランクインした。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper describes our submission for SemEval-2025 Task 3: Mu-SHROOM, the Multilingual Shared-task on Hallucinations and Related Observable Overgeneration Mistakes. The task involves detecting hallucinated spans in text generated by instruction-tuned Large Language Models (LLMs) across multiple languages. Our approach combines task-specific prompt engineering with an LLM ensemble verification mechanism, where a primary model extracts hallucination spans and three independent LLMs adjudicate their validity through probability-based voting. This framework simulates the human annotation workflow used in the shared task validation and test data. Additionally, fuzzy matching refines span alignment. Our system ranked 1st in Arabic and Basque, 2nd in German, Swedish, and Finnish, and 3rd in Czech, Farsi, and French.
Abstract（参考訳）: 本稿では,SemEval-2025 Task 3: Mu-SHROOM, The Multilingual Shared-task on Hallucinations and Related Observable Overgeneration misstakesについて述べる。このタスクは、複数の言語にまたがる命令チューニングされた大規模言語モデル(LLM)によって生成されたテキスト中の幻覚的スパンを検出することを含む。提案手法は,タスク固有のプロンプトエンジニアリングとLLMアンサンブル検証機構を組み合わせることで,主要なモデルが幻覚を抽出し,3つの独立したLCMが確率ベース投票によってそれらの妥当性を判断する。このフレームワークは、共有タスク検証とテストデータで使用されるヒューマンアノテーションワークフローをシミュレートする。さらにファジィマッチングはアライメントにまたがる。我々のシステムはアラビア語とバスク語で第1位、ドイツ語、スウェーデン語、フィンランド語で第2位、チェコ語、ファルシ語、フランス語で第3位にランクインした。

関連論文リスト

ATLANTIS at SemEval-2025 Task 3: Detecting Hallucinated Text Spans in Question Answering [1.4624458429745086]
大規模言語モデル(LLM)は、かなり進歩した自然言語生成(NLG)を持つが、幻覚を受けやすいままであり、誤ったあるいは誤解を招くコンテンツを生成する。本稿では,ATLANTISチームによるSemEval-2025タスク3への貢献について,質問応答システムにおける幻覚テキストスパンの検出に焦点をあてる。
論文参考訳（メタデータ） (2025-08-07T09:15:15Z)
TUM-MiKaNi at SemEval-2025 Task 3: Towards Multilingual and Knowledge-Aware Non-factual Hallucination Identification [2.3999111269325266]
本稿では,SemEval-2025 Task-3, Mu-SHROOM, Multilingual Shared-task on Hallucinations and Related Observable Overgeneration misstakesについて述べる。本稿では,Wikipediaに対する検索に基づく事実検証と,共通幻覚パターンを識別するBERTベースのシステムを組み合わせた2部パイプラインを提案する。
論文参考訳（メタデータ） (2025-07-01T09:00:50Z)
UCSC at SemEval-2025 Task 3: Context, Models and Prompt Optimization for Automated Hallucination Detection in LLM Output [7.121378498209948]
SemEval 2025 Task 3, Mu-SHROOM: Shared-task on Hallucinations and Related Observable Overgeneration misstakes, is a recent efforts in this direction。本稿では,UCSC システムを共有 Mu-SHROOM タスクに適用する。まず、関連するコンテキストを検索し、次に回答から偽のコンテンツを特定し、最終的にLLM出力のスパンにマップするフレームワークを導入する。
論文参考訳（メタデータ） (2025-05-05T21:15:40Z)
SemEval-2025 Task 3: Mu-SHROOM, the Multilingual Shared Task on Hallucinations and Related Observable Overgeneration Mistakes [72.61348252096413]
そこで本研究では,M Mu-SHROOM共有タスクを提案する。このタスクは,命令調整型大規模言語モデル(LLM)の出力における幻覚やその他の過剰生成ミスの検出に重点を置いている。 Mu-SHROOMは14言語で汎用LLMに対処し、幻覚検出問題をスパンラベルタスクとしてフレーム化する。私たちは43の参加チームから2,618件の提出を受けました。
論文参考訳（メタデータ） (2025-04-16T11:15:26Z)
AILS-NTUA at SemEval-2025 Task 3: Leveraging Large Language Models and Translation Strategies for Multilingual Hallucination Detection [4.8858843645116945]
本稿では,多言語テキストを英語に翻訳することで,幻覚検出の効率化を図る,効率的な学習不要なLCMプロンプト戦略を提案する。提案手法は,複数の言語にまたがる競合的ランキングを達成し,低リソース言語における2つの第1位を確保する。
論文参考訳（メタデータ） (2025-03-04T09:38:57Z)
P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P -M P-MMEvalは、さまざまなデータセットにわたって一貫した言語カバレッジを提供し、並列サンプルを提供する。我々は、モデルとタスク間の性能を比較するために、代表的多言語モデル系列に関する広範な実験を行う。
論文参考訳（メタデータ） (2024-11-14T01:29:36Z)
MALTO at SemEval-2024 Task 6: Leveraging Synthetic Data for LLM Hallucination Detection [3.049887057143419]
自然言語生成(NLG)では、現代のLarge Language Models(LLM)がいくつかの課題に直面している。これはしばしば「幻覚」を示すニューラルネットワークにつながる SHROOMチャレンジは、生成されたテキストでこれらの幻覚を自動的に識別することに焦点を当てている。
論文参考訳（メタデータ） (2024-03-01T20:31:10Z)
Fine-tuning Large Language Models for Multigenerator, Multidomain, and Multilingual Machine-Generated Text Detection [3.6433784431752434]
SemEval-2024 Task 8は、多種多様な大言語モデル(LLM)から機械生成テキストを特定するという課題を導入するタスクは3つのサブタスクから構成される: 単言語および多言語におけるバイナリ分類(Subtask A)、多クラス分類(Subtask B)、混合テキスト検出(Subtask C)。
論文参考訳（メタデータ） (2024-01-22T19:39:05Z)
Efficiently Aligned Cross-Lingual Transfer Learning for Conversational Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文参考訳（メタデータ） (2023-04-03T18:46:01Z)
Modeling Sequential Sentence Relation to Improve Cross-lingual Dense Retrieval [87.11836738011007]
マスク付き文モデル(MSM)と呼ばれる多言語多言語言語モデルを提案する。 MSMは、文表現を生成する文エンコーダと、文書から文ベクトルのシーケンスに適用される文書エンコーダとから構成される。モデルをトレーニングするために,サンプル負の階層的コントラスト損失によって文ベクトルをマスクし,予測するマスク付き文予測タスクを提案する。
論文参考訳（メタデータ） (2023-02-03T09:54:27Z)
Advancing Multilingual Pre-training: TRIP Triangular Document-level Pre-training for Multilingual Language Models [107.83158521848372]
我々は,従来のモノリンガルおよびバイリンガルの目的を,グラフト法と呼ばれる新しい手法で三言語的目的に加速する分野において,最初のテキストbfTriangular Document-level textbfPre-training(textbfTRIP)を提案する。 TRIPは、3つの多言語文書レベルの機械翻訳ベンチマークと1つの言語間抽象的な要約ベンチマークで、最大3.11d-BLEU点と8.9ROUGE-L点の一貫性のある改善を含む、強力なSOTAスコアを達成している。
論文参考訳（メタデータ） (2022-12-15T12:14:25Z)
Bridging Cross-Lingual Gaps During Leveraging the Multilingual Sequence-to-Sequence Pretraining for Text Generation [80.16548523140025]
プレトレインとファインチューンの間のギャップを埋めるために、コードスイッチングの復元タスクを追加して、バニラプレトレイン-ファインチューンパイプラインを拡張します。提案手法は,言語間文表現距離を狭くし,簡単な計算コストで低周波語翻訳を改善する。
論文参考訳（メタデータ） (2022-04-16T16:08:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。