論文の概要: SemEval-2025 Task 3: Mu-SHROOM, the Multilingual Shared Task on Hallucinations and Related Observable Overgeneration Mistakes
- arxiv url: http://arxiv.org/abs/2504.11975v1
- Date: Wed, 16 Apr 2025 11:15:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 14:40:02.227416
- Title: SemEval-2025 Task 3: Mu-SHROOM, the Multilingual Shared Task on Hallucinations and Related Observable Overgeneration Mistakes
- Title(参考訳): SemEval-2025 Task 3: Mu-SHROOM, 幻覚に関する多言語共有タスクと関連するオーバージェネレーションミス
- Authors: Raúl Vázquez, Timothee Mickus, Elaine Zosa, Teemu Vahtola, Jörg Tiedemann, Aman Sinha, Vincent Segonne, Fernando Sánchez-Vega, Alessandro Raganato, Jindřich Libovický, Jussi Karlgren, Shaoxiong Ji, Jindřich Helcl, Liane Guillou, Ona de Gibert, Jaione Bengoetxea, Joseph Attieh, Marianna Apidianaki,
- Abstract要約: そこで本研究では,M Mu-SHROOM共有タスクを提案する。このタスクは,命令調整型大規模言語モデル(LLM)の出力における幻覚やその他の過剰生成ミスの検出に重点を置いている。
Mu-SHROOMは14言語で汎用LLMに対処し、幻覚検出問題をスパンラベルタスクとしてフレーム化する。
私たちは43の参加チームから2,618件の提出を受けました。
- 参考スコア(独自算出の注目度): 72.61348252096413
- License:
- Abstract: We present the Mu-SHROOM shared task which is focused on detecting hallucinations and other overgeneration mistakes in the output of instruction-tuned large language models (LLMs). Mu-SHROOM addresses general-purpose LLMs in 14 languages, and frames the hallucination detection problem as a span-labeling task. We received 2,618 submissions from 43 participating teams employing diverse methodologies. The large number of submissions underscores the interest of the community in hallucination detection. We present the results of the participating systems and conduct an empirical analysis to identify key factors contributing to strong performance in this task. We also emphasize relevant current challenges, notably the varying degree of hallucinations across languages and the high annotator disagreement when labeling hallucination spans.
- Abstract(参考訳): そこで本研究では,Mu-SHROOM共有タスクについて,命令調整型大規模言語モデル(LLM)の出力における幻覚やその他の過剰生成誤りの検出に重点を置いている。
Mu-SHROOMは14言語で汎用LLMに対処し、幻覚検出問題をスパンラベルタスクとしてフレーム化する。
私たちは43の参加チームから2,618件の提出を受けました。
多くの提出書は、幻覚検出におけるコミュニティの関心を浮き彫りにしている。
本研究は,本課題における性能向上に寄与する重要な要因を特定するために,参加システムの結果を提示し,実証分析を行う。
また,言語間の幻覚の程度や,幻覚のラベル付けにおける高いアノテータの不一致など,関連する課題も強調する。
関連論文リスト
- Combating Multimodal LLM Hallucination via Bottom-Up Holistic Reasoning [151.4060202671114]
マルチモーダル大規模言語モデル(MLLM)は、視覚言語タスクを前進させる前例のない能力を示した。
本稿では,MLLMにおける幻覚に対処するためのボトムアップ推論フレームワークを提案する。
本フレームワークは、認識レベル情報と認知レベルコモンセンス知識を検証・統合することにより、視覚とテキストの両方の入力における潜在的な問題に体系的に対処する。
論文 参考訳(メタデータ) (2024-12-15T09:10:46Z) - Hallucination Detection: Robustly Discerning Reliable Answers in Large Language Models [70.19081534515371]
大規模言語モデル(LLM)は様々な自然言語処理タスクで広く採用されている。
それらは、入力源から逸脱する不信または矛盾したコンテンツを生成し、深刻な結果をもたらす。
本稿では,LLMの生成した回答の幻覚を効果的に検出するために,RelDという頑健な識別器を提案する。
論文 参考訳(メタデータ) (2024-07-04T18:47:42Z) - Drowzee: Metamorphic Testing for Fact-Conflicting Hallucination Detection in Large Language Models [11.138489774712163]
我々は、FCH(Fact-Conflicting Hallucinations)の検出のためのメタモルフィックテストを強化するために、論理プログラミングを活用する革新的なアプローチを提案する。
テストケースを生成し,9つのドメインにまたがる6つの異なる大言語モデルに対して幻覚を検知し,24.7%から59.8%の比率を示した。
論文 参考訳(メタデータ) (2024-05-01T17:24:42Z) - Quantity Matters: Towards Assessing and Mitigating Number Hallucination in Large Vision-Language Models [57.42800112251644]
本研究では,画像中の特定の物体の数を誤って識別するモデルを参照しながら,特定の種類の幻覚数幻覚に焦点を当てた。
そこで,本研究では,数幻覚を減らすための一貫性向上を目的としたトレーニング手法を考案し,直接微調整法よりも8%の性能向上を図った。
論文 参考訳(メタデータ) (2024-03-03T02:31:11Z) - MALTO at SemEval-2024 Task 6: Leveraging Synthetic Data for LLM
Hallucination Detection [3.049887057143419]
自然言語生成(NLG)では、現代のLarge Language Models(LLM)がいくつかの課題に直面している。
これはしばしば「幻覚」を示すニューラルネットワークにつながる
SHROOMチャレンジは、生成されたテキストでこれらの幻覚を自動的に識別することに焦点を当てている。
論文 参考訳(メタデータ) (2024-03-01T20:31:10Z) - Unified Hallucination Detection for Multimodal Large Language Models [44.333451078750954]
マルチモーダル大言語モデル(MLLM)は幻覚の重要な問題に悩まされている。
本稿では,幻覚検出手法の進歩を評価するために,メタ評価ベンチマークであるMHaluBenchを提案する。
我々は,幻覚の発生を確実に検証するために,一連の補助ツールを活用する,新しい統合型マルチモーダル幻覚検出フレームワークUNIHDを公表した。
論文 参考訳(メタデータ) (2024-02-05T16:56:11Z) - Towards Mitigating Hallucination in Large Language Models via
Self-Reflection [63.2543947174318]
大規模言語モデル(LLM)は、質問応答(QA)タスクを含む生成的および知識集約的なタスクを約束している。
本稿では,広範に採用されているLCMとデータセットを用いた医療再生QAシステムにおける幻覚現象を解析する。
論文 参考訳(メタデータ) (2023-10-10T03:05:44Z) - Siren's Song in the AI Ocean: A Survey on Hallucination in Large
Language Models [116.01843550398183]
大規模言語モデル(LLM)は、様々な下流タスクで顕著な機能を示している。
LLMは時折、ユーザ入力から分岐するコンテンツを生成し、以前生成されたコンテキストと矛盾する。
論文 参考訳(メタデータ) (2023-09-03T16:56:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。