論文の概要: ATLANTIS at SemEval-2025 Task 3: Detecting Hallucinated Text Spans in Question Answering
- arxiv url: http://arxiv.org/abs/2508.05179v1
- Date: Thu, 07 Aug 2025 09:15:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 21:11:55.674352
- Title: ATLANTIS at SemEval-2025 Task 3: Detecting Hallucinated Text Spans in Question Answering
- Title(参考訳): ATLANTIS at SemEval-2025 Task 3: Finding Hallucinated Text Spans in Question Answering
- Authors: Catherine Kobus, François Lancelot, Marion-Cécile Martin, Nawal Ould Amer,
- Abstract要約: 大規模言語モデル(LLM)は、かなり進歩した自然言語生成(NLG)を持つが、幻覚を受けやすいままであり、誤ったあるいは誤解を招くコンテンツを生成する。
本稿では,ATLANTISチームによるSemEval-2025タスク3への貢献について,質問応答システムにおける幻覚テキストスパンの検出に焦点をあてる。
- 参考スコア(独自算出の注目度): 1.4624458429745086
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents the contributions of the ATLANTIS team to SemEval-2025 Task 3, focusing on detecting hallucinated text spans in question answering systems. Large Language Models (LLMs) have significantly advanced Natural Language Generation (NLG) but remain susceptible to hallucinations, generating incorrect or misleading content. To address this, we explored methods both with and without external context, utilizing few-shot prompting with a LLM, token-level classification or LLM fine-tuned on synthetic data. Notably, our approaches achieved top rankings in Spanish and competitive placements in English and German. This work highlights the importance of integrating relevant context to mitigate hallucinations and demonstrate the potential of fine-tuned models and prompt engineering.
- Abstract(参考訳): 本稿では,ATLANTISチームによるSemEval-2025 Task 3への貢献について述べる。
大規模言語モデル(LLM)は、かなり進歩した自然言語生成(NLG)を持つが、幻覚を受けやすいままであり、誤ったあるいは誤解を招くコンテンツを生成する。
そこで我々は, LLM, トークンレベルの分類, あるいは合成データに微調整を施した少ショットプロンプトを用いて, 外部コンテキストと非外部コンテキストの両方の手法について検討した。
特に、我々のアプローチは、スペイン語と英語とドイツ語の競争力のあるランキングでトップとなった。
この研究は、幻覚を緩和し、微調整されたモデルと迅速な工学の可能性を示すために、関連するコンテキストを統合することの重要性を強調している。
関連論文リスト
- TUM-MiKaNi at SemEval-2025 Task 3: Towards Multilingual and Knowledge-Aware Non-factual Hallucination Identification [2.3999111269325266]
本稿では,SemEval-2025 Task-3, Mu-SHROOM, Multilingual Shared-task on Hallucinations and Related Observable Overgeneration misstakesについて述べる。
本稿では,Wikipediaに対する検索に基づく事実検証と,共通幻覚パターンを識別するBERTベースのシステムを組み合わせた2部パイプラインを提案する。
論文 参考訳(メタデータ) (2025-07-01T09:00:50Z) - MSA at SemEval-2025 Task 3: High Quality Weak Labeling and LLM Ensemble Verification for Multilingual Hallucination Detection [0.0]
本稿では,SemEval-2025 Task 3: Mu-SHROOM, The Multilingual Shared-task on Hallucinations and Related Observable Overgeneration misstakesについて述べる。
このタスクは、複数の言語にまたがる命令チューニングされた大規模言語モデル(LLM)によって生成されたテキスト中の幻覚的スパンを検出することを含む。
我々のシステムはアラビア語とバスク語で第1位、ドイツ語、スウェーデン語、フィンランド語で第2位、チェコ語、ファルシ語、フランス語で第3位にランクインした。
論文 参考訳(メタデータ) (2025-05-27T08:26:17Z) - SemEval-2025 Task 3: Mu-SHROOM, the Multilingual Shared Task on Hallucinations and Related Observable Overgeneration Mistakes [72.61348252096413]
そこで本研究では,M Mu-SHROOM共有タスクを提案する。このタスクは,命令調整型大規模言語モデル(LLM)の出力における幻覚やその他の過剰生成ミスの検出に重点を置いている。
Mu-SHROOMは14言語で汎用LLMに対処し、幻覚検出問題をスパンラベルタスクとしてフレーム化する。
私たちは43の参加チームから2,618件の提出を受けました。
論文 参考訳(メタデータ) (2025-04-16T11:15:26Z) - AILS-NTUA at SemEval-2025 Task 3: Leveraging Large Language Models and Translation Strategies for Multilingual Hallucination Detection [4.8858843645116945]
本稿では,多言語テキストを英語に翻訳することで,幻覚検出の効率化を図る,効率的な学習不要なLCMプロンプト戦略を提案する。
提案手法は,複数の言語にまたがる競合的ランキングを達成し,低リソース言語における2つの第1位を確保する。
論文 参考訳(メタデータ) (2025-03-04T09:38:57Z) - Coarse-to-Fine Highlighting: Reducing Knowledge Hallucination in Large Language Models [58.952782707682815]
COFTは、異なるレベルのキーテキストにフォーカスする新しい方法であり、長いコンテキストで失われることを避ける。
知識幻覚ベンチマークの実験ではCOFTの有効性が示され、F1スコアの30%以上の性能が向上した。
論文 参考訳(メタデータ) (2024-10-19T13:59:48Z) - Hallucination Detection: Robustly Discerning Reliable Answers in Large Language Models [70.19081534515371]
大規模言語モデル(LLM)は様々な自然言語処理タスクで広く採用されている。
それらは、入力源から逸脱する不信または矛盾したコンテンツを生成し、深刻な結果をもたらす。
本稿では,LLMの生成した回答の幻覚を効果的に検出するために,RelDという頑健な識別器を提案する。
論文 参考訳(メタデータ) (2024-07-04T18:47:42Z) - German also Hallucinates! Inconsistency Detection in News Summaries with the Absinth Dataset [3.5206745486062636]
この研究は、ドイツのニュース要約における幻覚検出のための手動注釈付きデータセットであるabsinthを提示する。
我々は,ドイツ語における幻覚検出のさらなる研究を促進するために,アブシンスデータセットをオープンソース化し,公開する。
論文 参考訳(メタデータ) (2024-03-06T14:37:30Z) - MALTO at SemEval-2024 Task 6: Leveraging Synthetic Data for LLM
Hallucination Detection [3.049887057143419]
自然言語生成(NLG)では、現代のLarge Language Models(LLM)がいくつかの課題に直面している。
これはしばしば「幻覚」を示すニューラルネットワークにつながる
SHROOMチャレンジは、生成されたテキストでこれらの幻覚を自動的に識別することに焦点を当てている。
論文 参考訳(メタデータ) (2024-03-01T20:31:10Z) - Enhancing Uncertainty-Based Hallucination Detection with Stronger Focus [99.33091772494751]
大規模言語モデル(LLM)は、様々な分野にわたる印象的なパフォーマンスで大きな人気を集めている。
LLMは、ユーザの期待を満たさない非現実的あるいは非感覚的なアウトプットを幻覚させる傾向がある。
LLMにおける幻覚を検出するための新しい基準のない不確実性に基づく手法を提案する。
論文 参考訳(メタデータ) (2023-11-22T08:39:17Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Detecting Hallucinated Content in Conditional Neural Sequence Generation [165.68948078624499]
出力シーケンスの各トークンが(入力に含まれていない)幻覚化されているかどうかを予測するタスクを提案する。
また、合成データに微調整された事前学習言語モデルを用いて幻覚を検出する方法についても紹介する。
論文 参考訳(メタデータ) (2020-11-05T00:18:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。