論文の概要: UCSC at SemEval-2025 Task 3: Context, Models and Prompt Optimization for Automated Hallucination Detection in LLM Output
- arxiv url: http://arxiv.org/abs/2505.03030v1
- Date: Mon, 05 May 2025 21:15:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 18:50:11.128955
- Title: UCSC at SemEval-2025 Task 3: Context, Models and Prompt Optimization for Automated Hallucination Detection in LLM Output
- Title(参考訳): UCSC at SemEval-2025 Task 3: 環境・モデル・プロンプト最適化によるLLM出力の自動幻覚検出
- Authors: Sicong Huang, Jincheng He, Shiyuan Huang, Karthik Raja Anandan, Arkajyoti Chakraborty, Ian Lane,
- Abstract要約: SemEval 2025 Task 3, Mu-SHROOM: Shared-task on Hallucinations and Related Observable Overgeneration misstakes, is a recent efforts in this direction。
本稿では,UCSC システムを共有 Mu-SHROOM タスクに適用する。
まず、関連するコンテキストを検索し、次に回答から偽のコンテンツを特定し、最終的にLLM出力のスパンにマップするフレームワークを導入する。
- 参考スコア(独自算出の注目度): 7.121378498209948
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hallucinations pose a significant challenge for large language models when answering knowledge-intensive queries. As LLMs become more widely adopted, it is crucial not only to detect if hallucinations occur but also to pinpoint exactly where in the LLM output they occur. SemEval 2025 Task 3, Mu-SHROOM: Multilingual Shared-task on Hallucinations and Related Observable Overgeneration Mistakes, is a recent effort in this direction. This paper describes the UCSC system submission to the shared Mu-SHROOM task. We introduce a framework that first retrieves relevant context, next identifies false content from the answer, and finally maps them back to spans in the LLM output. The process is further enhanced by automatically optimizing prompts. Our system achieves the highest overall performance, ranking #1 in average position across all languages. We release our code and experiment results.
- Abstract(参考訳): 幻覚は、知識集約的なクエリに答える際に、大きな言語モデルにとって大きな課題となる。
LLMがより広く採用されるにつれて、幻覚の発生を検知するだけでなく、LLM出力の正確な位置を特定することも重要である。
SemEval 2025 Task 3, Mu-SHROOM: Multilingual Shared-task on Hallucinations and Related Observable Overgeneration misstakes, is a recent efforts in this direction。
本稿では,UCSC システムを共有 Mu-SHROOM タスクに適用する。
まず、関連するコンテキストを検索し、次に回答から偽のコンテンツを特定し、最終的にLLM出力のスパンにマップするフレームワークを導入する。
この処理は、自動的にプロンプトを最適化することでさらに強化される。
本システムでは,全言語で平均1位にランクインし,最高性能を達成している。
コードをリリースし、その結果を実験します。
関連論文リスト
- TUM-MiKaNi at SemEval-2025 Task 3: Towards Multilingual and Knowledge-Aware Non-factual Hallucination Identification [2.3999111269325266]
本稿では,SemEval-2025 Task-3, Mu-SHROOM, Multilingual Shared-task on Hallucinations and Related Observable Overgeneration misstakesについて述べる。
本稿では,Wikipediaに対する検索に基づく事実検証と,共通幻覚パターンを識別するBERTベースのシステムを組み合わせた2部パイプラインを提案する。
論文 参考訳(メタデータ) (2025-07-01T09:00:50Z) - MSA at SemEval-2025 Task 3: High Quality Weak Labeling and LLM Ensemble Verification for Multilingual Hallucination Detection [0.0]
本稿では,SemEval-2025 Task 3: Mu-SHROOM, The Multilingual Shared-task on Hallucinations and Related Observable Overgeneration misstakesについて述べる。
このタスクは、複数の言語にまたがる命令チューニングされた大規模言語モデル(LLM)によって生成されたテキスト中の幻覚的スパンを検出することを含む。
我々のシステムはアラビア語とバスク語で第1位、ドイツ語、スウェーデン語、フィンランド語で第2位、チェコ語、ファルシ語、フランス語で第3位にランクインした。
論文 参考訳(メタデータ) (2025-05-27T08:26:17Z) - Can LLMs Detect Intrinsic Hallucinations in Paraphrasing and Machine Translation? [7.416552590139255]
本研究では,2つの条件生成タスクにおける内因性幻覚を検出する能力に基づいて,オープンアクセス LLM スイートの評価を行った。
モデルの性能はタスクや言語によってどのように異なるかを研究する。
パフォーマンスはモデルによって異なるが、プロンプト間で一貫性がある。
論文 参考訳(メタデータ) (2025-04-29T12:30:05Z) - LongHalQA: Long-Context Hallucination Evaluation for MultiModal Large Language Models [96.64960606650115]
LongHalQA (LongHalQA) は、6Kの長い複雑な幻覚テキストからなるLLMフリー幻覚ベンチマークである。
LongHalQA は GPT4V の生成した幻覚データによって特徴付けられる。
論文 参考訳(メタデータ) (2024-10-13T18:59:58Z) - Can LLM be a Good Path Planner based on Prompt Engineering? Mitigating the Hallucination for Path Planning [2.313664320808389]
本研究では、空間-関係変換とカリキュラムQ-Learning(S2RCQL)という革新的なモデルを提案する。
そこで我々は,Qラーニングに基づく経路計画アルゴリズムを設計し,文脈不整合の幻覚を緩和する。
プロンプトの補助情報として状態反応のQ-値を用いて,LLMの幻覚を補正する。
論文 参考訳(メタデータ) (2024-08-23T16:02:54Z) - Hallucination Detection: Robustly Discerning Reliable Answers in Large Language Models [70.19081534515371]
大規模言語モデル(LLM)は様々な自然言語処理タスクで広く採用されている。
それらは、入力源から逸脱する不信または矛盾したコンテンツを生成し、深刻な結果をもたらす。
本稿では,LLMの生成した回答の幻覚を効果的に検出するために,RelDという頑健な識別器を提案する。
論文 参考訳(メタデータ) (2024-07-04T18:47:42Z) - Are More LLM Calls All You Need? Towards Scaling Laws of Compound Inference Systems [76.69936664916061]
LM呼び出し回数がVotteとFilter-Voteのパフォーマンスに与える影響について検討する。
意外なことに、複数の言語タスクにおいて、VoteとFilter-Voteの両方のパフォーマンスは、まず増大するが、LM呼び出しの回数の関数として減少する可能性がある。
論文 参考訳(メタデータ) (2024-03-04T19:12:48Z) - kNN-ICL: Compositional Task-Oriented Parsing Generalization with Nearest
Neighbor In-Context Learning [50.40636157214161]
Task-Oriented Parsing (TOP)により、会話アシスタントは自然言語で表現されたユーザーコマンドを解釈できる。
LLMは、自然言語のプロンプトに基づいて、コンピュータプログラムにおいて印象的な性能を達成した。
本稿では,LLMのセマンティック解析機能を活用することに焦点を当てる。
論文 参考訳(メタデータ) (2023-12-17T17:26:50Z) - AlignedCoT: Prompting Large Language Models via Native-Speaking Demonstrations [52.43593893122206]
Alignedcotは、大規模言語モデルを呼び出すためのコンテキスト内学習技術である。
ゼロショットシナリオでは、一貫した正しいステップワイズプロンプトを達成する。
数学的推論とコモンセンス推論の実験を行う。
論文 参考訳(メタデータ) (2023-11-22T17:24:21Z) - FreshLLMs: Refreshing Large Language Models with Search Engine
Augmentation [92.43001160060376]
本研究では,現在の世界知識をテストする質問に答える文脈において,大規模言語モデル(LLM)の事実性について検討する。
多様な質問や回答のタイプを含む新しい動的QAベンチマークであるFreshQAを紹介する。
我々は,2モード評価法により,閉じたLLMとオープンソースのLLMの多種多様な配列をベンチマークし,その正しさと幻覚の両面を計測する。
これらの結果に触発されたFreshPromptは、FreshQA上でのLLMの性能を大幅に向上させる単純な数ショットプロンプトである。
論文 参考訳(メタデータ) (2023-10-05T00:04:12Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。