論文の概要: Do Benchmarks Underestimate LLM Performance? Evaluating Hallucination Detection With LLM-First Human-Adjudicated Assessment
- arxiv url: http://arxiv.org/abs/2605.08462v1
- Date: Fri, 08 May 2026 20:27:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.665841
- Title: Do Benchmarks Underestimate LLM Performance? Evaluating Hallucination Detection With LLM-First Human-Adjudicated Assessment
- Title(参考訳): 評価基準はLLM性能を過小評価しているか? : LLM-First Human-Adjudicated Assessmentによる幻覚検出の評価
- Authors: I. F. Atasoy, B. Mutlu, E. A. Sezer, A. Wahdan,
- Abstract要約: 本研究は,要約作業における文脈幻覚検出に焦点を当てた。
QAGS-C と SummEval のデータセットは,従来のベンチマークアノテーションと理性およびスパンベースの予測を比較して分析する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hallucination remains a persistent challenge in Large Language Models (LLMs), particularly in context-grounded settings such as RAG and agentic AI systems. This study focuses on contextual hallucination detection in summarization tasks. We analyze the QAGS-C and SummEval datasets by comparing original benchmark annotations with reason and span-based predictions from Gemini 2.5 Flash and GPT-5 Mini. To address systematic divergences between human labels and LLM judgments, we re-evaluated all conflicted samples through a human adjudication process involving 2 cross-cultural adjudicators. Following this re-evaluation, triple agreement (between human, GPT, and Gemini) increased by 6.38% for QAGS-C and 7.62% for SummEval. Similarly, model accuracy improved, with GPT increasing by 4.25% on QAGS-C and 2.34% on SummEval, while Gemini showed gains of 8.51% and 3.80%, respectively. Notably, adjudicators frequently sided with the models' judgments over original human annotations when LLMs provided explicit reasoning. Overall human adjudicator agreement ranged between 83% and 87%. These findings suggest that for ambiguity-prone tasks, single-pass annotations may be insufficient, and model-assisted re-evaluation yields more reliable benchmarks.
- Abstract(参考訳): 幻覚はLarge Language Models(LLM)において、特にRAGやエージェントAIシステムのようなコンテキストベース設定において、引き続き永続的な課題である。
本研究は,要約作業における文脈幻覚検出に焦点を当てた。
我々は,Gemini 2.5 Flash と GPT-5 Mini のベンチマークアノテーションと理性およびスパンベース予測を比較し,QAGS-C と SummEval のデータセットを分析した。
ヒトのラベルとLDMの判断の系統的な相違に対処するために,2つの文化横断的適応を伴うヒトの適応プロセスを通じて,対立するサンプルを再評価した。
この再評価の結果、3つの合意(人間、GPT、ジェミニ)はQAGS-Cでは6.38%、SummEvalでは7.62%増加した。
同様にモデルの精度も向上し、GPTはQAGS-Cで4.25%、SummEvalで2.34%、ゲミニは8.51%、ゲミニは3.80%向上した。
特筆すべきは、LCMが明示的な推論を提供するとき、弁論者はオリジナルの人間のアノテーションに対してしばしばモデルの判断を支持したことである。
人事仲裁契約は83%から87%であった。
これらの結果から,曖昧性を伴うタスクでは単一パスアノテーションが不十分である可能性が示唆され,モデル支援による再評価により信頼性の高いベンチマークが得られた。
関連論文リスト
- Prompt-Based Clarity Evaluation and Topic Detection in Political Question Answering [0.0]
本研究では,SemEval 2026共有タスクのCLARITYデータセットを用いて,プロンプトに基づく明瞭度評価を行う。
我々は,GPT-5.2に対して,データセットを付加したGPT-3.5ベースラインを3つのプロンプト戦略で評価した。
その結果、GPT-5.2は明度予測においてGPT-3.5ベースラインを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2026-01-13T03:10:58Z) - Scheming Ability in LLM-to-LLM Strategic Interactions [4.873362301533824]
大規模言語モデル(LLM)エージェントは、さまざまな状況下で自律的にデプロイされる。
2つのゲーム理論フレームワークによるフロンティアLSMエージェントの能力と妥当性について検討する。
試験用4機種(GPT-4o、Gemini-2.5-pro、Claude-3.7-Sonnet、Llama-3.3-70b)
論文 参考訳(メタデータ) (2025-10-11T04:42:29Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - Distortions in Judged Spatial Relations in Large Language Models [45.875801135769585]
GPT-4は55%の精度で優れた性能を示し、GPT-3.5は47%、Llama-2は45%であった。
モデルは、ほとんどの場合において最も近い基数方向を同定し、その連想学習機構を反映した。
論文 参考訳(メタデータ) (2024-01-08T20:08:04Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - "Knowing When You Don't Know": A Multilingual Relevance Assessment Dataset for Robust Retrieval-Augmented Generation [90.09260023184932]
Retrieval-Augmented Generation (RAG) は、外部の知識源を活用して、事実の幻覚を減らすことで、Large Language Model (LLM) を出力する。
NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。
本研究は,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sr。
論文 参考訳(メタデータ) (2023-12-18T17:18:04Z) - Split and Merge: Aligning Position Biases in LLM-based Evaluators [22.265542509143756]
PortIAは、人間の比較戦略を模倣して位置バイアスを校正するアライメントベースのシステムである。
その結果, Portia はテスト対象のモデルと比較形態の整合性を著しく向上させることがわかった。
GPT-4モデルにおける位置バイアスの約80%を修正し、一貫性を98%まで高める。
論文 参考訳(メタデータ) (2023-09-29T14:38:58Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。