Fugu-MT 論文翻訳(概要): Evaluating Open-Domain Question Answering in the Era of Large Language Models

論文の概要: Evaluating Open-Domain Question Answering in the Era of Large Language Models

arxiv url: http://arxiv.org/abs/2305.06984v2
Date: Sun, 14 May 2023 21:21:56 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-16 11:06:27.414295
Title: Evaluating Open-Domain Question Answering in the Era of Large Language Models
Title（参考訳）: 大規模言語モデルにおけるオープンドメイン質問応答の評価
Authors: Ehsan Kamalloo, Nouha Dziri, Charles L. A. Clarke, Davood Rafiei
Abstract要約: オープンドメイン質問応答(QA)のデファクト評価手法としての語彙マッチング QAのための大規模言語モデル(LLM)の最近の成功は、候補解が長くなるにつれて語彙マッチングの失敗を増大させる。正確な評価がなければ、オープンドメインQAの真の進歩は分かっていない。
参考スコア（独自算出の注目度）: 9.144650595481377
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Lexical matching remains the de facto evaluation method for open-domain question answering (QA). Unfortunately, lexical matching fails completely when a plausible candidate answer does not appear in the list of gold answers, which is increasingly the case as we shift from extractive to generative models. The recent success of large language models (LLMs) for QA aggravates lexical matching failures since candidate answers become longer, thereby making matching with the gold answers even more challenging. Without accurate evaluation, the true progress in open-domain QA remains unknown. In this paper, we conduct a thorough analysis of various open-domain QA models, including LLMs, by manually evaluating their answers on a subset of NQ-open, a popular benchmark. Our assessments reveal that while the true performance of all models is significantly underestimated, the performance of the InstructGPT (zero-shot) LLM increases by nearly +60%, making it on par with existing top models, and the InstructGPT (few-shot) model actually achieves a new state-of-the-art on NQ-open. We also find that more than 50% of lexical matching failures are attributed to semantically equivalent answers. We further demonstrate that regex matching ranks QA models consistent with human judgments, although still suffering from unnecessary strictness. Finally, we demonstrate that automated evaluation models are a reasonable surrogate for lexical matching in some circumstances, but not for long-form answers generated by LLMs. The automated models struggle in detecting hallucinations in LLM answers and are thus unable to evaluate LLMs. At this time, there appears to be no substitute for human evaluation.
Abstract（参考訳）: 語彙マッチングは、オープンドメイン質問応答(QA)のデファクト評価方法として残っている。残念なことに、論理的マッチングは、金の答えリストにプラウチブル候補の答えが現れない場合に完全に失敗し、抽出モデルから生成モデルへ移行するにつれて、ますますその傾向が増す。近年の大規模言語モデル (LLMs) の成功により、候補解が長くなると語彙的マッチングの失敗が増加し、ゴールド解とのマッチングはさらに困難になる。正確な評価がなければ、オープンドメインQAの真の進歩は分かっていない。本稿では,一般的なベンチマークであるNQ-openのサブセットを手動で評価することにより,LLMを含む様々なオープンドメインQAモデルの徹底的な分析を行う。私たちの評価では、すべてのモデルの真のパフォーマンスは著しく過小評価されているものの、instructgpt (zero-shot) llmのパフォーマンスは60%近く向上し、既存のトップモデルと同等になり、instructgpt (few-shot) モデルはnq-openの新たな最先端を実際に達成しています。また、語彙マッチング失敗の50%以上が意味論的に等価な答えによるものであることが判明した。さらに、不必要な厳密さに悩まされているにもかかわらず、人間の判断と整合したランクQAモデルを示す。最後に, 自動評価モデルは, LLM が生成する長文解に対してではなく, 語彙マッチングのための合理的なサロゲートであることを示す。自動モデルはLLM回答の幻覚を検出するのに苦労し、LLMを評価することができない。現段階では、人間の評価に代わるものはないようである。

関連論文リスト

ABCD: All Biases Come Disguised [4.603755953026689]
MCQ(Multiple-choice Question)ベンチマークは標準的な評価手法である。本稿では,各質問のラベルを一様無順序ラベルに置き換える,単純なバイアス低減評価プロトコルを提案する。このプロトコルは、平均モデルの性能を最小限に抑えつつ、平均精度のばらつきを3倍に減らし、置換に答えるロバスト性を大幅に改善することを示す。
論文参考訳（メタデータ） (2026-02-19T15:12:33Z)
MinosEval: Distinguishing Factoid and Non-Factoid for Tailored Open-Ended QA Evaluation with LLMs [15.278241998033822]
大規模言語モデル(LLM)の能力を評価する上で,QA(Open-ended Question answering)が重要な課題である。オープンな質問をまず識別し,候補回答をランク付けする新しい評価手法である textbfMinosEval を提案する。
論文参考訳（メタデータ） (2025-06-18T07:49:13Z)
Right Answer, Wrong Score: Uncovering the Inconsistencies of LLM Evaluation in Multiple-Choice Question Answering [78.89231943329885]
大規模言語モデル(LLM)を評価するために最も広く使われているタスクの1つは、Multiple-Choice Question Answering (MCQA)である。本研究は,MCQA評価戦略の不整合を軽視し,不正確かつ誤ったモデル比較に繋がる可能性がある。
論文参考訳（メタデータ） (2025-03-19T08:45:03Z)
LLMs Can Generate a Better Answer by Aggregating Their Own Responses [83.69632759174405]
大きな言語モデル(LLM)はタスク間で顕著な機能を示しているが、複雑な問題に直面している場合、追加のプロンプト技術を必要とすることが多い。この制限は、共通LLMポストトレーニング手順が差別的判断タスクの明示的な監督を欠いているという事実に起因している、と我々は主張する。本稿では,モデルの識別機能を必要とせず,解答品質を向上させる手法である生成自己集合(GSA)を提案する。
論文参考訳（メタデータ） (2025-03-06T05:25:43Z)
LINKAGE: Listwise Ranking among Varied-Quality References for Non-Factoid QA Evaluation via LLMs [61.57691505683534]
非F (Non-Factoid) Question Answering (QA) は多種多様な潜在的回答と客観的基準により評価が困難である。大規模言語モデル (LLM) は、様々なNLPタスクにおいて魅力的な性能を持つため、NFQAの評価に利用されてきた。提案手法は,LLMを用いて基準回答のランク付けを行う新しい評価手法であるNFQAの評価手法を提案する。
論文参考訳（メタデータ） (2024-09-23T06:42:21Z)
WikiContradict: A Benchmark for Evaluating LLMs on Real-World Knowledge Conflicts from Wikipedia [59.96425443250666]
Retrieval-augmented Generation (RAG) は,大規模言語モデル(LLM)の限界を緩和する,有望なソリューションとして登場した。本研究では,ウィキペディアからの矛盾文に基づく質問に対するLLM生成回答の総合評価を行う。我々は、単一のパスを持つRAGと2つの矛盾するパスを持つRAGを含む、様々なQAシナリオ下で、クローズドおよびオープンソース両方のLSMをベンチマークする。
論文参考訳（メタデータ） (2024-06-19T20:13:42Z)
xFinder: Large Language Models as Automated Evaluators for Reliable Evaluation [9.22621553566816]
本稿では,キー応答抽出モジュールの最適化により抽出精度が向上し,信頼性が向上することを示す。大規模言語モデル(LLM)評価において,応答抽出とマッチングのための新しい評価器であるxFinderを提案する。一般化テストと実世界の評価では、最小のxFinderモデルは5億のパラメータしか持たないが、平均抽出精度は93.42%である。 xFinderの最終判定精度は97.61%に達し、既存の評価フレームワークや審査モデルを上回っている。
論文参考訳（メタデータ） (2024-05-20T08:30:13Z)
Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。 3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文参考訳（メタデータ） (2024-04-04T15:36:53Z)
Investigating Data Contamination in Modern Benchmarks for Large Language Models [27.479260572913724]
近年の観測は、膨らませたベンチマークスコアとLLMの実際の性能の相違を裏付けている。我々は,オープンソースのLLMとプロプライエタリなLLMの両方に適した2つの手法を提案し,データ汚染について検討した。いくつかの商用LCMは、様々なテストセットに欠けているオプションを驚くほど推測できる。
論文参考訳（メタデータ） (2023-11-16T11:03:04Z)
ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文参考訳（メタデータ） (2023-10-19T06:37:32Z)
FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation [92.43001160060376]
本研究では,現在の世界知識をテストする質問に答える文脈において,大規模言語モデル(LLM)の事実性について検討する。多様な質問や回答のタイプを含む新しい動的QAベンチマークであるFreshQAを紹介する。我々は,2モード評価法により,閉じたLLMとオープンソースのLLMの多種多様な配列をベンチマークし,その正しさと幻覚の両面を計測する。これらの結果に触発されたFreshPromptは、FreshQA上でのLLMの性能を大幅に向上させる単純な数ショットプロンプトである。
論文参考訳（メタデータ） (2023-10-05T00:04:12Z)
Large Language Models are Not Yet Human-Level Evaluators for Abstractive Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文参考訳（メタデータ） (2023-05-22T14:58:13Z)
Automatic Evaluation of Attribution by Large Language Models [24.443271739599194]
大規模言語モデル(LLM)による属性の自動評価について検討する。まず、異なる種類の属性エラーを定義し、次に自動評価のための2つのアプローチを検討する。生成検索エンジンNew Bingから12ドメインをカバーする一連のテスト例を手作業でキュレートする。
論文参考訳（メタデータ） (2023-05-10T16:58:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。