論文の概要: Accurate and Nuanced Open-QA Evaluation Through Textual Entailment
- arxiv url: http://arxiv.org/abs/2405.16702v1
- Date: Sun, 26 May 2024 21:33:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 19:48:31.469770
- Title: Accurate and Nuanced Open-QA Evaluation Through Textual Entailment
- Title(参考訳): テキスト・エンタテインメントによるオープンQA評価の精度とニュアンス
- Authors: Peiran Yao, Denilson Barbosa,
- Abstract要約: 本稿では,より情報的かつ汎用的な解答を識別するために,解答の包含関係について検討する。
提案するエンテーメントに基づく評価では,回答間の推論ギャップを定量化することにより,ボーナスや部分マークの割り当てが可能である。
- 参考スコア(独自算出の注目度): 4.762213968673381
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Open-domain question answering (Open-QA) is a common task for evaluating large language models (LLMs). However, current Open-QA evaluations are criticized for the ambiguity in questions and the lack of semantic understanding in evaluators. Complex evaluators, powered by foundation models or LLMs and pertaining to semantic equivalence, still deviate from human judgments by a large margin. We propose to study the entailment relations of answers to identify more informative and more general system answers, offering a much closer evaluation to human judgment on both NaturalQuestions and TriviaQA while being learning-free. The entailment-based evaluation we propose allows the assignment of bonus or partial marks by quantifying the inference gap between answers, enabling a nuanced ranking of answer correctness that has higher AUC than current methods.
- Abstract(参考訳): オープンドメイン質問応答(Open-QA)は、大規模言語モデル(LLM)を評価するための一般的なタスクである。
しかし、現在のOpen-QA評価は、質問のあいまいさと評価者の意味的理解の欠如について批判されている。
基礎モデルやLLMを駆使し、意味的等価性に関わる複雑な評価器は、大きなマージンで人間の判断から逸脱している。
本研究では,より情報的かつ汎用的な解答を識別するために,解答の包含関係について検討し,学習の自由度を保ちながら,NaturalQuestionsとTriviaQAの双方に対する人的判断をより深く評価することを提案する。
提案するエンテーメントに基づく評価では,解答間の推論ギャップを定量化し,AUCが現在の方法よりも高い解答正解率の微妙なランク付けを可能にすることで,ボーナスや部分マークの割り当てが可能である。
関連論文リスト
- LINKAGE: Listwise Ranking among Varied-Quality References for Non-Factoid QA Evaluation via LLMs [61.57691505683534]
非F (Non-Factoid) Question Answering (QA) は多種多様な潜在的回答と客観的基準により評価が困難である。
大規模言語モデル (LLM) は、様々なNLPタスクにおいて魅力的な性能を持つため、NFQAの評価に利用されてきた。
提案手法は,LLMを用いて基準回答のランク付けを行う新しい評価手法であるNFQAの評価手法を提案する。
論文 参考訳(メタデータ) (2024-09-23T06:42:21Z) - CFMatch: Aligning Automated Answer Equivalence Evaluation with Expert Judgments For Open-Domain Question Answering [14.366087533102656]
質問応答(QA)は、答えが正しいかどうかを知る場合にのみ進行する。
回答等価性(AE)を決定するための現在の評価基準は、しばしば人間の判断と一致しない。
論文 参考訳(メタデータ) (2024-01-24T01:30:25Z) - QUDEVAL: The Evaluation of Questions Under Discussion Discourse Parsing [87.20804165014387]
Questions Under discussions (QUD) は、言論を継続的に質問し、答えるように進行する多目的言語フレームワークである。
本研究はQUD解析の自動評価のための最初のフレームワークを紹介する。
細調整されたシステムとLLMの両方から生成された2,190のQUD質問のきめ細かい評価データセットであるQUDevalを提案する。
論文 参考訳(メタデータ) (2023-10-23T03:03:58Z) - SQUARE: Automatic Question Answering Evaluation using Multiple Positive
and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。
文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文 参考訳(メタデータ) (2023-09-21T16:51:30Z) - A Critical Evaluation of Evaluations for Long-form Question Answering [48.51361567469683]
LFQA(Long-form Question answering)は、幅広い質問に答えることができるが、その柔軟性は評価に大きな課題をもたらす。
本研究は,人的・自動的な評価の実践を網羅した,長文回答の評価を初めて対象とした研究である。
論文 参考訳(メタデータ) (2023-05-29T16:54:24Z) - Evaluate What You Can't Evaluate: Unassessable Quality for Generated Response [56.25966921370483]
大規模な言語モデルに基づく参照不要評価器の使用には課題がある。
参照なし評価器は、異なるセマンティクス応答を持つオープンな例により適している。
対話応答の質を評価するため, LLM に基づく推論不要評価器の使用にはリスクがある。
論文 参考訳(メタデータ) (2023-05-24T02:52:48Z) - Evaluating Open-QA Evaluation [29.43815593419996]
本研究では,大規模言語モデル(LLM)の事実を直接推定できるオープン質問回答(Open QA)タスクの評価に焦点をあてる。
オープンQA内の標準回答に関連するAI生成回答の精度を評価するために,新たなタスクであるQA評価(QA-Eval)とそれに対応するデータセットEVOUNAを導入する。
論文 参考訳(メタデータ) (2023-05-21T10:40:55Z) - Multifaceted Improvements for Conversational Open-Domain Question
Answering [54.913313912927045]
対話型オープンドメイン質問回答(MICQA)のための多面的改善フレームワークを提案する。
第一に、提案したKL分割に基づく正規化は、検索と解答のためのより良い質問理解をもたらすことができる。
第二に、追加されたポストランカモジュールは、より関連性の高いパスをトップにプッシュし、2アスペクトの制約で読者に選択できる。
第3に、十分に設計されたカリキュラム学習戦略は、訓練と推論の黄金の通路設定のギャップを効果的に狭め、黄金の通路支援なしで真の答えを見つけることを奨励する。
論文 参考訳(メタデータ) (2022-04-01T07:54:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。