論文の概要: CFMatch: Aligning Automated Answer Equivalence Evaluation with Expert
Judgments For Open-Domain Question Answering
- arxiv url: http://arxiv.org/abs/2401.13170v2
- Date: Tue, 20 Feb 2024 19:37:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 19:15:12.696160
- Title: CFMatch: Aligning Automated Answer Equivalence Evaluation with Expert
Judgments For Open-Domain Question Answering
- Title(参考訳): CFMatch: オープンドメイン質問応答のための専門家判断による回答等価性の自動評価
- Authors: Zongxia Li, Ishani Mondal, Yijun Liang, Huy Nghiem, and Jordan
Boyd-Graber
- Abstract要約: 質問応答(QA)は、答えが正しいかどうかを知る場合にのみ進行する。
回答等価性(AE)を決定するための現在の評価基準は、しばしば人間の判断と一致しない。
- 参考スコア(独自算出の注目度): 14.366087533102656
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Question answering (QA) can only make progress if we know if an answer is
correct, but for many of the most challenging and interesting QA examples,
current evaluation metrics to determine answer equivalence (AE) often do not
align with human judgments, particularly more verbose, free-form answers from
large language models (LLM). There are two challenges: a lack of data and that
models are too big: LLM-based scorers can correlate better with human judges,
but this task has only been tested on limited QA datasets, and even when
available, update of the model is limited because LLMs are large and often
expensive. We rectify both of these issues by providing clear and consistent
guidelines for evaluating AE in machine QA adopted from professional human QA
contests. We also introduce a combination of standard evaluation and a more
efficient, robust, and lightweight discriminate AE classifier-based matching
method (CFMatch, smaller than 1 MB), trained and validated to more accurately
evaluate answer correctness in accordance with adopted expert AE rules that are
more aligned with human judgments.
- Abstract(参考訳): 質問応答(qa)は、答えが正しいかどうかを知った場合にのみ進行するが、最も挑戦的で興味深いqa例の多くでは、回答等価性(ae)を決定する現在の評価指標は、人間の判断、特に大規模言語モデル(llm)からのより冗長で自由形式の回答と一致しないことが多い。
データの欠如とモデルが大きすぎるという2つの課題がある: LLMベースのスコアラは人間の判断とよりよく相関できるが、このタスクは限定的なQAデータセットでのみテストされている。
プロの人間QAコンテストから採用したマシンQAにおいて、AEを評価するための明確で一貫したガイドラインを提供することで、これらの問題を是正する。
また,標準評価と,より効率的で堅牢で軽量な識別型AE分類器ベースのマッチング手法(CFMatch, 1MB未満)の組み合わせを導入し,人間の判断に適合した専門家によるAE規則に従って,回答の正確性をより正確に評価する。
関連論文リスト
- JudgeBench: A Benchmark for Evaluating LLM-based Judges [61.048125269475854]
judgeBenchは、知識、推論、数学、コーディングにまたがる挑戦的な応答ペアに関するLSMベースの判断を評価するためのベンチマークである。
審査員、微調整された審査員、マルチエージェントの審査員、報酬モデルに関する包括的な評価は、審査員ベンチが以前のベンチマークよりもかなり大きな課題を課していることを示している。
論文 参考訳(メタデータ) (2024-10-16T17:58:19Z) - LINKAGE: Listwise Ranking among Varied-Quality References for Non-Factoid QA Evaluation via LLMs [61.57691505683534]
非F (Non-Factoid) Question Answering (QA) は多種多様な潜在的回答と客観的基準により評価が困難である。
大規模言語モデル (LLM) は、様々なNLPタスクにおいて魅力的な性能を持つため、NFQAの評価に利用されてきた。
提案手法は,LLMを用いて基準回答のランク付けを行う新しい評価手法であるNFQAの評価手法を提案する。
論文 参考訳(メタデータ) (2024-09-23T06:42:21Z) - Ranking Generated Answers: On the Agreement of Retrieval Models with Humans on Consumer Health Questions [25.158868133182025]
本稿では,生成型大規模言語モデル(LLM)の出力を評価する手法を提案する。
我々の採点法は, 専門家の嗜好と相関する。
生成した回答の質がモデルのサイズによって向上する、よく知られた事実を検証して検証する。
論文 参考訳(メタデータ) (2024-08-19T09:27:45Z) - RAG-QA Arena: Evaluating Domain Robustness for Long-form Retrieval Augmented Question Answering [61.19126689470398]
Long-form RobustQA (LFRQA)は、7つの異なるドメインにわたる26Kクエリと大きなコーパスをカバーする新しいデータセットである。
RAG-QAアリーナと人間の回答品質判断は高い相関関係にあることを示す。
最も競争力のあるLLMの回答の41.3%のみがLFRQAの回答に好まれており、RAG-QAアリーナは将来の研究の挑戦的な評価プラットフォームであることを示している。
論文 参考訳(メタデータ) (2024-07-19T03:02:51Z) - On scalable oversight with weak LLMs judging strong LLMs [67.8628575615614]
我々は、2つのAIが1人の裁判官を納得させようとする議論、すなわち1人のAIが1人の裁判官を説得し、質問をする。
大規模言語モデル(LLM)をAIエージェントと人間の判断のためのスタンドインの両方として使用し、判断モデルがエージェントモデルよりも弱いと判断する。
論文 参考訳(メタデータ) (2024-07-05T16:29:15Z) - Accurate and Nuanced Open-QA Evaluation Through Textual Entailment [4.762213968673381]
本稿では,より情報的かつ汎用的な解答を識別するために,解答の包含関係について検討する。
提案するエンテーメントに基づく評価では,回答間の推論ギャップを定量化することにより,ボーナスや部分マークの割り当てが可能である。
論文 参考訳(メタデータ) (2024-05-26T21:33:27Z) - PEDANTS: Cheap but Effective and Interpretable Answer Equivalence [10.367359022491181]
我々は,Triviaコミュニティで採用されているマシンQAを評価するために,ルーリックとデータセットを提供する。
また、正確なマッチングとニューラルメソッド(BERTScore)よりも安定な、効率的で解釈可能なQA評価を提案する。
論文 参考訳(メタデータ) (2024-02-17T01:56:19Z) - SQUARE: Automatic Question Answering Evaluation using Multiple Positive
and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。
文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文 参考訳(メタデータ) (2023-09-21T16:51:30Z) - Tomayto, Tomahto. Beyond Token-level Answer Equivalence for Question
Answering Evaluation [11.733609600774306]
質問応答システムは通常、1つ以上の回答の注釈付き有限集合に対して評価される。
これは、システムの真のパフォーマンスを過小評価する、カバレッジの制限につながる。
本稿では,トークンレベルの等価度尺度の欠点を検討するための,最初の体系的概念的およびデータ駆動分析について述べる。
論文 参考訳(メタデータ) (2022-02-15T18:53:58Z) - Generating Diverse and Consistent QA pairs from Contexts with
Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。
我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文 参考訳(メタデータ) (2020-05-28T08:26:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。