論文の概要: LINKAGE: Listwise Ranking among Varied-Quality References for Non-Factoid QA Evaluation via LLMs
- arxiv url: http://arxiv.org/abs/2409.14744v2
- Date: Mon, 30 Sep 2024 15:36:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:00:11.382332
- Title: LINKAGE: Listwise Ranking among Varied-Quality References for Non-Factoid QA Evaluation via LLMs
- Title(参考訳): LINKAGE:LLMによる非ファクトイドQA評価のための付加品質基準リストのランク付け
- Authors: Sihui Yang, Keping Bi, Wanqing Cui, Jiafeng Guo, Xueqi Cheng,
- Abstract要約: 非F (Non-Factoid) Question Answering (QA) は多種多様な潜在的回答と客観的基準により評価が困難である。
大規模言語モデル (LLM) は、様々なNLPタスクにおいて魅力的な性能を持つため、NFQAの評価に利用されてきた。
提案手法は,LLMを用いて基準回答のランク付けを行う新しい評価手法であるNFQAの評価手法を提案する。
- 参考スコア(独自算出の注目度): 61.57691505683534
- License:
- Abstract: Non-Factoid (NF) Question Answering (QA) is challenging to evaluate due to diverse potential answers and no objective criterion. The commonly used automatic evaluation metrics like ROUGE or BERTScore cannot accurately measure semantic similarities or answers from different perspectives. Recently, Large Language Models (LLMs) have been resorted to for NFQA evaluation due to their compelling performance on various NLP tasks. Common approaches include pointwise scoring of each candidate answer and pairwise comparisons between answers. Inspired by the evolution from pointwise to pairwise to listwise in learning-to-rank methods, we propose a novel listwise NFQA evaluation approach, that utilizes LLMs to rank candidate answers in a list of reference answers sorted by descending quality. Moreover, for NF questions that do not have multi-grade or any golden answers, we leverage LLMs to generate the reference answer list of various quality to facilitate the listwise evaluation. Extensive experimental results on three NFQA datasets, i.e., ANTIQUE, the TREC-DL-NF, and WebGLM show that our method has significantly higher correlations with human annotations compared to automatic scores and common pointwise and pairwise approaches.
- Abstract(参考訳): 非F (Non-Factoid) Question Answering (QA) は多種多様な潜在的回答と客観的基準により評価が困難である。
ROUGEやBERTScoreのような一般的な自動評価メトリクスは、意味的類似性や回答を異なる視点から正確に測定することはできない。
近年,大規模言語モデル (LLM) はNFQAの評価に活用されている。
一般的なアプローチには、各候補回答のポイントワイズスコアと、回答間のペアワイズ比較がある。
そこで本研究では,LLM を用いた評価手法を提案する。この手法は,LLM を用いて,下降品質によって分類された参照回答のリストのランク付けを行う。
さらに,マルチグレードや黄金の回答を持たないNF質問に対して,LLMを利用して様々な品質の基準回答リストを生成し,リストワイズ評価を容易にする。
AntiQUE, TREC-DL-NF, WebGLMの3つのNFQAデータセットの大規模な実験結果から, 自動スコアや共通点とペアのアプローチと比較して, 人間のアノテーションとの相関が有意に高いことが示された。
関連論文リスト
- Aligning LLMs through Multi-perspective User Preference Ranking-based Feedback for Programming Question Answering [16.394601658945625]
Code Community Question Answering (CCQA)は、プログラミング関連の問題に取り組み、ソフトウェア工学と学術研究の生産性を高める。
RLHF(Reinforcement Learning from Human Feedback)の最近の進歩は、Large Language Models(LLM)の微調整プロセスを変え、人間の振る舞いを忠実に模倣する応答を生み出している。
本稿では,マルチパースペクティブなユーザ嗜好ランク付けに基づくプログラミング質問回答(ALMupQA)に基づくALMupQA(Aligning LLMs)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-27T14:21:31Z) - Accurate and Nuanced Open-QA Evaluation Through Textual Entailment [4.762213968673381]
本稿では,より情報的かつ汎用的な解答を識別するために,解答の包含関係について検討する。
提案するエンテーメントに基づく評価では,回答間の推論ギャップを定量化することにより,ボーナスや部分マークの割り当てが可能である。
論文 参考訳(メタデータ) (2024-05-26T21:33:27Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - PEDANTS (Precise Evaluations of Diverse Answer Nominee Text for Skinflints): Efficient Evaluation Analysis and Benchmarking for Open-Domain Question Answering [10.367359022491181]
人間のQAコミュニティから採用されているマシンQAを評価するためのガイドラインとデータセットを提供する。
また、正確なマッチングやニューラル手法よりも、より効率的で、低リソースで、解釈可能なQA評価手法を提案する。
論文 参考訳(メタデータ) (2024-02-17T01:56:19Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - SQUARE: Automatic Question Answering Evaluation using Multiple Positive
and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。
文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文 参考訳(メタデータ) (2023-09-21T16:51:30Z) - Evaluating Open-Domain Question Answering in the Era of Large Language
Models [9.144650595481377]
オープンドメイン質問応答(QA)のデファクト評価手法としての語彙マッチング
QAのための大規模言語モデル(LLM)の最近の成功は、候補解が長くなるにつれて語彙マッチングの失敗を増大させる。
正確な評価がなければ、オープンドメインQAの真の進歩は分かっていない。
論文 参考訳(メタデータ) (2023-05-11T17:14:33Z) - RoMQA: A Benchmark for Robust, Multi-evidence, Multi-answer Question
Answering [87.18962441714976]
堅牢でマルチエビデンスな質問応答(QA)のための最初のベンチマークであるRoMQAを紹介します。
我々は、最先端の大規模言語モデルをゼロショット、少数ショット、微調整設定で評価し、RoMQAが難しいことを発見した。
以上の結果から,RoMQAは大規模言語モデルにとって難しいベンチマークであり,より堅牢なQA手法を構築するための定量的なテストを提供する。
論文 参考訳(メタデータ) (2022-10-25T21:39:36Z) - KPQA: A Metric for Generative Question Answering Using Keyphrase Weights [64.54593491919248]
KPQA-metricは生成的質問応答システムの正当性を評価するための新しい指標である。
我々の新しい計量は、キーフレーズ予測を通じて各トークンに異なる重みを割り当てる。
提案手法は,既存の指標よりも人的判断との相関が有意に高いことを示す。
論文 参考訳(メタデータ) (2020-05-01T03:24:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。