Fugu-MT 論文翻訳(概要): KPQA: A Metric for Generative Question Answering Using Keyphrase Weights

論文の概要: KPQA: A Metric for Generative Question Answering Using Keyphrase Weights

arxiv url: http://arxiv.org/abs/2005.00192v3
Date: Thu, 15 Apr 2021 10:09:41 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-07 23:36:31.226654
Title: KPQA: A Metric for Generative Question Answering Using Keyphrase Weights
Title（参考訳）: KPQA: キーワードウェイトを用いた生成的質問回答尺度
Authors: Hwanhee Lee, Seunghyun Yoon, Franck Dernoncourt, Doo Soon Kim, Trung Bui, Joongbo Shin and Kyomin Jung
Abstract要約: KPQA-metricは生成的質問応答システムの正当性を評価するための新しい指標である。我々の新しい計量は、キーフレーズ予測を通じて各トークンに異なる重みを割り当てる。提案手法は,既存の指標よりも人的判断との相関が有意に高いことを示す。
参考スコア（独自算出の注目度）: 64.54593491919248
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In the automatic evaluation of generative question answering (GenQA) systems, it is difficult to assess the correctness of generated answers due to the free-form of the answer. Especially, widely used n-gram similarity metrics often fail to discriminate the incorrect answers since they equally consider all of the tokens. To alleviate this problem, we propose KPQA-metric, a new metric for evaluating the correctness of GenQA. Specifically, our new metric assigns different weights to each token via keyphrase prediction, thereby judging whether a generated answer sentence captures the key meaning of the reference answer. To evaluate our metric, we create high-quality human judgments of correctness on two GenQA datasets. Using our human-evaluation datasets, we show that our proposed metric has a significantly higher correlation with human judgments than existing metrics. The code is available at https://github.com/hwanheelee1993/KPQA.
Abstract（参考訳）: genqa (generative question answering) システムの自動評価では, 解答の自由形態により生成した回答の正確性を評価することが困難である。特に、広く使われているn-gram類似度指標は、全てのトークンを等しく考慮しているため、誤った答えを識別できないことが多い。そこで本研究では,GenQAの正確性を評価するための新しい指標であるKPQA-metricを提案する。具体的には、キーフレーズ予測によって各トークンに異なる重みを割り当て、生成した応答文が参照応答のキーの意味をキャプチャするかどうかを判断する。測定値を評価するため、2つのGenQAデータセットに対して精度の高い人間の判断を行う。人為評価データセットを用いて,提案手法は,既存の指標よりも人間の判断と有意に高い相関関係を示す。コードはhttps://github.com/hwanheelee 1993/kpqaで入手できる。

関連論文リスト

What should an AI assessor optimise for? [57.96463917842822]
AIアセスタ(AI Assessmentor)は、他のAIシステムの指標(損失値など)を予測する、外的、理想的には不適切なシステムである。ここでは、問題に対処する: 常にターゲットメトリックのアセスメントをトレーニングするのが最適か? 本研究では, モノトニック写像と非モノトニック写像を用いた回帰損失と分類スコアについて実験的に検討した。
論文参考訳（メタデータ） (2025-02-01T08:41:57Z)
RAG-ConfusionQA: A Benchmark for Evaluating LLMs on Confusing Questions [52.33835101586687]
会話AIエージェントはRetrieval Augmented Generation(RAG)を使用して、ユーザからの問い合わせに対して検証可能なドキュメント地上応答を提供する。本稿では,与えられた文書コーパスから,文脈に乱れた多様な質問を効率的に生成する,新しい合成データ生成手法を提案する。
論文参考訳（メタデータ） (2024-10-18T16:11:29Z)
LINKAGE: Listwise Ranking among Varied-Quality References for Non-Factoid QA Evaluation via LLMs [61.57691505683534]
非F (Non-Factoid) Question Answering (QA) は多種多様な潜在的回答と客観的基準により評価が困難である。大規模言語モデル (LLM) は、様々なNLPタスクにおいて魅力的な性能を持つため、NFQAの評価に利用されてきた。提案手法は,LLMを用いて基準回答のランク付けを行う新しい評価手法であるNFQAの評価手法を提案する。
論文参考訳（メタデータ） (2024-09-23T06:42:21Z)
QGEval: Benchmarking Multi-dimensional Evaluation for Question Generation [9.001613702628253]
人間の評価は質問生成(QG)の分野で広く使われており、自動メトリクスのゴールドスタンダードとして機能している。統一された評価基準が欠如しており、QGモデルと自動メトリクスの両方の一貫性のある評価を妨げている。質問生成のための多次元評価ベンチマークであるQGEvalを提案する。
論文参考訳（メタデータ） (2024-06-09T09:51:55Z)
Query Performance Prediction using Relevance Judgments Generated by Large Language Models [53.97064615557883]
自動生成関連判定(QPP-GenRE)を用いたQPPフレームワークを提案する。 QPP-GenREは、QPPを独立したサブタスクに分解し、ランクリスト内の各項目の関連性を所定のクエリに予測する。これにより、生成した関連判断を擬似ラベルとして利用して、任意のIR評価尺度を予測することができる。
論文参考訳（メタデータ） (2024-04-01T09:33:05Z)
Reference-based Metrics Disprove Themselves in Question Generation [17.83616985138126]
人手による参照を用いることで、参照ベースのメトリクスの有効性を保証できないことがわかった。優れた測定基準は、生成した質問に比較して、人間公認の質問を格付けすることが期待されている。本研究では, 自然性, 応答性, 複雑性などの多次元的基準からなる基準自由度尺度を提案する。
論文参考訳（メタデータ） (2024-03-18T20:47:10Z)
Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。本稿では,基準自由度に欠陥があるかどうかを考察する。 GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文参考訳（メタデータ） (2024-02-18T12:36:23Z)
SQUARE: Automatic Question Answering Evaluation using Multiple Positive and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文参考訳（メタデータ） (2023-09-21T16:51:30Z)
RQUGE: Reference-Free Metric for Evaluating Question Generation by Answering the Question [29.18544401904503]
そこで我々は,その文脈に与えられた質問に対する回答可能性に基づいて,新しい尺度RQUGEを提案する。我々は,RQUGEが基準質問に頼らずに,人間の判断と高い相関関係を持つことを実証した。
論文参考訳（メタデータ） (2022-11-02T21:10:09Z)
QAScore -- An Unsupervised Unreferenced Metric for the Question Generation Evaluation [6.697751970080859]
質問生成(QG)は、選択された回答の集合で、ある項目に対する質問を構成するタスクを自動化することを目的としている。 QAScoreと呼ばれるQGシステムを評価するためのより良いメカニズムを提供する可能性を秘めている新しい基準フリー評価指標を提案する。
論文参考訳（メタデータ） (2022-10-09T19:00:39Z)
Benchmarking Answer Verification Methods for Question Answering-Based Summarization Evaluation Metrics [74.28810048824519]
質問応答に基づく要約評価メトリクスは、QAモデルの予測が正しいかどうかを自動的に判断する必要がある。筆者らは,現在QAベースのメトリクスで使用されている語彙的回答検証手法と,より洗練された2つのテキスト比較手法をベンチマークした。
論文参考訳（メタデータ） (2022-04-21T15:43:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。