論文の概要: KPQA: A Metric for Generative Question Answering Using Keyphrase Weights
- arxiv url: http://arxiv.org/abs/2005.00192v3
- Date: Thu, 15 Apr 2021 10:09:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 23:36:31.226654
- Title: KPQA: A Metric for Generative Question Answering Using Keyphrase Weights
- Title(参考訳): KPQA: キーワードウェイトを用いた生成的質問回答尺度
- Authors: Hwanhee Lee, Seunghyun Yoon, Franck Dernoncourt, Doo Soon Kim, Trung
Bui, Joongbo Shin and Kyomin Jung
- Abstract要約: KPQA-metricは生成的質問応答システムの正当性を評価するための新しい指標である。
我々の新しい計量は、キーフレーズ予測を通じて各トークンに異なる重みを割り当てる。
提案手法は,既存の指標よりも人的判断との相関が有意に高いことを示す。
- 参考スコア(独自算出の注目度): 64.54593491919248
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the automatic evaluation of generative question answering (GenQA) systems,
it is difficult to assess the correctness of generated answers due to the
free-form of the answer. Especially, widely used n-gram similarity metrics
often fail to discriminate the incorrect answers since they equally consider
all of the tokens. To alleviate this problem, we propose KPQA-metric, a new
metric for evaluating the correctness of GenQA. Specifically, our new metric
assigns different weights to each token via keyphrase prediction, thereby
judging whether a generated answer sentence captures the key meaning of the
reference answer. To evaluate our metric, we create high-quality human
judgments of correctness on two GenQA datasets. Using our human-evaluation
datasets, we show that our proposed metric has a significantly higher
correlation with human judgments than existing metrics. The code is available
at https://github.com/hwanheelee1993/KPQA.
- Abstract(参考訳): genqa (generative question answering) システムの自動評価では, 解答の自由形態により生成した回答の正確性を評価することが困難である。
特に、広く使われているn-gram類似度指標は、全てのトークンを等しく考慮しているため、誤った答えを識別できないことが多い。
そこで本研究では,GenQAの正確性を評価するための新しい指標であるKPQA-metricを提案する。
具体的には、キーフレーズ予測によって各トークンに異なる重みを割り当て、生成した応答文が参照応答のキーの意味をキャプチャするかどうかを判断する。
測定値を評価するため、2つのGenQAデータセットに対して精度の高い人間の判断を行う。
人為評価データセットを用いて,提案手法は,既存の指標よりも人間の判断と有意に高い相関関係を示す。
コードはhttps://github.com/hwanheelee 1993/kpqaで入手できる。
関連論文リスト
- Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - PANDA (Pedantic ANswer-correctness Determination and
Adjudication):Improving Automatic Evaluation for Question Answering and Text
Generation [11.122579182121909]
質問応答(QA)は、答えが正しいかどうかを知る場合にのみ進行する。
現在の回答正当性(AC)の指標は人間の判断と一致しない。
正確性判定と適応(PANDA)について紹介する。
論文 参考訳(メタデータ) (2024-02-17T01:56:19Z) - SQUARE: Automatic Question Answering Evaluation using Multiple Positive
and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。
文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文 参考訳(メタデータ) (2023-09-21T16:51:30Z) - Evaluation of Question Generation Needs More References [7.876222232341623]
我々は、より堅牢なQG評価のために、基準質問を言い換えることを提案する。
GPT-3のような大規模言語モデルを用いて,意味論的・統語論的に多様な質問を作成した。
論文 参考訳(メタデータ) (2023-05-26T04:40:56Z) - RQUGE: Reference-Free Metric for Evaluating Question Generation by
Answering the Question [29.18544401904503]
そこで我々は,その文脈に与えられた質問に対する回答可能性に基づいて,新しい尺度RQUGEを提案する。
我々は,RQUGEが基準質問に頼らずに,人間の判断と高い相関関係を持つことを実証した。
論文 参考訳(メタデータ) (2022-11-02T21:10:09Z) - QAScore -- An Unsupervised Unreferenced Metric for the Question
Generation Evaluation [6.697751970080859]
質問生成(QG)は、選択された回答の集合で、ある項目に対する質問を構成するタスクを自動化することを目的としている。
QAScoreと呼ばれるQGシステムを評価するためのより良いメカニズムを提供する可能性を秘めている新しい基準フリー評価指標を提案する。
論文 参考訳(メタデータ) (2022-10-09T19:00:39Z) - Benchmarking Answer Verification Methods for Question Answering-Based
Summarization Evaluation Metrics [74.28810048824519]
質問応答に基づく要約評価メトリクスは、QAモデルの予測が正しいかどうかを自動的に判断する必要がある。
筆者らは,現在QAベースのメトリクスで使用されている語彙的回答検証手法と,より洗練された2つのテキスト比較手法をベンチマークした。
論文 参考訳(メタデータ) (2022-04-21T15:43:45Z) - Improving Unsupervised Question Answering via Summarization-Informed
Question Generation [47.96911338198302]
質問生成 (QG) とは, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、
我々は、自由なニュース要約データを使用し、宣言文を依存性解析、名前付きエンティティ認識、セマンティックロールラベリングを用いて適切な質問に変換する。
得られた質問は、元のニュース記事と組み合わせて、エンドツーエンドのニューラルQGモデルをトレーニングする。
論文 参考訳(メタデータ) (2021-09-16T13:08:43Z) - Asking and Answering Questions to Evaluate the Factual Consistency of
Summaries [80.65186293015135]
本稿では,QAGS (kags) と呼ばれる自動評価プロトコルを提案する。
QAGSは、要約とそのソースについて質問すると、要約が実際にソースと一致している場合、同様の回答が得られます。
QAGSは、使いやすく、現実的に一貫性のあるテキストを自動的に生成するための有望なツールであると考えています。
論文 参考訳(メタデータ) (2020-04-08T20:01:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。