論文の概要: QRelScore: Better Evaluating Generated Questions with Deeper
Understanding of Context-aware Relevance
- arxiv url: http://arxiv.org/abs/2204.13921v1
- Date: Fri, 29 Apr 2022 07:39:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-02 13:51:27.034271
- Title: QRelScore: Better Evaluating Generated Questions with Deeper
Understanding of Context-aware Relevance
- Title(参考訳): QRelScore: コンテキスト認識の関連性をより深く理解した生成した質問を評価する
- Authors: Xiaoqiang Wang, Bang Liu, Siliang Tang, Lingfei Wu
- Abstract要約: 我々は、$underlinetextbfRel$evance評価指標のコンテキスト対応評価指標である$textbfQRelScore$を提案する。
BERTやGPT2のような既製の言語モデルに基づいて、QRelScoreは単語レベルの階層マッチングと文レベルのプロンプトベースの生成の両方を採用している。
既存の測定値と比較すると、QRelScoreは人間による判断と高い相関性を持ちながら、敵のサンプルに対してより堅牢であることを示す。
- 参考スコア(独自算出の注目度): 54.48031346496593
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing metrics for assessing question generation not only require costly
human reference but also fail to take into account the input context of
generation, rendering the lack of deep understanding of the relevance between
the generated questions and input contexts. As a result, they may wrongly
penalize a legitimate and reasonable candidate question when it (i) involves
complicated reasoning with the context or (ii) can be grounded by multiple
evidences in the context. In this paper, we propose $\textbf{QRelScore}$, a
context-aware $\underline{\textbf{Rel}}$evance evaluation metric for
$\underline{\textbf{Q}}$uestion Generation. Based on off-the-shelf language
models such as BERT and GPT2, QRelScore employs both word-level hierarchical
matching and sentence-level prompt-based generation to cope with the
complicated reasoning and diverse generation from multiple evidences,
respectively. Compared with existing metrics, our experiments demonstrate that
QRelScore is able to achieve a higher correlation with human judgments while
being much more robust to adversarial samples.
- Abstract(参考訳): 質問生成を評価するための既存のメトリクスは、コストのかかる人間の参照を必要とするだけでなく、生成の入力コンテキストを考慮しても失敗し、生成された質問と入力コンテキストの関係性に関する深い理解が欠如している。
その結果、正当で合理的な候補者の質問を誤って罰する可能性がある。
(i)文脈による複雑な推論、又は
(ii)文脈において複数の証拠が根拠となる。
本稿では,$\underline{\textbf{QRelScore}$, $\underline{\textbf{Rel}}$evance Evaluation metric for $\underline{\textbf{Q}}$uestion Generationを提案する。
BERTやGPT2のような既製の言語モデルに基づいて、QRelScoreは単語レベルの階層マッチングと文レベルのプロンプトベースの生成の両方を使用して、複数の証拠から複雑な推論と多種多様な生成に対処する。
既存の測定値と比較すると、QRelScoreは人間による判断と高い相関性を持ちながら、敵のサンプルに対してより堅牢であることを示す。
関連論文リスト
- RAG-ConfusionQA: A Benchmark for Evaluating LLMs on Confusing Questions [52.33835101586687]
会話AIエージェントはRetrieval Augmented Generation(RAG)を使用して、ユーザからの問い合わせに対して検証可能なドキュメント地上応答を提供する。
本稿では,与えられた文書コーパスから,文脈に乱れた多様な質問を効率的に生成する,新しい合成データ生成手法を提案する。
論文 参考訳(メタデータ) (2024-10-18T16:11:29Z) - QUDSELECT: Selective Decoding for Questions Under Discussion Parsing [90.92351108691014]
Question Under Examination (QUD) は、暗黙の質問を用いて文間の会話関係を明らかにするための談話フレームワークである。
本稿では,QUD基準を考慮したQUD依存構造を選択的に復号する共同学習フレームワークであるQUDSELECTを紹介する。
提案手法は,人的評価において9%,自動評価において4%,最先端のベースラインモデルよりも優れていた。
論文 参考訳(メタデータ) (2024-08-02T06:46:08Z) - Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - SQUARE: Automatic Question Answering Evaluation using Multiple Positive
and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。
文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文 参考訳(メタデータ) (2023-09-21T16:51:30Z) - SkillQG: Learning to Generate Question for Reading Comprehension
Assessment [54.48031346496593]
本稿では,機械読解モデルの評価と改善を目的とした,制御可能な理解型を用いた質問生成フレームワークを提案する。
まず、階層的なスキルベースのスキーマに基づいて理解型の質問をフレーム化し、その後、スキル条件付き質問生成器として$textttSkillQG$を定式化する。
経験的な結果から、$textttSkillQG$は、品質、妥当性、スキル制御性という点でベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-08T14:40:48Z) - RQUGE: Reference-Free Metric for Evaluating Question Generation by
Answering the Question [29.18544401904503]
そこで我々は,その文脈に与えられた質問に対する回答可能性に基づいて,新しい尺度RQUGEを提案する。
我々は,RQUGEが基準質問に頼らずに,人間の判断と高い相関関係を持つことを実証した。
論文 参考訳(メタデータ) (2022-11-02T21:10:09Z) - Revisiting the Evaluation Metrics of Paraphrase Generation [35.6803390044542]
多くの既存のパラフレーズ生成モデルは、生成されたパラフレーズを評価するために参照ベースのメトリクスを使用する。
本稿では、生成されたパラフレーズの品質を反映できる参照フリーメトリックであるBBScoreを提案する。
論文 参考訳(メタデータ) (2022-02-17T07:18:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。