論文の概要: RoMQA: A Benchmark for Robust, Multi-evidence, Multi-answer Question
Answering
- arxiv url: http://arxiv.org/abs/2210.14353v1
- Date: Tue, 25 Oct 2022 21:39:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 14:14:47.115622
- Title: RoMQA: A Benchmark for Robust, Multi-evidence, Multi-answer Question
Answering
- Title(参考訳): RoMQA:ロバスト、マルチエビデンス、複数回答の回答のためのベンチマーク
- Authors: Victor Zhong, Weijia Shi, Wen-tau Yih, Luke Zettlemoyer
- Abstract要約: 堅牢でマルチエビデンスな質問応答(QA)のための最初のベンチマークであるRoMQAを紹介します。
我々は、最先端の大規模言語モデルをゼロショット、少数ショット、微調整設定で評価し、RoMQAが難しいことを発見した。
以上の結果から,RoMQAは大規模言語モデルにとって難しいベンチマークであり,より堅牢なQA手法を構築するための定量的なテストを提供する。
- 参考スコア(独自算出の注目度): 87.18962441714976
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce RoMQA, the first benchmark for robust, multi-evidence,
multi-answer question answering (QA). RoMQA contains clusters of questions that
are derived from related constraints mined from the Wikidata knowledge graph.
RoMQA evaluates robustness of QA models to varying constraints by measuring
worst-case performance within each question cluster. Compared to prior QA
datasets, RoMQA has more human-written questions that require reasoning over
more evidence text and have, on average, many more correct answers. In
addition, human annotators rate RoMQA questions as more natural or likely to be
asked by people. We evaluate state-of-the-art large language models in
zero-shot, few-shot, and fine-tuning settings, and find that RoMQA is
challenging: zero-shot and few-shot models perform similarly to naive
baselines, while supervised retrieval methods perform well below gold evidence
upper bounds. Moreover, existing models are not robust to variations in
question constraints, but can be made more robust by tuning on clusters of
related questions. Our results show that RoMQA is a challenging benchmark for
large language models, and provides a quantifiable test to build more robust QA
methods.
- Abstract(参考訳): 堅牢でマルチエビデンスな質問応答(QA)のための最初のベンチマークであるRoMQAを紹介する。
RoMQAには、Wikidataナレッジグラフから抽出した関連する制約から派生した、一連の質問が含まれている。
RoMQAは、各質問クラスタ内の最悪のパフォーマンスを測定することで、QAモデルの堅牢性をさまざまな制約に評価する。
以前のQAデータセットと比較して、RoMQAには、より多くのエビデンステキストを推論し、平均して多くの正確な回答を必要とする、より人間的な質問がある。
さらに、人間アノテータはRoMQAの質問をより自然に、あるいは人に尋ねられる可能性が高いと評価します。
ゼロショット, 少数ショット, 微調整設定で最先端の大規模言語モデルを評価し, ゼロショット, 少数ショットモデルも同様に, ゴールドエビデンスの上限以下では教師付き検索手法が有効である。
さらに、既存のモデルは問題制約のバリエーションに対して堅牢ではないが、関連する質問のクラスタをチューニングすることでより堅牢にすることができる。
以上の結果から,RoMQAは大規模言語モデルにとって難しいベンチマークであり,より堅牢なQA手法を構築するための定量的テストを提供する。
関連論文リスト
- Diversity Enhanced Narrative Question Generation for Storybooks [4.043005183192124]
マルチクエスト生成モデル(mQG)を導入し,複数の,多様な,回答可能な質問を生成する。
生成した質問の応答性を検証するために,SQuAD2.0の微調整された質問応答モデルを用いる。
mQGは、強力なベースラインの中で、様々な評価指標で有望な結果を示している。
論文 参考訳(メタデータ) (2023-10-25T08:10:04Z) - MarkQA: A large scale KBQA dataset with numerical reasoning [11.072552105311484]
本稿では,マルチホップ推論と数値推論の両方を実行する機能を必要とする新しいタスクNR-KBQAを提案する。
PyQLと呼ばれるPython形式で論理形式を設計し、数値推論問題の推論プロセスを表現する。
我々は、小さな種子から自動的に構築されるMarkQAと呼ばれる大規模なデータセットを提示する。
論文 参考訳(メタデータ) (2023-10-24T04:50:59Z) - SQUARE: Automatic Question Answering Evaluation using Multiple Positive
and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。
文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文 参考訳(メタデータ) (2023-09-21T16:51:30Z) - An Empirical Comparison of LM-based Question and Answer Generation
Methods [79.31199020420827]
質問と回答の生成(QAG)は、コンテキストが与えられた質問と回答のペアのセットを生成することで構成される。
本稿では,シーケンス・ツー・シーケンス言語モデル(LM)を微調整する3つの異なるQAG手法を用いて,ベースラインを確立する。
実験により、学習時間と推論時間の両方で計算的に軽量なエンドツーエンドQAGモデルが一般に堅牢であり、他のより複雑なアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-26T14:59:53Z) - Toward Unsupervised Realistic Visual Question Answering [70.67698100148414]
現実的なVQA(RVQA)の問題について検討し、モデルが答えられない質問(UQ)を拒絶し、答えられる質問(AQ)に答えなければならない。
1)データセットには不整合UQが多すぎること,(2)多数の注釈付きUQがトレーニングに必要とされること,の2つの欠点を最初に指摘した。
我々は、既存のVQAデータセットのAQと約29万の人間の注釈付きUQを組み合わせた新しいテストデータセットRGQAを提案する。
これは、画像と質問をランダムにペアリングして得られる擬似UQと、それを結合する。
論文 参考訳(メタデータ) (2023-03-09T06:58:29Z) - How to Build Robust FAQ Chatbot with Controllable Question Generator? [5.680871239968297]
本稿では, セマンティックグラフを用いて, 高い品質, 多様性, 制御可能なサンプルを生成する手法を提案する。
流動的でセマンティックに生成されたQAペアは、我々の通過検索モデルをうまく騙すことができる。
生成されたデータセットは、新しいターゲット領域へのQAモデルの一般化性を向上させる。
論文 参考訳(メタデータ) (2021-11-18T12:54:07Z) - Generating Diverse and Consistent QA pairs from Contexts with
Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。
我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文 参考訳(メタデータ) (2020-05-28T08:26:06Z) - ManyModalQA: Modality Disambiguation and QA over Diverse Inputs [73.93607719921945]
本稿では, エージェントが3つの異なるモダリティを考慮し, 質問に答えなければならない, マルチモーダルな質問応答課題, ManyModalQAを提案する。
われわれはウィキペディアをスクラップしてデータを収集し、クラウドソーシングを利用して質問と回答のペアを収集する。
論文 参考訳(メタデータ) (2020-01-22T14:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。