論文の概要: What Are People Asking About COVID-19? A Question Classification Dataset
- arxiv url: http://arxiv.org/abs/2005.12522v3
- Date: Fri, 8 Sep 2023 21:44:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 23:57:53.079092
- Title: What Are People Asking About COVID-19? A Question Classification Dataset
- Title(参考訳): 新型コロナウイルスについて何の質問があるのか?
質問分類データセット
- Authors: Jerry Wei, Chengyu Huang, Soroush Vosoughi, Jason Wei
- Abstract要約: 13のソースから1,690件のCOVID-19に関する質問の集合であるCOVID-Qを提示する。
われわれのデータセットで最も一般的な質問は、COVID-19の感染、予防、社会的影響についてだった。
複数のソースに現れた多くの質問は、CDCやFDAのような信頼できる組織のFAQのウェブサイトでは答えられませんでした。
- 参考スコア(独自算出の注目度): 56.609360198598914
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present COVID-Q, a set of 1,690 questions about COVID-19 from 13 sources,
which we annotate into 15 question categories and 207 question clusters. The
most common questions in our dataset asked about transmission, prevention, and
societal effects of COVID, and we found that many questions that appeared in
multiple sources were not answered by any FAQ websites of reputable
organizations such as the CDC and FDA. We post our dataset publicly at
https://github.com/JerryWeiAI/COVID-Q. For classifying questions into 15
categories, a BERT baseline scored 58.1% accuracy when trained on 20 examples
per category, and for a question clustering task, a BERT + triplet loss
baseline achieved 49.5% accuracy. We hope COVID-Q can help either for direct
use in developing applied systems or as a domain-specific resource for model
evaluation.
- Abstract(参考訳): 我々は、13のソースから1,690件のCOVID-19に関する質問セットであるCOVID-Qを紹介し、この質問は15の質問カテゴリと207の質問クラスタに注釈付けします。
今回のデータセットで最も一般的な質問は、COVID-19の感染、予防、社会的影響についてであり、複数のソースに現れた質問の多くは、CDCやFDAなどの信頼できる組織のFAQのウェブサイトから回答されなかった。
データセットはhttps://github.com/JerryWeiAI/COVID-Q.comに公開しています。
質問を15のカテゴリに分類するために、BERTベースラインは、カテゴリ毎に20の例でトレーニングされた時点で58.1%の精度を記録し、質問クラスタリングタスクではBERT+トリプルト損失ベースラインが49.5%の精度を達成した。
COVID-Qは、応用システム開発や、モデル評価のためのドメイン固有のリソースとして、直接的な利用に役立つことを期待しています。
関連論文リスト
- UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - CREPE: Open-Domain Question Answering with False Presuppositions [92.20501870319765]
オンライン情報検索フォーラムからの予測失敗の自然な分布を含むQAデータセットであるCREPEを紹介する。
25%の質問が偽の前提命題を含み、これらの前提命題とその修正のための注釈を提供する。
既存のオープンドメインQAモデルの適応は適度に予測できるが、仮定が実際に正しいかどうかを予測するのに苦労する。
論文 参考訳(メタデータ) (2022-11-30T18:54:49Z) - RxWhyQA: a clinical question-answering dataset with the challenge of
multi-answer questions [4.017119245460155]
我々は,複数問合せを処理可能な臨床問合せシステムの開発と評価のためのデータセットを作成する。
1-to-0と1-to-Nの薬物親和関係は、解答不能および複数解答項目を形成した。
論文 参考訳(メタデータ) (2022-01-07T15:58:58Z) - PerCQA: Persian Community Question Answering Dataset [2.503043323723241]
コミュニティ質問回答 (Community Question Answering, CQA) は、現実の質問に対する回答を提供するフォーラムである。
CQAの最初のペルシア語データセットであるPerCQAを提示する。
このデータセットには、最も有名なペルシアのフォーラムからクロールされた質問と回答が含まれている。
論文 参考訳(メタデータ) (2021-12-25T14:06:41Z) - COVIDRead: A Large-scale Question Answering Dataset on COVID-19 [41.23094507923245]
非常に重要なリソースであるCOVIDReadは、SQuAD(Stanford Question Answering dataset)に似たデータセットで、100万以上の質問と回答のペアです。
これは、この非常に珍しい病気に関する一般大衆の問い合わせから、編集者や雑誌編集者による記事管理まで、多くの目的に役立てることができる貴重なリソースである。
いくつかのエンドツーエンドニューラルネットワークベースのベースラインモデルを構築し、最低F1が32.03%、最高F1が37.19%に達する。
論文 参考訳(メタデータ) (2021-10-05T07:38:06Z) - Relation-Guided Pre-Training for Open-Domain Question Answering [67.86958978322188]
複雑なオープンドメイン問題を解決するためのRGPT-QA(Relation-Guided Pre-Training)フレームワークを提案する。
RGPT-QAは, 自然質問, TriviaQA, WebQuestionsにおいて, Exact Matchの精度が2.2%, 2.4%, 6.3%向上したことを示す。
論文 参考訳(メタデータ) (2021-09-21T17:59:31Z) - SituatedQA: Incorporating Extra-Linguistic Contexts into QA [7.495151447459443]
SituatedQA(SituatedQA)は,時間的・地理的文脈を考慮に入れた質問に対して,システムが正しい回答を提示しなければならない,オープン検索型QAデータセットである。
質問を求める情報のかなりの割合は、文脈に依存した回答であることがわかった。
我々の研究は、既存のモデルが頻繁に更新される、あるいは珍しい場所から回答を得るのに苦労していることを示している。
論文 参考訳(メタデータ) (2021-09-13T17:53:21Z) - GooAQ: Open Question Answering with Diverse Answer Types [63.06454855313667]
さまざまな回答型を持つ大規模データセットであるGooAQを紹介する。
このデータセットには500万の質問と300万の回答が含まれている。
論文 参考訳(メタデータ) (2021-04-18T05:40:39Z) - Transformer-Based Models for Question Answering on COVID19 [4.631723879329972]
BERT, ALBERT, T5モデルを用いた3つのトランス型質問応答システムを提案する。
BERTベースのQAシステムは最高F1スコア(26.32)、ALBERTベースのQAシステムは最高エクサクティマッチ(13.04)を達成した。
論文 参考訳(メタデータ) (2021-01-16T23:06:30Z) - Rapidly Bootstrapping a Question Answering Dataset for COVID-19 [88.86456834766288]
我々は、新型コロナウイルスに特化して設計された質問応答データセットの始まりであるCovidQAを紹介する。
これは、そのタイプの最初の公開リソースであり、より実質的な評価資源が利用可能になるまで研究を導くためのストップギャップとして意図されている。
論文 参考訳(メタデータ) (2020-04-23T17:35:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。