論文の概要: Rapidly Bootstrapping a Question Answering Dataset for COVID-19
- arxiv url: http://arxiv.org/abs/2004.11339v1
- Date: Thu, 23 Apr 2020 17:35:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-10 09:03:18.890189
- Title: Rapidly Bootstrapping a Question Answering Dataset for COVID-19
- Title(参考訳): COVID-19の回答データセットの速やかなブートストラップ
- Authors: Raphael Tang, Rodrigo Nogueira, Edwin Zhang, Nikhil Gupta, Phuong Cam,
Kyunghyun Cho, Jimmy Lin
- Abstract要約: 我々は、新型コロナウイルスに特化して設計された質問応答データセットの始まりであるCovidQAを紹介する。
これは、そのタイプの最初の公開リソースであり、より実質的な評価資源が利用可能になるまで研究を導くためのストップギャップとして意図されている。
- 参考スコア(独自算出の注目度): 88.86456834766288
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present CovidQA, the beginnings of a question answering dataset
specifically designed for COVID-19, built by hand from knowledge gathered from
Kaggle's COVID-19 Open Research Dataset Challenge. To our knowledge, this is
the first publicly available resource of its type, and intended as a stopgap
measure for guiding research until more substantial evaluation resources become
available. While this dataset, comprising 124 question-article pairs as of the
present version 0.1 release, does not have sufficient examples for supervised
machine learning, we believe that it can be helpful for evaluating the
zero-shot or transfer capabilities of existing models on topics specifically
related to COVID-19. This paper describes our methodology for constructing the
dataset and presents the effectiveness of a number of baselines, including
term-based techniques and various transformer-based models. The dataset is
available at http://covidqa.ai/
- Abstract(参考訳): これは、kaggleのopen research dataset challenge(オープンリサーチデータセットチャレンジ)から集めた知識を手作業で構築した、covid-19専用に設計されたデータセットに対する質問応答の始まりです。
我々の知る限り、これはそのタイプの最初の公開リソースであり、より実質的な評価資源が利用可能になるまで研究を導くためのストップギャップとして意図されている。
このデータセットは、現在のバージョン0.1リリースで124の質問文対で構成されており、教師付き機械学習の十分な例はないが、COVID-19に関連するトピックについて、既存のモデルのゼロショットや転送能力を評価するのに役立つと信じている。
本稿では,データセット構築手法について述べるとともに,項ベース手法やトランスフォーマーモデルなど,多数のベースラインの有効性を示す。
データセットはhttp://covidqa.ai/で利用可能である。
関連論文リスト
- UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Encyclopedic VQA: Visual questions about detailed properties of
fine-grained categories [41.2406955639537]
Encyclopedic-VQAは大規模な視覚的質問応答データセットである。
それぞれが(最大5つの画像にマッチする221万のユニークな質問+回答のペアを含んでいる。
私たちのデータセットには、Wikipediaから派生した制御された知識ベースがあります。
論文 参考訳(メタデータ) (2023-06-15T16:03:01Z) - Going beyond research datasets: Novel intent discovery in the industry
setting [60.90117614762879]
本稿では,大規模なeコマースプラットフォームに展開する意図発見パイプラインを改善する手法を提案する。
ドメイン内データに基づく事前学習型言語モデルの利点を示す。
また,クラスタリングタスクの微調整中に,実生活データセットの会話構造(質問と回答)を利用するための最善の方法も考案した。
論文 参考訳(メタデータ) (2023-05-09T14:21:29Z) - DC-BENCH: Dataset Condensation Benchmark [79.18718490863908]
この研究は、データセットの凝縮に関する最初の大規模標準ベンチマークを提供する。
それは、凝縮法の生成可能性と有効性を包括的に反映する一連の評価から成り立っている。
ベンチマークライブラリは、将来の研究とアプリケーションを容易にするためにオープンソース化されている。
論文 参考訳(メタデータ) (2022-07-20T03:54:05Z) - COVIDRead: A Large-scale Question Answering Dataset on COVID-19 [41.23094507923245]
非常に重要なリソースであるCOVIDReadは、SQuAD(Stanford Question Answering dataset)に似たデータセットで、100万以上の質問と回答のペアです。
これは、この非常に珍しい病気に関する一般大衆の問い合わせから、編集者や雑誌編集者による記事管理まで、多くの目的に役立てることができる貴重なリソースである。
いくつかのエンドツーエンドニューラルネットワークベースのベースラインモデルを構築し、最低F1が32.03%、最高F1が37.19%に達する。
論文 参考訳(メタデータ) (2021-10-05T07:38:06Z) - ClarQ: A large-scale and diverse dataset for Clarification Question
Generation [67.1162903046619]
そこで我々は,スタックエクスチェンジから抽出したポストコメンデーションに基づいて,多様な,大規模な明確化質問データセットの作成を支援する,新しいブートストラップフレームワークを考案した。
質問応答の下流タスクに適用することで,新たに作成したデータセットの有用性を定量的に示す。
我々はこのデータセットを公開し、ダイアログと質問応答システムの拡張という大きな目標を掲げて、質問生成の分野の研究を促進する。
論文 参考訳(メタデータ) (2020-06-10T17:56:50Z) - Harvesting and Refining Question-Answer Pairs for Unsupervised QA [95.9105154311491]
教師なし質問回答(QA)を改善するための2つのアプローチを提案する。
まず、ウィキペディアから語彙的・構文的に異なる質問を抽出し、質問応答対のコーパスを自動的に構築する(RefQAと名づけられる)。
第2に、より適切な回答を抽出するためにQAモデルを活用し、RefQA上でデータを反復的に洗練する。
論文 参考訳(メタデータ) (2020-05-06T15:56:06Z) - What do Models Learn from Question Answering Datasets? [2.28438857884398]
モデルが質問応答データセットから読み解きを学習しているかどうかを検討する。
我々は、ドメイン外の例に対する一般化可能性、欠落や不正なデータに対する応答、質問のバリエーションを扱う能力に関するモデルを評価する。
読解を通じて質問応答のタスクをよりよく評価する,将来的なQAデータセットの構築を推奨する。
論文 参考訳(メタデータ) (2020-04-07T15:41:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。