論文の概要: COUGH: A Challenge Dataset and Models for COVID-19 FAQ Retrieval
- arxiv url: http://arxiv.org/abs/2010.12800v2
- Date: Fri, 10 Sep 2021 17:30:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 13:18:50.512510
- Title: COUGH: A Challenge Dataset and Models for COVID-19 FAQ Retrieval
- Title(参考訳): COUGH:COVID-19 FAQ検索のための課題データセットとモデル
- Authors: Xinliang Frederick Zhang, Heming Sun, Xiang Yue, Simon Lin, Huan Sun
- Abstract要約: COVID-19 FAQ検索のための大規模で挑戦的なデータセットであるCOUGHを提示する。
FAQ銀行には、55の信頼できるウェブサイトから取り除かれた16KのFAQアイテムが含まれている。
クエリバンクには1,236のヒューマンパラフレーズクエリが含まれており、Relevance Setには32のヒューマンアノテートFAQアイテムが含まれている。
- 参考スコア(独自算出の注目度): 33.845246649050736
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a large, challenging dataset, COUGH, for COVID-19 FAQ retrieval.
Similar to a standard FAQ dataset, COUGH consists of three parts: FAQ Bank,
Query Bank and Relevance Set. The FAQ Bank contains ~16K FAQ items scraped from
55 credible websites (e.g., CDC and WHO). For evaluation, we introduce Query
Bank and Relevance Set, where the former contains 1,236 human-paraphrased
queries while the latter contains ~32 human-annotated FAQ items for each query.
We analyze COUGH by testing different FAQ retrieval models built on top of BM25
and BERT, among which the best model achieves 48.8 under P@5, indicating a
great challenge presented by COUGH and encouraging future research for further
improvement. Our COUGH dataset is available at
https://github.com/sunlab-osu/covid-faq.
- Abstract(参考訳): COVID-19 FAQ検索のための大規模で挑戦的なデータセットであるCOUGHを提示する。
標準的なFAQデータセットと同様に、COUGHはFAQ Bank、Query Bank、Relevance Setの3つの部分で構成される。
FAQ銀行には、55の信頼できるウェブサイト(CDCやWHOなど)から取り除かれた16KのFAQアイテムが含まれている。
評価には、クエリバンクと関連セットを導入し、前者は1,236のヒューマンパラフレーズクエリを、後者はクエリ毎に32の人間アノテーションのFAQアイテムを格納する。
BM25とBERT上に構築されたさまざまなFAQ検索モデルを用いてCOUGHを解析し、最高のモデルが48.8のP@5で達成し、COUGHが提示した大きな課題とさらなる改善に向けた今後の研究を奨励していることを示す。
私たちのcoughデータセットはhttps://github.com/sunlab-osu/covid-faqで利用可能です。
関連論文リスト
- BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval [54.54576644403115]
多くの複雑な実世界のクエリは、関連する文書を特定するために詳細な推論を必要とする。
BRIGHTは、関係する文書を検索するために、集中的推論を必要とする最初のテキスト検索ベンチマークである。
私たちのデータセットは、経済学、心理学、数学、コーディングなど、さまざまな領域にまたがる1,384の現実世界のクエリで構成されています。
論文 参考訳(メタデータ) (2024-07-16T17:58:27Z) - SPINACH: SPARQL-Based Information Navigation for Challenging Real-World Questions [6.933892616704001]
本稿では,Wikidata の "Request a Query" フォーラムでの議論から収集した KBQA データセットである SPINACH データセットを紹介する。
これらの内部クエリの複雑さはKBQAシステムと呼ばれるもので、大きく、しばしば不完全なスキーマを動的に探索し、それらについて推論することができる。
また、人間の専門家が難解な問題に対処するためにどのようにSPARQLを書くかを模倣する、SPINACHとも呼ばれる、コンテキスト内学習KBQAエージェントも導入しています。
論文 参考訳(メタデータ) (2024-07-16T06:18:21Z) - Selecting Query-bag as Pseudo Relevance Feedback for Information-seeking Conversations [76.70349332096693]
情報検索対話システムは電子商取引システムで広く利用されている。
クエリバッグに基づくPseudo Relevance Feedback framework(QB-PRF)を提案する。
関連クエリを備えたクエリバッグを構築し、擬似シグナルとして機能し、情報検索の会話をガイドする。
論文 参考訳(メタデータ) (2024-03-22T08:10:32Z) - QUADRo: Dataset and Models for QUestion-Answer Database Retrieval [97.84448420852854]
質問/回答(q/a)ペアのデータベース(DB)が与えられた場合、同じ質問に対してDBをスキャンすることで、対象の質問に答えることができる。
我々は6.3Mのq/aペアからなる大規模DBを構築し、公開質問を用いて、ニューラルIRとq/aペアリランカに基づく新しいシステムを設計する。
我々は、Bing検索エンジン上に構築されたQAシステムという、Webベースの手法とDBベースのアプローチが競合することを示す。
論文 参考訳(メタデータ) (2023-03-30T00:42:07Z) - MFBE: Leveraging Multi-Field Information of FAQs for Efficient Dense
Retrieval [1.7403133838762446]
本稿では,複数組み合わせのFAQフィールドを利用するバイエンコーダベースのクエリ-FAQマッチングモデルを提案する。
本モデルでは,内部およびオープンデータセットにおけるFAQ検索タスクにおいて,約27%,20%の精度でトップ1の精度を実現している。
論文 参考訳(メタデータ) (2023-02-23T12:02:49Z) - TAT-QA: A Question Answering Benchmark on a Hybrid of Tabular and
Textual Content in Finance [71.76018597965378]
TAT-QAと呼ばれるタブラデータとテクスチャデータの両方を含む新しい大規模な質問応答データセットを構築します。
本稿では,テーブルとテキストの両方を推論可能な新しいQAモデルであるTAGOPを提案する。
論文 参考訳(メタデータ) (2021-05-17T06:12:06Z) - Transformer-Based Models for Question Answering on COVID19 [4.631723879329972]
BERT, ALBERT, T5モデルを用いた3つのトランス型質問応答システムを提案する。
BERTベースのQAシステムは最高F1スコア(26.32)、ALBERTベースのQAシステムは最高エクサクティマッチ(13.04)を達成した。
論文 参考訳(メタデータ) (2021-01-16T23:06:30Z) - What Are People Asking About COVID-19? A Question Classification Dataset [56.609360198598914]
13のソースから1,690件のCOVID-19に関する質問の集合であるCOVID-Qを提示する。
われわれのデータセットで最も一般的な質問は、COVID-19の感染、予防、社会的影響についてだった。
複数のソースに現れた多くの質問は、CDCやFDAのような信頼できる組織のFAQのウェブサイトでは答えられませんでした。
論文 参考訳(メタデータ) (2020-05-26T05:41:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。