論文の概要: Can questions summarize a corpus? Using question generation for
characterizing COVID-19 research
- arxiv url: http://arxiv.org/abs/2009.09290v1
- Date: Sat, 19 Sep 2020 19:57:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-16 21:00:43.812394
- Title: Can questions summarize a corpus? Using question generation for
characterizing COVID-19 research
- Title(参考訳): 質問はコーパスを要約できるか?
COVID-19研究における質問生成の活用
- Authors: Gabriela Surita, Rodrigo Nogueira, Roberto Lotufo
- Abstract要約: コーパス2クエスト(corpus2question)と呼ばれる本手法は,コーパスに事前学習した質問生成モデルを適用し,その結果を周波数と時間で集約する。
以上の結果から、新型コロナウイルス関連の研究論文のコーパス2クエストの適用は、このトピックに関する関連する疑問をもたらすことが示唆された。
提案手法は,CovidQA質問応答データセットから,27名の専門家が作成した質問のうち13名に対して,類似した質問を生成する。
- 参考スコア(独自算出の注目度): 5.514898809623543
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: What are the latent questions on some textual data? In this work, we
investigate using question generation models for exploring a collection of
documents. Our method, dubbed corpus2question, consists of applying a
pre-trained question generation model over a corpus and aggregating the
resulting questions by frequency and time. This technique is an alternative to
methods such as topic modelling and word cloud for summarizing large amounts of
textual data. Results show that applying corpus2question on a corpus of
scientific articles related to COVID-19 yields relevant questions about the
topic. The most frequent questions are "what is covid 19" and "what is the
treatment for covid". Among the 1000 most frequent questions are "what is the
threshold for herd immunity" and "what is the role of ace2 in viral entry". We
show that the proposed method generated similar questions for 13 of the 27
expert-made questions from the CovidQA question answering dataset.
The code to reproduce our experiments and the generated questions are
available at: https://github.com/unicamp-dl/corpus2question
- Abstract(参考訳): テキストデータに潜んでいる質問は何ですか?
本研究では,質問生成モデルを用いて文書の集合を探索する。
提案手法は,コーパス上に事前学習した質問生成モデルを適用し,各質問を頻度と時間で集約する。
このテクニックは,大量のテキストデータを要約するためのトピックモデリングやワードクラウドといった手法に代わるものだ。
その結果、covid-19に関連する科学記事のコーパスにcolums2questionを適用すると、そのトピックに関する関連する質問が得られることがわかった。
最も頻繁な質問は、"What is covid 19"と"What is the treatment for covid"である。
もっとも頻繁な質問は「集団免疫のしきい値」と「ウイルス侵入におけるace2の役割は何か」である。
提案手法は,コビッドQA質問応答データセットから27問のうち13問に類似した質問を生成する。
実験を再現するコードと生成された質問は、https://github.com/unicamp-dl/corpus2question.com/で閲覧できます。
関連論文リスト
- PCoQA: Persian Conversational Question Answering Dataset [12.07607688189035]
PCoQAデータセットは、9,026のコンテキスト駆動質問を含む情報検索ダイアログを含むリソースである。
PCoQAは、以前の質問応答データセットと比較して、新しい課題を示すように設計されている。
本稿では,PCoQAデータセットを包括的に提示するだけでなく,各種ベンチマークモデルの性能も報告する。
論文 参考訳(メタデータ) (2023-12-07T15:29:34Z) - LIQUID: A Framework for List Question Answering Dataset Generation [17.86721740779611]
ラベルなしコーパスからリストQAデータセットを生成するためのフレームワークであるLIQUIDを提案する。
まず、ウィキペディアまたはPubMedからの節を要約に変換し、要約されたテキストから名前付きエンティティを候補回答として抽出する。
次に、抽出されたエンティティと元のパスを含む既成の質問生成器を用いて質問を生成する。
合成データを用いて,MultiSpanQAでは5.0点,Quorefでは1.9点,BioASQベンチマークでは2.8点の精度で,過去のベストリストQAモデルの性能を大幅に向上させた。
論文 参考訳(メタデータ) (2023-02-03T12:42:45Z) - Learning to Answer Visual Questions from Web Videos [89.71617065426146]
我々は手動のアノテーションを回避し、ビデオ質問応答のための大規模なトレーニングデータセットを生成することを提案する。
我々は、テキストデータに基づいて訓練された質問生成変換器を利用して、書き起こされたビデオナレーションから質問応答ペアを生成する。
詳細な評価のために、言語バイアスの低減と高品質なマニュアルアノテーションを備えた新しいビデオQAデータセットiVQAを紹介する。
論文 参考訳(メタデータ) (2022-05-10T16:34:26Z) - Discourse Comprehension: A Question Answering Framework to Represent
Sentence Connections [35.005593397252746]
談話理解のためのモデルの構築と評価における重要な課題は、注釈付きデータの欠如である。
本稿では,ニュース文書の理解を目的としたスケーラブルなデータ収集を実現する新しいパラダイムを提案する。
得られたコーパスDCQAは、607の英語文書からなる22,430の質問応答ペアで構成されている。
論文 参考訳(メタデータ) (2021-11-01T04:50:26Z) - TopiOCQA: Open-domain Conversational Question Answeringwith Topic
Switching [11.717296856448566]
トピックスイッチ付きオープンドメイン会話データセットであるTopiOCQAをWikipediaで紹介する。
TopiOCQAには3,920の会話と情報検索の質問と自由形式の回答が含まれている。
我々は、最先端の文書検索手法とニューラルリーダーモデルを組み合わせることで、いくつかのベースラインを評価する。
論文 参考訳(メタデータ) (2021-10-02T09:53:48Z) - CodeQA: A Question Answering Dataset for Source Code Comprehension [82.63394952538292]
コードスニペットと質問が与えられたら、テキストによる回答を生成する必要がある。
CodeQAには、119,778の問合せペアを持つJavaデータセットと、70,085の問合せペアを持つPythonデータセットが含まれている。
論文 参考訳(メタデータ) (2021-09-17T06:06:38Z) - A Dataset of Information-Seeking Questions and Answers Anchored in
Research Papers [66.11048565324468]
1,585の自然言語処理論文に関する5,049の質問のデータセットを提示する。
各質問は、対応する論文のタイトルと要約のみを読むNLP実践者によって書かれ、質問は全文に存在する情報を求めます。
他のQAタスクでうまく機能する既存のモデルは、これらの質問に答える上ではうまく機能せず、論文全体から回答する際には、少なくとも27 F1ポイントパフォーマンスが低下します。
論文 参考訳(メタデータ) (2021-05-07T00:12:34Z) - Just Ask: Learning to Answer Questions from Millions of Narrated Videos [97.44376735445454]
我々は手動のアノテーションを回避し、ビデオ質問応答のための大規模なトレーニングデータセットを生成することを提案する。
我々は、テキストデータに基づいて訓練された質問生成変換器を利用して、書き起こされたビデオナレーションから質問応答ペアを生成する。
本手法は,MSRVTT-QA,MSVD-QA,ActivityNet-QA,How2QAにおいて高い性能を示す。
論文 参考訳(メタデータ) (2020-12-01T12:59:20Z) - The Influence of Domain-Based Preprocessing on Subject-Specific
Clustering [55.41644538483948]
大学におけるオンライン教育の大部分を突然移行させることで、学者の作業負荷が増大した。
この問題に対処するひとつの方法は、トピックに応じてこれらの質問をクラスタ化することです。
本稿では,タグ付けデータセットの領域を探求し,コードの抜粋の同定と経験的結果の提供に焦点をあてる。
論文 参考訳(メタデータ) (2020-11-16T17:47:19Z) - Inquisitive Question Generation for High Level Text Comprehension [60.21497846332531]
InQUISITIVEは、文書を読みながら19K質問を抽出するデータセットである。
我々は,読者が情報を求めるための実践的な戦略に携わることを示す。
我々は, GPT-2に基づく質問生成モデルを評価し, 妥当な質問を生成することができることを示す。
論文 参考訳(メタデータ) (2020-10-04T19:03:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。