論文の概要: Constructing the CORD-19 Vaccine Dataset
- arxiv url: http://arxiv.org/abs/2407.18471v1
- Date: Fri, 26 Jul 2024 02:44:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-29 14:39:47.842453
- Title: Constructing the CORD-19 Vaccine Dataset
- Title(参考訳): CORD-19ワクチンデータセットの構築
- Authors: Manisha Singh, Divy Sharma, Alonso Ma, Bridget Tyree, Margaret Mitchell,
- Abstract要約: 我々は、新型コロナウイルスに関する研究を専門とする科学者を対象に、新しいデータセット「CORD-19-Vaccination」を紹介した。
このデータセットは、CORD-19データセットから抽出され、言語の詳細、著者のデモグラフィ、キーワード、論文ごとのトピックのための新しいカラムで拡張される。
- 参考スコア(独自算出の注目度): 1.986689544042807
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce new dataset 'CORD-19-Vaccination' to cater to scientists specifically looking into COVID-19 vaccine-related research. This dataset is extracted from CORD-19 dataset [Wang et al., 2020] and augmented with new columns for language detail, author demography, keywords, and topic per paper. Facebook's fastText model is used to identify languages [Joulin et al., 2016]. To establish author demography (author affiliation, lab/institution location, and lab/institution country columns) we processed the JSON file for each paper and then further enhanced using Google's search API to determine country values. 'Yake' was used to extract keywords from the title, abstract, and body of each paper and the LDA (Latent Dirichlet Allocation) algorithm was used to add topic information [Campos et al., 2020, 2018a,b]. To evaluate the dataset, we demonstrate a question-answering task like the one used in the CORD-19 Kaggle challenge [Goldbloom et al., 2022]. For further evaluation, sequential sentence classification was performed on each paper's abstract using the model from Dernoncourt et al. [2016]. We partially hand annotated the training dataset and used a pre-trained BERT-PubMed layer. 'CORD- 19-Vaccination' contains 30k research papers and can be immensely valuable for NLP research such as text mining, information extraction, and question answering, specific to the domain of COVID-19 vaccine research.
- Abstract(参考訳): 我々は、新型コロナウイルスに関する研究を専門とする科学者を対象に、新しいデータセット「CORD-19-Vaccination」を紹介した。
このデータセットは CORD-19 データセット [Wang et al , 2020] から抽出され,言語の詳細や著者のデモグラフィ,キーワード,論文毎のトピックなどの新たなコラムで拡張されている。
FacebookのfastTextモデルは、[Joulin et al , 2016]言語を識別するために使用される。
著者のデモグラフィ(著者のアフィリエイト、ラボ/機関位置、ラボ/機関のカントリーカラム)を確立するために、各論文のJSONファイルを処理し、さらにGoogleの検索APIを使用して国価を判定しました。
各論文の題名、要約、体からキーワードを抽出するために「やけ」を用い、トピック情報(Campos et al , 2020, 2018a, b)をLDAアルゴリズムで追加した。
このデータセットを評価するために, CORD-19 Kaggle Challenge [Goldbloom et al , 2022] で使用されているような質問応答タスクを実演する。
さらに評価するために,Dernoncourt et al [2016] のモデルを用いて,各論文の要約に逐次文分類を行った。
トレーニングデータセットの一部を手作業でアノテートし,事前トレーニングしたBERT-PubMedレイヤを使用した。
「CORD-19ワクチン接種」には30万件の研究論文が含まれており、テキストマイニング、情報抽出、質問応答など、新型コロナウイルスワクチン研究の領域に特有なNLP研究に非常に有用である。
関連論文リスト
- SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [80.49349719239584]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning, SciRIFF)は、54のタスクに対して137Kの命令追従デモのデータセットである。
SciRIFFは、幅広い科学分野の研究文献から情報を抽出し、合成することに焦点を当てた最初のデータセットである。
論文 参考訳(メタデータ) (2024-06-10T21:22:08Z) - Cross-lingual Contextualized Phrase Retrieval [63.80154430930898]
そこで本研究では,言語間関係の単語検索を多義的に行うタスクの定式化を提案する。
我々は、コントラスト学習を用いて、言語間コンテクスト対応句検索(CCPR)を訓練する。
フレーズ検索タスクでは、CCPRはベースラインをかなり上回り、少なくとも13ポイント高いトップ1の精度を達成する。
論文 参考訳(メタデータ) (2024-03-25T14:46:51Z) - Good Data, Large Data, or No Data? Comparing Three Approaches in
Developing Research Aspect Classifiers for Biomedical Papers [19.1408856831043]
クラウドアノテートされたCODA-19研究アスペクト分類タスクにおいて,異なるデータセットがモデル性能に与える影響について検討した。
その結果,PubMed 200K RCTデータセットではCODA-19タスクの性能が向上しないことがわかった。
論文 参考訳(メタデータ) (2023-06-07T22:56:53Z) - COVID-19 Literature Mining and Retrieval using Text Mining Approaches [0.0]
新型コロナウイルス感染症(COVID-19)は2019年後半に武漢で発生し、これまでに全世界で1億4800万人以上が感染している。
多くの学者や研究者が、covid-19に関する最新の発見を説明する論文を公表し始めた。
提案モデルでは,研究論文の大規模コーパスから残酷なタイトルを抽出しようと試みている。
論文 参考訳(メタデータ) (2022-05-29T22:34:19Z) - Neural Content Extraction for Poster Generation of Scientific Papers [84.30128728027375]
科学論文のポスター生成の問題は未解明である。
これまでの研究は主にポスターレイアウトとパネル構成に重点を置いていたが、コンテンツ抽出の重要性は無視された。
ポスターパネルのテキスト要素と視覚要素の両方を得るために,紙セクションのテキスト,図形,テーブルを同時に抽出するニューラル抽出モデルを提案する。
論文 参考訳(メタデータ) (2021-12-16T01:19:37Z) - Unsupervised Text Mining of COVID-19 Records [0.0]
Twitterは、研究者が新型コロナウイルス(COVID-19)に反応して公衆衛生を測定するのに役立つ強力なツールだ。
本稿は、CORD-19と命名された新型コロナウイルスに関する既存の医療データセットを前処理し、教師付き分類タスクのためのデータセットを注釈付けした。
論文 参考訳(メタデータ) (2021-09-08T05:57:22Z) - COVID-19 Named Entity Recognition for Vietnamese [6.17059264011429]
ベトナムで最初の手作業によるcovid-19ドメイン固有データセットについて紹介する。
私たちのデータセットは、新たに定義されたエンティティタイプを持つ名前付きエンティティ認識タスクにアノテートされます。
当社のデータセットには、既存のベトナムのNERデータセットと比較して最大数のエンティティが含まれています。
論文 参考訳(メタデータ) (2021-04-08T16:35:34Z) - Text Mining to Identify and Extract Novel Disease Treatments From
Unstructured Datasets [56.38623317907416]
Google Cloudを使って、NPRラジオ番組のポッドキャストのエピソードを書き起こします。
次に、テキストを体系的に前処理するためのパイプラインを構築します。
我々のモデルは、Omeprazoleが心臓熱傷の治療に役立てることに成功しました。
論文 参考訳(メタデータ) (2020-10-22T19:52:49Z) - CO-Search: COVID-19 Information Retrieval with Semantic Search, Question
Answering, and Abstractive Summarization [53.67205506042232]
CO-Searchは、新型コロナウイルスの文献上の複雑なクエリを処理するように設計された、レトリバーランサーセマンティック検索エンジンである。
ドメイン固有の比較的限られたデータセットを考慮し、文書の段落と引用の2部グラフを生成する。
TREC-COVID情報検索課題のデータに基づいて,本システムの評価を行った。
論文 参考訳(メタデータ) (2020-06-17T01:32:48Z) - Rapidly Bootstrapping a Question Answering Dataset for COVID-19 [88.86456834766288]
我々は、新型コロナウイルスに特化して設計された質問応答データセットの始まりであるCovidQAを紹介する。
これは、そのタイプの最初の公開リソースであり、より実質的な評価資源が利用可能になるまで研究を導くためのストップギャップとして意図されている。
論文 参考訳(メタデータ) (2020-04-23T17:35:11Z) - CORD-19: The COVID-19 Open Research Dataset [28.556291682259477]
CORD-19は、新型コロナウイルスとその関連歴史的研究に関する科学論文の資源が増えている。
CORD-19はリリース以来、200万回以上ダウンロードされ、多くのCOVID-19テキストマイニングおよび発見システムの基盤となっている。
論文 参考訳(メタデータ) (2020-04-22T17:10:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。