論文の概要: Multi-label classification for biomedical literature: an overview of the
BioCreative VII LitCovid Track for COVID-19 literature topic annotations
- arxiv url: http://arxiv.org/abs/2204.09781v1
- Date: Wed, 20 Apr 2022 20:47:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-22 12:59:51.275862
- Title: Multi-label classification for biomedical literature: an overview of the
BioCreative VII LitCovid Track for COVID-19 literature topic annotations
- Title(参考訳): バイオメディカル文献のための多ラベル分類:COVID-19文献トピックアノテーションのためのBioCreative VII LitCovid Trackの概要
- Authors: Qingyu Chen, Alexis Allot, Robert Leaman, Rezarta Islamaj Do\u{g}an,
Jingcheng Du, Li Fang, Wang Kai, Shuo Xu, Yuefu Zhang, Parsa Bagherzadeh,
Sabine Bergler, Aakash Bhatnagar, Nidhir Bhavsar, Yung-Chun Chang, Sheng-Jie
Lin, Wentai Tang, Hongtong Zhang, Ilija Tavchioski, Shubo Tian, Jinfeng
Zhang, Yulia Otmakhova, Antonio Jimeno Yepes, Hang Dong, Honghan Wu, Richard
Dufour, Yanis Labrak, Niladri Chatterjee, Kushagri Tandon, Fr\'ejus Laleye,
Lo\"ic Rakotoson, Emmanuele Chersoni, Jinghang Gu, Annemarie Friedrich,
Subhash Chandra Pujari, Mariia Chizhikova, Naveen Sivadasan, Naveen
Sivadasan, Zhiyong Lu
- Abstract要約: BioCreative LitCovidのトラックは、新型コロナウイルスの文献の自動トピックアノテーションに取り組むコミュニティの努力を求めている。
データセットは3万以上の記事と手動でレビューされたトピックで構成されている。
最高パフォーマンスは0.8875、0.9181、0.9394、マクロF1スコア、マイクロF1スコア、インスタンスベースのF1スコアである。
- 参考スコア(独自算出の注目度): 13.043042862575192
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The COVID-19 pandemic has been severely impacting global society since
December 2019. Massive research has been undertaken to understand the
characteristics of the virus and design vaccines and drugs. The related
findings have been reported in biomedical literature at a rate of about 10,000
articles on COVID-19 per month. Such rapid growth significantly challenges
manual curation and interpretation. For instance, LitCovid is a literature
database of COVID-19-related articles in PubMed, which has accumulated more
than 200,000 articles with millions of accesses each month by users worldwide.
One primary curation task is to assign up to eight topics (e.g., Diagnosis and
Treatment) to the articles in LitCovid. Despite the continuing advances in
biomedical text mining methods, few have been dedicated to topic annotations in
COVID-19 literature. To close the gap, we organized the BioCreative LitCovid
track to call for a community effort to tackle automated topic annotation for
COVID-19 literature. The BioCreative LitCovid dataset, consisting of over
30,000 articles with manually reviewed topics, was created for training and
testing. It is one of the largest multilabel classification datasets in
biomedical scientific literature. 19 teams worldwide participated and made 80
submissions in total. Most teams used hybrid systems based on transformers. The
highest performing submissions achieved 0.8875, 0.9181, and 0.9394 for macro
F1-score, micro F1-score, and instance-based F1-score, respectively. The level
of participation and results demonstrate a successful track and help close the
gap between dataset curation and method development. The dataset is publicly
available via https://ftp.ncbi.nlm.nih.gov/pub/lu/LitCovid/biocreative/ for
benchmarking and further development.
- Abstract(参考訳): 新型コロナウイルスのパンデミックは、2019年12月から世界社会に深刻な影響を与えている。
ウイルスの特徴を理解し、ワクチンや医薬品を設計するための大規模な研究が行われている。
関連する研究は、バイオメディカルの文献で1ヶ月あたり約1万記事のペースで報告されている。
このような急速な成長は、手作業によるキュレーションと解釈に大きく挑戦する。
たとえばlitcovidは、pubmedのcovid-19関連記事のデータベースで、全世界のユーザが毎月数百万のアクセスを持つ20万以上の記事を集めている。
主要なキュレーションの1つは、LitCovidの記事に最大8つのトピック(診断と治療)を割り当てることである。
生物医学的なテキストマイニング手法の進歩にもかかわらず、covid-19文学におけるトピックアノテーションを専門とする者は少ない。
このギャップを埋めるために、私たちはBioCreative LitCovidトラックを組織し、COVID-19文献の自動トピックアノテーションに取り組むコミュニティの取り組みを呼びかけました。
BioCreative LitCovidデータセットは、3万以上の記事と手動でレビューされたトピックで構成され、トレーニングとテストのために作成された。
生物医学的な科学文献において最大のマルチラベル分類データセットの1つである。
全19チームが参加し、合計80試合に出場した。
ほとんどのチームはトランスフォーマーに基づいたハイブリッドシステムを使用した。
最高パフォーマンスは0.8875、0.9181、0.9394、マクロF1スコア、マイクロF1スコア、インスタンスベースのF1スコアである。
参加と結果のレベルは、成功したトラックを示し、データセットのキュレーションとメソッド開発の間のギャップを埋めるのに役立つ。
データセットは https://ftp.ncbi.nlm.nih.gov/pub/lu/LitCovid/biocreative/ で公開されている。
関連論文リスト
- SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [80.49349719239584]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning, SciRIFF)は、54のタスクに対して137Kの命令追従デモのデータセットである。
SciRIFFは、幅広い科学分野の研究文献から情報を抽出し、合成することに焦点を当てた最初のデータセットである。
論文 参考訳(メタデータ) (2024-06-10T21:22:08Z) - BioGPT: Generative Pre-trained Transformer for Biomedical Text
Generation and Mining [140.61707108174247]
本稿では,大規模生物医学文献に基づいて事前学習したドメイン固有生成型トランスフォーマー言語モデルであるBioGPTを提案する。
BC5CDRでは44.98%、38.42%、40.76%のF1スコア、KD-DTIとDDIの関係抽出タスクでは78.2%、PubMedQAでは78.2%の精度が得られた。
論文 参考訳(メタデータ) (2022-10-19T07:17:39Z) - LitMC-BERT: transformer-based multi-label classification of biomedical
literature with an application on COVID-19 literature curation [6.998726118579193]
本研究では,生物医学文献におけるトランスフォーマーを用いた多ラベル分類手法であるLITMC-BERTを提案する。
すべてのラベルに共有トランスフォーマーのバックボーンを使用し、ラベル固有の特徴とラベルペア間の相関をキャプチャする。
マイクロF1とインスタンスベースのF1は、それぞれ現在の最良の結果よりも5%と4%高い。
論文 参考訳(メタデータ) (2022-04-19T04:03:45Z) - Domain-Specific Pretraining for Vertical Search: Case Study on
Biomedical Literature [67.4680600632232]
自己教師型学習は、アノテーションのボトルネックを克服するための有望な方向として現れました。
本稿では,ドメイン固有の事前学習に基づく垂直探索手法を提案する。
我々のシステムはPubMed上で何千万もの記事にスケールでき、Microsoft Biomedical Searchとしてデプロイされている。
論文 参考訳(メタデータ) (2021-06-25T01:02:55Z) - Navigating the landscape of COVID-19 research through literature
analysis: A bird's eye view [11.362549790802483]
我々は、2020年5月15日時点でPubMedで見つかった13,369のCOVID-19関連記事、LitCovidコレクションを分析した。
我々は、最先端のエンティティ認識、分類、クラスタリング、その他のNLP技術を適用する。
クラスタリングアルゴリズムは,関連用語群で表されるトピックを識別し,関連する文書に対応するクラスタを算出する。
論文 参考訳(メタデータ) (2020-08-07T23:39:29Z) - A System for Worldwide COVID-19 Information Aggregation [92.60866520230803]
我々は、トピックによって分類された7言語10の地域から信頼できる記事を含む世界的な新型コロナウイルス情報収集システムを構築した。
ニューラルマシン翻訳モジュールは、他言語の論文を日本語と英語に翻訳する。
記事とトピックのペアデータセットに基づいてトレーニングされたBERTベースのトピック分類器は、ユーザが興味のある情報を効率的に見つけるのに役立つ。
論文 参考訳(メタデータ) (2020-07-28T01:33:54Z) - Coronavirus Knowledge Graph: A Case Study [4.646516629534201]
我々は、新型コロナウイルス関連の専門家やバイオエンティティを特定するために、機械学習、ディープラーニング、知識グラフの構築とマイニング技術をいくつか使用しています。
関連疾患,薬物候補,遺伝子,遺伝子変異,関連化合物の予測手法を提案する。
論文 参考訳(メタデータ) (2020-07-04T03:55:31Z) - COVID-19 Literature Knowledge Graph Construction and Drug Repurposing
Report Generation [79.33545724934714]
我々は,学術文献から微細なマルチメディア知識要素を抽出する,新しい包括的知識発見フレームワークであるCOVID-KGを開発した。
我々のフレームワークはまた、証拠として詳細な文脈文、サブフィギュア、知識のサブグラフも提供します。
論文 参考訳(メタデータ) (2020-07-01T16:03:20Z) - CO-Search: COVID-19 Information Retrieval with Semantic Search, Question
Answering, and Abstractive Summarization [53.67205506042232]
CO-Searchは、新型コロナウイルスの文献上の複雑なクエリを処理するように設計された、レトリバーランサーセマンティック検索エンジンである。
ドメイン固有の比較的限られたデータセットを考慮し、文書の段落と引用の2部グラフを生成する。
TREC-COVID情報検索課題のデータに基づいて,本システムの評価を行った。
論文 参考訳(メタデータ) (2020-06-17T01:32:48Z) - Document Classification for COVID-19 Literature [15.458071120159307]
本稿では,LitCovidデータセットを用いた複数ラベル文書分類モデルの解析を行う。
トレーニング済みの言語モデルは、このデータセットで微調整され、他のすべてのベースラインより優れています。
また、LitCovidドキュメント上で最高のパフォーマンスモデルによって作成された50のエラーについても調べる。
論文 参考訳(メタデータ) (2020-06-15T20:03:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。