論文の概要: LitMC-BERT: transformer-based multi-label classification of biomedical
literature with an application on COVID-19 literature curation
- arxiv url: http://arxiv.org/abs/2204.08649v1
- Date: Tue, 19 Apr 2022 04:03:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-20 13:12:16.171922
- Title: LitMC-BERT: transformer-based multi-label classification of biomedical
literature with an application on COVID-19 literature curation
- Title(参考訳): LitMC-BERT : トランスフォーマーを用いたバイオメディカル文献の多ラベル分類とCOVID-19文献キュレーションへの応用
- Authors: Qingyu Chen, Jingcheng Du, Alexis Allot, and Zhiyong Lu
- Abstract要約: 本研究では,生物医学文献におけるトランスフォーマーを用いた多ラベル分類手法であるLITMC-BERTを提案する。
すべてのラベルに共有トランスフォーマーのバックボーンを使用し、ラベル固有の特徴とラベルペア間の相関をキャプチャする。
マイクロF1とインスタンスベースのF1は、それぞれ現在の最良の結果よりも5%と4%高い。
- 参考スコア(独自算出の注目度): 6.998726118579193
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid growth of biomedical literature poses a significant challenge for
curation and interpretation. This has become more evident during the COVID-19
pandemic. LitCovid, a literature database of COVID-19 related papers in PubMed,
has accumulated over 180,000 articles with millions of accesses. Approximately
10,000 new articles are added to LitCovid every month. A main curation task in
LitCovid is topic annotation where an article is assigned with up to eight
topics, e.g., Treatment and Diagnosis. The annotated topics have been widely
used both in LitCovid (e.g., accounting for ~18% of total uses) and downstream
studies such as network generation. However, it has been a primary curation
bottleneck due to the nature of the task and the rapid literature growth. This
study proposes LITMC-BERT, a transformer-based multi-label classification
method in biomedical literature. It uses a shared transformer backbone for all
the labels while also captures label-specific features and the correlations
between label pairs. We compare LITMC-BERT with three baseline models on two
datasets. Its micro-F1 and instance-based F1 are 5% and 4% higher than the
current best results, respectively, and only requires ~18% of the inference
time than the Binary BERT baseline. The related datasets and models are
available via https://github.com/ncbi/ml-transformer.
- Abstract(参考訳): 生物医学文学の急速な成長は、キュレーションと解釈にとって重要な課題である。
これは新型コロナウイルス(covid-19)のパンデミックでより顕著になった。
COVID-19関連論文の文献データベースであるLitCovidは、数百万のアクセスを持つ180,000以上の記事を蓄積している。
毎月約10,000の新しい記事がLitCovidに追加されている。
LitCovidの主なキュレーションタスクはトピックアノテーションであり、記事には治療と診断の8つのトピックが割り当てられている。
注釈付きトピックは、litcovid(総使用量の約18%を占める)と、ネットワーク生成などの下流研究の両方で広く使われている。
しかし,課題の性質や文献の急速な成長により,キュレーションのボトルネックとなっている。
本研究では,生物医学文献におけるトランスフォーマーを用いた多ラベル分類手法であるLITMC-BERTを提案する。
すべてのラベルに共有トランスフォーマーのバックボーンを使用し、ラベル固有の特徴とラベルペア間の相関をキャプチャする。
LITMC-BERTを2つのデータセット上の3つのベースラインモデルと比較する。
マイクロF1とインスタンスベースのF1は、それぞれ現在の最良の結果よりも5%と4%高く、Binary BERTベースラインよりも推論時間の約18%しか必要としない。
関連するデータセットとモデルは、https://github.com/ncbi/ml-transformerで入手できる。
関連論文リスト
- Improving Extraction of Clinical Event Contextual Properties from Electronic Health Records: A Comparative Study [2.0884301753594334]
本研究は,医学テキスト分類のための様々な自然言語モデルの比較分析を行う。
BERTはBi-LSTMモデルを最大28%、ベースラインのBERTモデルを最大16%上回り、マイノリティクラスをリコールする。
論文 参考訳(メタデータ) (2024-08-30T10:28:49Z) - Med-Flamingo: a Multimodal Medical Few-shot Learner [58.85676013818811]
医療領域に適応したマルチモーダル・数ショット学習者であるMed-Flamingoを提案する。
OpenFlamingo-9Bに基づいて、出版物や教科書からの医療画像テキストデータのペア化とインターリーブ化を継続する。
本研究は,医療用VQA(ジェネレーティブ医療用VQA)の最初の人間評価である。
論文 参考訳(メタデータ) (2023-07-27T20:36:02Z) - PGB: A PubMed Graph Benchmark for Heterogeneous Network Representation
Learning [5.747361083768407]
バイオメディカル文献のための異種グラフ埋め込み評価のための新しいベンチマークであるPubMed Graph Benchmark (PGB)を紹介する。
ベンチマークには、抽象的な著者、引用、MeSH階層、MeSH階層、その他の情報を含む豊富なメタデータが含まれている。
論文 参考訳(メタデータ) (2023-05-04T10:09:08Z) - BiomedCLIP: a multimodal biomedical foundation model pretrained from
fifteen million scientific image-text pairs [48.376109878173956]
PMC-15Mは,既存のバイオメディカル・マルチモーダル・データセットよりも2桁大きい新しいデータセットである。
PMC-15Mは440万の科学論文から収集された1500万のバイオメディカル画像テキスト対を含んでいる。
PMC-15Mに基づいて,生物医学的視覚言語処理に適したドメイン固有適応を備えた多モーダル基礎モデルであるBiomedCLIPを事前訓練した。
論文 参考訳(メタデータ) (2023-03-02T02:20:04Z) - Lightweight Transformers for Clinical Natural Language Processing [9.532776962985828]
本研究は,臨床テキスト処理のためのコンパクト言語モデルの開発に焦点をあてる。
知識蒸留と連続学習を用いた多種多様な軽量臨床用変圧器を開発した。
評価はいくつかの標準データセットにまたがって行われ、幅広い臨床テキストマイニングタスクをカバーした。
論文 参考訳(メタデータ) (2023-02-09T16:07:31Z) - Multi-label classification for biomedical literature: an overview of the
BioCreative VII LitCovid Track for COVID-19 literature topic annotations [13.043042862575192]
BioCreative LitCovidのトラックは、新型コロナウイルスの文献の自動トピックアノテーションに取り組むコミュニティの努力を求めている。
データセットは3万以上の記事と手動でレビューされたトピックで構成されている。
最高パフォーマンスは0.8875、0.9181、0.9394、マクロF1スコア、マイクロF1スコア、インスタンスベースのF1スコアである。
論文 参考訳(メタデータ) (2022-04-20T20:47:55Z) - Discovering Drug-Target Interaction Knowledge from Biomedical Literature [107.98712673387031]
人体における薬物と標的(DTI)の相互作用は、生物医学や応用において重要な役割を担っている。
毎年何百万もの論文がバイオメディカル分野で出回っているので、文学からDTIの知識を自動的に発見することは、業界にとって急激な需要となっている。
生成的アプローチを用いて,この課題に対する最初のエンドツーエンドソリューションについて検討する。
我々はDTI三重項をシーケンスとみなし、Transformerベースのモデルを使ってエンティティや関係の詳細なアノテーションを使わずに直接生成する。
論文 参考訳(メタデータ) (2021-09-27T17:00:14Z) - Domain-Specific Pretraining for Vertical Search: Case Study on
Biomedical Literature [67.4680600632232]
自己教師型学習は、アノテーションのボトルネックを克服するための有望な方向として現れました。
本稿では,ドメイン固有の事前学習に基づく垂直探索手法を提案する。
我々のシステムはPubMed上で何千万もの記事にスケールでき、Microsoft Biomedical Searchとしてデプロイされている。
論文 参考訳(メタデータ) (2021-06-25T01:02:55Z) - Students Need More Attention: BERT-based AttentionModel for Small Data
with Application to AutomaticPatient Message Triage [65.7062363323781]
BioBERT (Bidirectional Representations from Transformers for Biomedical Text Mining) に基づく新しいフレームワークを提案する。
LESA-BERTと呼ぶBERTの各層にラベル埋め込みを導入し、(ii)LESA-BERTを小さな変種に蒸留することにより、小さなデータセットで作業する際のオーバーフィッティングとモデルサイズを低減することを目指す。
アプリケーションとして,本フレームワークを用いて,患者ポータルメッセージトリアージのモデルを構築し,メッセージの緊急度を非緊急度,中度度,緊急度という3つのカテゴリに分類する。
論文 参考訳(メタデータ) (2020-06-22T03:39:00Z) - CO-Search: COVID-19 Information Retrieval with Semantic Search, Question
Answering, and Abstractive Summarization [53.67205506042232]
CO-Searchは、新型コロナウイルスの文献上の複雑なクエリを処理するように設計された、レトリバーランサーセマンティック検索エンジンである。
ドメイン固有の比較的限られたデータセットを考慮し、文書の段落と引用の2部グラフを生成する。
TREC-COVID情報検索課題のデータに基づいて,本システムの評価を行った。
論文 参考訳(メタデータ) (2020-06-17T01:32:48Z) - Document Classification for COVID-19 Literature [15.458071120159307]
本稿では,LitCovidデータセットを用いた複数ラベル文書分類モデルの解析を行う。
トレーニング済みの言語モデルは、このデータセットで微調整され、他のすべてのベースラインより優れています。
また、LitCovidドキュメント上で最高のパフォーマンスモデルによって作成された50のエラーについても調べる。
論文 参考訳(メタデータ) (2020-06-15T20:03:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。