論文の概要: Document Classification for COVID-19 Literature
- arxiv url: http://arxiv.org/abs/2006.13816v2
- Date: Wed, 9 Sep 2020 21:58:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 04:45:58.720715
- Title: Document Classification for COVID-19 Literature
- Title(参考訳): 新型コロナウイルスの文献分類
- Authors: Bernal Jim\'enez Guti\'errez, Juncheng Zeng, Dongdong Zhang, Ping
Zhang, Yu Su
- Abstract要約: 本稿では,LitCovidデータセットを用いた複数ラベル文書分類モデルの解析を行う。
トレーニング済みの言語モデルは、このデータセットで微調整され、他のすべてのベースラインより優れています。
また、LitCovidドキュメント上で最高のパフォーマンスモデルによって作成された50のエラーについても調べる。
- 参考スコア(独自算出の注目度): 15.458071120159307
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The global pandemic has made it more important than ever to quickly and
accurately retrieve relevant scientific literature for effective consumption by
researchers in a wide range of fields. We provide an analysis of several
multi-label document classification models on the LitCovid dataset, a growing
collection of 23,000 research papers regarding the novel 2019 coronavirus. We
find that pre-trained language models fine-tuned on this dataset outperform all
other baselines and that BioBERT surpasses the others by a small margin with
micro-F1 and accuracy scores of around 86% and 75% respectively on the test
set. We evaluate the data efficiency and generalizability of these models as
essential features of any system prepared to deal with an urgent situation like
the current health crisis. Finally, we explore 50 errors made by the best
performing models on LitCovid documents and find that they often (1) correlate
certain labels too closely together and (2) fail to focus on discriminative
sections of the articles; both of which are important issues to address in
future work. Both data and code are available on GitHub.
- Abstract(参考訳): 世界的なパンデミックは、さまざまな分野の研究者が効果的に消費するために、関連する科学文献を迅速かつ正確に回収することが、これまで以上に重要になっている。
本稿は,2019年の新型コロナウイルスに関する23,000の研究論文集であるlitcovid dataset上で,複数ラベルの文書分類モデルの解析を行う。
このデータセット上で事前学習された言語モデルは、他のすべてのベースラインより優れており、BioBERTは、マイクロF1と精度スコアが約86%、75%の小さなマージンで他より優れている。
我々は、これらのモデルのデータの効率性と一般化性を、現在の健康危機のような緊急状況に対処するためのシステムの基本的特徴として評価する。
最後に,リトコビッド文書上での最良の実行モデルによる50の誤りについて検討し,(1)特定のラベルを密接に関連付けすぎ,(2)記事の判別的セクションに焦点を合わせていないこと,(2)将来の作業において対処すべき重要な課題である。
データとコードの両方がgithubから入手できる。
関連論文リスト
- Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - ScholarChemQA: Unveiling the Power of Language Models in Chemical Research Question Answering [54.80411755871931]
質問回答(QA)は、言語モデルの推論と知識の深さを効果的に評価する。
化学QAは、複雑な化学情報を理解しやすい形式に効果的に翻訳することで、教育と研究の両方において重要な役割を担っている。
このデータセットは、不均衡なデータ分散や、潜在的に有用である可能性のあるかなりの量の未ラベルデータを含む、典型的な現実世界の課題を反映している。
収集したデータを完全に活用して,化学的な問題に効果的に答えるQAMatchモデルを提案する。
論文 参考訳(メタデータ) (2024-07-24T01:46:55Z) - SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [80.49349719239584]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning, SciRIFF)は、54のタスクに対して137Kの命令追従デモのデータセットである。
SciRIFFは、幅広い科学分野の研究文献から情報を抽出し、合成することに焦点を当てた最初のデータセットである。
論文 参考訳(メタデータ) (2024-06-10T21:22:08Z) - Enriched BERT Embeddings for Scholarly Publication Classification [0.13654846342364302]
NSLP 2024 FoRC Task Iは、競争として組織されたこの課題に対処する。
目的は、ある論文に対する研究分野の分類法であるOpen Research Knowledge Graph (ORKG) から、123の事前定義されたクラスのうちの1つを予測することができる分類器を開発することである。
論文 参考訳(メタデータ) (2024-05-07T09:05:20Z) - Good Data, Large Data, or No Data? Comparing Three Approaches in
Developing Research Aspect Classifiers for Biomedical Papers [19.1408856831043]
クラウドアノテートされたCODA-19研究アスペクト分類タスクにおいて,異なるデータセットがモデル性能に与える影響について検討した。
その結果,PubMed 200K RCTデータセットではCODA-19タスクの性能が向上しないことがわかった。
論文 参考訳(メタデータ) (2023-06-07T22:56:53Z) - FActScore: Fine-grained Atomic Evaluation of Factual Precision in Long
Form Text Generation [176.56131810249602]
大規模言語モデル(LM)が生成する長文の事実性を評価することは簡単ではない。
FACTSCOREは、世代を一連の原子事実に分解し、信頼できる知識ソースによって支持される原子事実の割合を計算する新しい評価手法である。
論文 参考訳(メタデータ) (2023-05-23T17:06:00Z) - Multi-label classification for biomedical literature: an overview of the
BioCreative VII LitCovid Track for COVID-19 literature topic annotations [13.043042862575192]
BioCreative LitCovidのトラックは、新型コロナウイルスの文献の自動トピックアノテーションに取り組むコミュニティの努力を求めている。
データセットは3万以上の記事と手動でレビューされたトピックで構成されている。
最高パフォーマンスは0.8875、0.9181、0.9394、マクロF1スコア、マイクロF1スコア、インスタンスベースのF1スコアである。
論文 参考訳(メタデータ) (2022-04-20T20:47:55Z) - LitMC-BERT: transformer-based multi-label classification of biomedical
literature with an application on COVID-19 literature curation [6.998726118579193]
本研究では,生物医学文献におけるトランスフォーマーを用いた多ラベル分類手法であるLITMC-BERTを提案する。
すべてのラベルに共有トランスフォーマーのバックボーンを使用し、ラベル固有の特徴とラベルペア間の相関をキャプチャする。
マイクロF1とインスタンスベースのF1は、それぞれ現在の最良の結果よりも5%と4%高い。
論文 参考訳(メタデータ) (2022-04-19T04:03:45Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - Predicting Clinical Diagnosis from Patients Electronic Health Records
Using BERT-based Neural Networks [62.9447303059342]
医療コミュニティにおけるこの問題の重要性を示す。
本稿では,変換器 (BERT) モデルによる2方向表現の分類順序の変更について述べる。
約400万人のユニークな患者訪問からなる、大規模なロシアのEHRデータセットを使用します。
論文 参考訳(メタデータ) (2020-07-15T09:22:55Z) - Exemplar Auditing for Multi-Label Biomedical Text Classification [0.4873362301533824]
我々は、最近提案されたゼロショットシーケンスラベリング手法「畳み込み分解による教師付きラベリング」を一般化する。
この手法は"イントロスペクション(introspection)"と分類され、推論時間予測のきめ細かい特徴を最も近い隣人に関連付ける。
提案手法は,医療従事者に対して,モデルの予測を駆動する健全な特徴を理解する上で,競争力のある分類モデルと尋問メカニズムの両方を提供する。
論文 参考訳(メタデータ) (2020-04-07T02:54:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。