論文の概要: EasyNER: A Customizable Easy-to-Use Pipeline for Deep Learning- and
Dictionary-based Named Entity Recognition from Medical Text
- arxiv url: http://arxiv.org/abs/2304.07805v1
- Date: Sun, 16 Apr 2023 15:17:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-18 17:21:50.908401
- Title: EasyNER: A Customizable Easy-to-Use Pipeline for Deep Learning- and
Dictionary-based Named Entity Recognition from Medical Text
- Title(参考訳): EasyNER: 医用テキストからの深層学習と辞書に基づく名前付きエンティティ認識のためのカスタマイズ可能な使いやすいパイプライン
- Authors: Rafsan Ahmed, Petter Berntsson, Alexander Skafte, Salma Kazemi Rashed,
Marcus Klang, Adam Barvesten, Ola Olde, William Lindholm, Antton Lamarca
Arrizabalaga, Pierre Nugues, Sonja Aits
- Abstract要約: 我々は医学研究論文に見られる典型的なNERのエンドツーエンドパイプラインについて述べる。
パイプラインは、大規模な医学研究論文コレクションにアクセスし、処理することができる。
新型コロナウイルスやその他の医療トピックに関連する辞書ベースのNERを実行することができる。
- 参考スコア(独自算出の注目度): 45.82374977939355
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Medical research generates a large number of publications with the PubMed
database already containing >35 million research articles. Integration of the
knowledge scattered across this large body of literature could provide key
insights into physiological mechanisms and disease processes leading to novel
medical interventions. However, it is a great challenge for researchers to
utilize this information in full since the scale and complexity of the data
greatly surpasses human processing abilities. This becomes especially
problematic in cases of extreme urgency like the COVID-19 pandemic. Automated
text mining can help extract and connect information from the large body of
medical research articles. The first step in text mining is typically the
identification of specific classes of keywords (e.g., all protein or disease
names), so called Named Entity Recognition (NER). Here we present an end-to-end
pipeline for NER of typical entities found in medical research articles,
including diseases, cells, chemicals, genes/proteins, and species. The pipeline
can access and process large medical research article collections (PubMed,
CORD-19) or raw text and incorporates a series of deep learning models
fine-tuned on the HUNER corpora collection. In addition, the pipeline can
perform dictionary-based NER related to COVID-19 and other medical topics.
Users can also load their own NER models and dictionaries to include additional
entities. The output consists of publication-ready ranked lists and graphs of
detected entities and files containing the annotated texts. An associated
script allows rapid inspection of the results for specific entities of
interest. As model use cases, the pipeline was deployed on two collections of
autophagy-related abstracts from PubMed and on the CORD19 dataset, a collection
of 764 398 research article abstracts related to COVID-19.
- Abstract(参考訳): 医学研究は、既に3500万以上の研究論文を含むPubMedデータベースで多数の出版物を生成する。
この膨大な文献に散在する知識の統合は、新しい医学的介入につながる生理的メカニズムと疾患の過程に関する重要な洞察を与える可能性がある。
しかし、データの規模と複雑さが人間の処理能力を大きく超えるため、研究者にとってこの情報を完全に活用することは大きな課題である。
新型コロナウイルス(covid-19)パンデミックのような極端な緊急性の場合、これは特に問題となる。
自動テキストマイニングは、大量の医学研究記事から情報を抽出し、接続するのに役立ちます。
テキストマイニングの最初のステップは、通常、名前付きエンティティ認識(NER)と呼ばれる特定のキーワードのクラス(例えば、すべてのタンパク質や病名)の識別である。
本稿では, 疾患, 細胞, 化学物質, 遺伝子, タンパク質, 種など, 医学研究論文の典型的実体のエンドツーエンドパイプラインについて述べる。
このパイプラインは、大規模な医学研究論文コレクション(PubMed、CORD-19)または原文にアクセスおよび処理することができ、HUNERコーパスコレクションに微調整された一連のディープラーニングモデルを組み込むことができる。
さらに、このパイプラインはcovid-19やその他の医学的トピックに関連する辞書ベースのnerを実行できる。
ユーザーは独自のNERモデルや辞書をロードして追加エンティティを含めることもできる。
出力は、検出されたエンティティと注釈付きテキストを含むファイルの公開可能なランクリストとグラフで構成されている。
関連するスクリプトは、特定の興味のあるエンティティに対する結果の迅速な検査を可能にする。
モデルユースケースとして、パイプラインはPubMedと、COVID-19に関連する764の398研究論文の集合であるCORD19データセットの2つのオートファジー関連抽象化にデプロイされた。
関連論文リスト
- Facilitating phenotyping from clinical texts: the medkit library [1.7924255866089314]
Phenotypingは、特定の、潜在的に複雑な、特性または状態に関連する個人を特定するアルゴリズムを適用することで構成される。
EHRの臨床的情報の多くはテキストに埋もれているため、EHRの二次的使用に依存する研究において、テキストからの表現が重要な役割を担っている。
我々は,表現型パイプラインの開発,評価,再現性を促進するために,medkitというオープンソースのPythonライブラリを開発した。
論文 参考訳(メタデータ) (2024-08-30T16:54:06Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - High-throughput Biomedical Relation Extraction for Semi-Structured Web Articles Empowered by Large Language Models [1.9665865095034865]
関係抽出タスクを大言語モデルのバイナリ分類として定式化する。
メインタイトルをテールエンティティとして指定し、コンテキストに明示的に組み込む。
長い内容はテキストチャンクにスライスされ、埋め込みされ、追加の埋め込みモデルで検索される。
論文 参考訳(メタデータ) (2023-12-13T16:43:41Z) - CARE: Extracting Experimental Findings From Clinical Literature [29.763929941107616]
本研究は,臨床所見抽出のための新しいIEデータセットであるCAREを提示する。
我々は,エンティティと属性間のn-ary関係として微細な発見をキャプチャする新しいアノテーションスキーマを開発した。
臨床治験と症例報告の2つの資料から,700件の要約の広範な注釈を収集した。
論文 参考訳(メタデータ) (2023-11-16T10:06:19Z) - Integrating curation into scientific publishing to train AI models [1.6982459897303823]
我々は,複数モーダルデータキュレーションを学術出版プロセスに組み込んで,セグメント化された図形パネルやキャプションに注釈を付ける。
SourceData-NLPというデータセットには、620,000以上の注釈付きバイオメディカルエンティティが含まれている。
我々は、名前付き認識、図形キャプションを構成パネルに分割すること、コンテキスト依存型セマンティックタスクを用いて、AIモデルをトレーニングするためのデータセットの有用性を評価する。
論文 参考訳(メタデータ) (2023-10-31T13:22:38Z) - Descriptive Knowledge Graph in Biomedical Domain [26.91431888505873]
本稿では,バイオメディカルコーパスから情報文や記述文を自動的に抽出し,生成する新しいシステムを提案する。
接続されていない経路を検索する従来の検索エンジンや探索システムとは異なり,本システムは記述文をグラフとして整理する。
新型コロナウイルス研究における本システムの適用に着目し,薬物再資源化や文献キュレーションなどの分野における実用性について考察した。
論文 参考訳(メタデータ) (2023-10-18T03:10:25Z) - DiscoverPath: A Knowledge Refinement and Retrieval System for
Interdisciplinarity on Biomedical Research [96.10765714077208]
従来のキーワードベースの検索エンジンは、特定の用語に慣れていないユーザーを支援するのに不足している。
本稿では, バイオメディカル研究のための知識グラフに基づく紙検索エンジンを提案し, ユーザエクスペリエンスの向上を図る。
DiscoverPathと呼ばれるこのシステムは、名前付きエンティティ認識(NER)とPOSタグを使って、記事の要約から用語や関係を抽出し、KGを作成する。
論文 参考訳(メタデータ) (2023-09-04T20:52:33Z) - EBOCA: Evidences for BiOmedical Concepts Association Ontology [55.41644538483948]
本論文は,生物医学領域の概念とそれらの関連性を記述するオントロジーであるEBOCAと,それらの関連性を支持するエビデンスを提案する。
DISNETのサブセットから得られるテストデータとテキストからの自動アソシエーション抽出が変換され、実際のシナリオで使用できる知識グラフが作成されるようになった。
論文 参考訳(メタデータ) (2022-08-01T18:47:03Z) - Discovering Drug-Target Interaction Knowledge from Biomedical Literature [107.98712673387031]
人体における薬物と標的(DTI)の相互作用は、生物医学や応用において重要な役割を担っている。
毎年何百万もの論文がバイオメディカル分野で出回っているので、文学からDTIの知識を自動的に発見することは、業界にとって急激な需要となっている。
生成的アプローチを用いて,この課題に対する最初のエンドツーエンドソリューションについて検討する。
我々はDTI三重項をシーケンスとみなし、Transformerベースのモデルを使ってエンティティや関係の詳細なアノテーションを使わずに直接生成する。
論文 参考訳(メタデータ) (2021-09-27T17:00:14Z) - Text Mining to Identify and Extract Novel Disease Treatments From
Unstructured Datasets [56.38623317907416]
Google Cloudを使って、NPRラジオ番組のポッドキャストのエピソードを書き起こします。
次に、テキストを体系的に前処理するためのパイプラインを構築します。
我々のモデルは、Omeprazoleが心臓熱傷の治療に役立てることに成功しました。
論文 参考訳(メタデータ) (2020-10-22T19:52:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。