論文の概要: EasyNER: A Customizable Easy-to-Use Pipeline for Deep Learning- and
Dictionary-based Named Entity Recognition from Medical Text
- arxiv url: http://arxiv.org/abs/2304.07805v2
- Date: Thu, 7 Mar 2024 11:52:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 18:26:46.633576
- Title: EasyNER: A Customizable Easy-to-Use Pipeline for Deep Learning- and
Dictionary-based Named Entity Recognition from Medical Text
- Title(参考訳): EasyNER: 医用テキストからの深層学習と辞書に基づく名前付きエンティティ認識のためのカスタマイズ可能な使いやすいパイプライン
- Authors: Rafsan Ahmed, Petter Berntsson, Alexander Skafte, Salma Kazemi Rashed,
Marcus Klang, Adam Barvesten, Ola Olde, William Lindholm, Antton Lamarca
Arrizabalaga, Pierre Nugues, Sonja Aits
- Abstract要約: 我々は、ディープラーニングと辞書に基づく名前付きエンティティ認識のための、使い易いエンドツーエンドパイプラインを開発した。
パイプラインは、大規模な医学研究論文収集(CORD-19)や生テキストにアクセスし、処理することができる。
出力は、検出されたエンティティと注釈付きテキストを含むファイルの公開可能なランクリストとグラフで構成されている。
- 参考スコア(独自算出の注目度): 32.73124984242397
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Background Medical research generates millions of publications and it is a
great challenge for researchers to utilize this information in full since its
scale and complexity greatly surpasses human reading capabilities. Automated
text mining can help extract and connect information spread across this large
body of literature but this technology is not easily accessible to life
scientists. Results Here, we developed an easy-to-use end-to-end pipeline for
deep learning- and dictionary-based named entity recognition (NER) of typical
entities found in medical research articles, including diseases, cells,
chemicals, genes/proteins, and species. The pipeline can access and process
large medical research article collections (PubMed, CORD-19) or raw text and
incorporates a series of deep learning models fine-tuned on the HUNER corpora
collection. In addition, the pipeline can perform dictionary-based NER related
to COVID-19 and other medical topics. Users can also load their own NER models
and dictionaries to include additional entities. The output consists of
publication-ready ranked lists and graphs of detected entities and files
containing the annotated texts. An associated script allows rapid inspection of
the results for specific entities of interest. As model use cases, the pipeline
was deployed on two collections of autophagy-related abstracts from PubMed and
on the CORD19 dataset, a collection of 764 398 research article abstracts
related to COVID-19. Conclusions The NER pipeline we present is applicable in a
variety of medical research settings and makes customizable text mining
accessible to life scientists.
- Abstract(参考訳): 背景医療研究は数百万の出版物を生み出しており、その規模と複雑さが人間の読書能力を大きく超えるため、研究者にとってこの情報を完全に活用することは大きな課題である。
自動テキストマイニングは、この膨大な文献にまたがる情報を抽出し、接続するのに役立ちますが、この技術は生命科学者にとって簡単にアクセスできません。
そこで本研究では,病気,細胞,化学物質,遺伝子・タンパク質,種など,医学的な研究論文に見られる典型的なエンティティの,深層学習および辞書に基づく名前付きエンティティ認識(NER)のための,使い易いエンドツーエンドパイプラインを開発した。
このパイプラインは、大規模な医学研究論文コレクション(PubMed、CORD-19)または原文にアクセスおよび処理することができ、HUNERコーパスコレクションに微調整された一連のディープラーニングモデルを組み込むことができる。
さらに、このパイプラインはcovid-19やその他の医学的トピックに関連する辞書ベースのnerを実行できる。
ユーザーは独自のNERモデルや辞書をロードして追加エンティティを含めることもできる。
出力は、検出されたエンティティと注釈付きテキストを含むファイルの公開可能なランクリストとグラフで構成されている。
関連するスクリプトは、特定の興味のあるエンティティに対する結果の迅速な検査を可能にする。
モデルユースケースとして、パイプラインはPubMedと、COVID-19に関連する764の398研究論文の集合であるCORD19データセットの2つのオートファジー関連抽象化にデプロイされた。
結論 私たちが提示するNERパイプラインは、さまざまな医学研究環境に適用でき、カスタマイズ可能なテキストマイニングを生命科学者が利用できるようにする。
関連論文リスト
- High-throughput Biomedical Relation Extraction for Semi-Structured Web
Articles Empowered by Large Language Models [2.323261444126253]
関係抽出タスクをChatGPTのような大規模言語モデルの単純なバイナリ分類問題として定式化する。
本手法は,主タイトルをテールエンティティとして指定した半構造化ウェブ記事に適合する。
長さのコンテンツはテキストチャンクにスライスされ、埋め込みされ、追加の埋め込みモデルで検索される。
論文 参考訳(メタデータ) (2023-12-13T16:43:41Z) - CARE: Extracting Experimental Findings From Clinical Literature [31.932111815835412]
CAREは文献から臨床所見を抽出するためのIEデータセットである。
我々は,エンティティと属性間のn-ary関係として微細な発見をキャプチャする新しいアノテーションスキーマを開発した。
我々は、データセット上で様々な最先端のIEシステムの性能をベンチマークする。
論文 参考訳(メタデータ) (2023-11-16T10:06:19Z) - The SourceData-NLP dataset: integrating curation into scientific
publishing for training large language models [1.0423199374671421]
本稿では,出版過程における論文の定期的なキュレーションを通じて生成したSourceData-NLPデータセットについて述べる。
このデータセットは、分子生物学と細胞生物学の3,223の論文で18,689個の数字から算出された、620,000以上の注釈付き生物医学的な実体を含んでいる。
論文 参考訳(メタデータ) (2023-10-31T13:22:38Z) - Descriptive Knowledge Graph in Biomedical Domain [26.91431888505873]
本稿では,バイオメディカルコーパスから情報文や記述文を自動的に抽出し,生成する新しいシステムを提案する。
接続されていない経路を検索する従来の検索エンジンや探索システムとは異なり,本システムは記述文をグラフとして整理する。
新型コロナウイルス研究における本システムの適用に着目し,薬物再資源化や文献キュレーションなどの分野における実用性について考察した。
論文 参考訳(メタデータ) (2023-10-18T03:10:25Z) - DiscoverPath: A Knowledge Refinement and Retrieval System for
Interdisciplinarity on Biomedical Research [96.10765714077208]
従来のキーワードベースの検索エンジンは、特定の用語に慣れていないユーザーを支援するのに不足している。
本稿では, バイオメディカル研究のための知識グラフに基づく紙検索エンジンを提案し, ユーザエクスペリエンスの向上を図る。
DiscoverPathと呼ばれるこのシステムは、名前付きエンティティ認識(NER)とPOSタグを使って、記事の要約から用語や関係を抽出し、KGを作成する。
論文 参考訳(メタデータ) (2023-09-04T20:52:33Z) - EBOCA: Evidences for BiOmedical Concepts Association Ontology [55.41644538483948]
本論文は,生物医学領域の概念とそれらの関連性を記述するオントロジーであるEBOCAと,それらの関連性を支持するエビデンスを提案する。
DISNETのサブセットから得られるテストデータとテキストからの自動アソシエーション抽出が変換され、実際のシナリオで使用できる知識グラフが作成されるようになった。
論文 参考訳(メタデータ) (2022-08-01T18:47:03Z) - DeepShovel: An Online Collaborative Platform for Data Extraction in
Geoscience Literature with AI Assistance [48.55345030503826]
地質学者は、関連する結果やデータを発見、抽出、集約するために膨大な量の文献を読む必要がある。
DeepShovelは、彼らのニーズをサポートするAI支援データ抽出システムである。
14人の研究者によるユーザ評価の結果、DeepShovelは科学データベース構築のためのデータ抽出の効率を改善した。
論文 参考訳(メタデータ) (2022-02-21T12:18:08Z) - Discovering Drug-Target Interaction Knowledge from Biomedical Literature [107.98712673387031]
人体における薬物と標的(DTI)の相互作用は、生物医学や応用において重要な役割を担っている。
毎年何百万もの論文がバイオメディカル分野で出回っているので、文学からDTIの知識を自動的に発見することは、業界にとって急激な需要となっている。
生成的アプローチを用いて,この課題に対する最初のエンドツーエンドソリューションについて検討する。
我々はDTI三重項をシーケンスとみなし、Transformerベースのモデルを使ってエンティティや関係の詳細なアノテーションを使わずに直接生成する。
論文 参考訳(メタデータ) (2021-09-27T17:00:14Z) - Text Mining to Identify and Extract Novel Disease Treatments From
Unstructured Datasets [56.38623317907416]
Google Cloudを使って、NPRラジオ番組のポッドキャストのエピソードを書き起こします。
次に、テキストを体系的に前処理するためのパイプラインを構築します。
我々のモデルは、Omeprazoleが心臓熱傷の治療に役立てることに成功しました。
論文 参考訳(メタデータ) (2020-10-22T19:52:49Z) - Interactive Extractive Search over Biomedical Corpora [41.72755714431404]
本稿では,生命科学研究者が言語的に注釈付けされたテキストのコーパスを検索できるようにするシステムを提案する。
本稿では,下層の言語表現の詳細を知る必要のない軽量なクエリ言語を提案する。
探索は,効率的な言語グラフインデクシングと検索エンジンにより,対話的な速度で行われる。
論文 参考訳(メタデータ) (2020-06-07T13:26:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。