Fugu-MT 論文翻訳(概要): EasyNER: A Customizable Easy-to-Use Pipeline for Deep Learning- and Dictionary-based Named Entity Recognition from Medical Text

論文の概要: EasyNER: A Customizable Easy-to-Use Pipeline for Deep Learning- and Dictionary-based Named Entity Recognition from Medical Text

arxiv url: http://arxiv.org/abs/2304.07805v2
Date: Thu, 7 Mar 2024 11:52:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-08 18:26:46.633576
Title: EasyNER: A Customizable Easy-to-Use Pipeline for Deep Learning- and Dictionary-based Named Entity Recognition from Medical Text
Title（参考訳）: EasyNER: 医用テキストからの深層学習と辞書に基づく名前付きエンティティ認識のためのカスタマイズ可能な使いやすいパイプライン
Authors: Rafsan Ahmed, Petter Berntsson, Alexander Skafte, Salma Kazemi Rashed, Marcus Klang, Adam Barvesten, Ola Olde, William Lindholm, Antton Lamarca Arrizabalaga, Pierre Nugues, Sonja Aits
Abstract要約: 我々は、ディープラーニングと辞書に基づく名前付きエンティティ認識のための、使い易いエンドツーエンドパイプラインを開発した。パイプラインは、大規模な医学研究論文収集(CORD-19)や生テキストにアクセスし、処理することができる。出力は、検出されたエンティティと注釈付きテキストを含むファイルの公開可能なランクリストとグラフで構成されている。
参考スコア（独自算出の注目度）: 32.73124984242397
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Background Medical research generates millions of publications and it is a great challenge for researchers to utilize this information in full since its scale and complexity greatly surpasses human reading capabilities. Automated text mining can help extract and connect information spread across this large body of literature but this technology is not easily accessible to life scientists. Results Here, we developed an easy-to-use end-to-end pipeline for deep learning- and dictionary-based named entity recognition (NER) of typical entities found in medical research articles, including diseases, cells, chemicals, genes/proteins, and species. The pipeline can access and process large medical research article collections (PubMed, CORD-19) or raw text and incorporates a series of deep learning models fine-tuned on the HUNER corpora collection. In addition, the pipeline can perform dictionary-based NER related to COVID-19 and other medical topics. Users can also load their own NER models and dictionaries to include additional entities. The output consists of publication-ready ranked lists and graphs of detected entities and files containing the annotated texts. An associated script allows rapid inspection of the results for specific entities of interest. As model use cases, the pipeline was deployed on two collections of autophagy-related abstracts from PubMed and on the CORD19 dataset, a collection of 764 398 research article abstracts related to COVID-19. Conclusions The NER pipeline we present is applicable in a variety of medical research settings and makes customizable text mining accessible to life scientists.
Abstract（参考訳）: 背景医療研究は数百万の出版物を生み出しており、その規模と複雑さが人間の読書能力を大きく超えるため、研究者にとってこの情報を完全に活用することは大きな課題である。自動テキストマイニングは、この膨大な文献にまたがる情報を抽出し、接続するのに役立ちますが、この技術は生命科学者にとって簡単にアクセスできません。そこで本研究では,病気,細胞,化学物質,遺伝子・タンパク質,種など,医学的な研究論文に見られる典型的なエンティティの,深層学習および辞書に基づく名前付きエンティティ認識(NER)のための,使い易いエンドツーエンドパイプラインを開発した。このパイプラインは、大規模な医学研究論文コレクション(PubMed、CORD-19)または原文にアクセスおよび処理することができ、HUNERコーパスコレクションに微調整された一連のディープラーニングモデルを組み込むことができる。さらに、このパイプラインはcovid-19やその他の医学的トピックに関連する辞書ベースのnerを実行できる。ユーザーは独自のNERモデルや辞書をロードして追加エンティティを含めることもできる。出力は、検出されたエンティティと注釈付きテキストを含むファイルの公開可能なランクリストとグラフで構成されている。関連するスクリプトは、特定の興味のあるエンティティに対する結果の迅速な検査を可能にする。モデルユースケースとして、パイプラインはPubMedと、COVID-19に関連する764の398研究論文の集合であるCORD19データセットの2つのオートファジー関連抽象化にデプロイされた。結論私たちが提示するNERパイプラインは、さまざまな医学研究環境に適用でき、カスタマイズ可能なテキストマイニングを生命科学者が利用できるようにする。

関連論文リスト

A Large-Scale Vision-Language Dataset Derived from Open Scientific Literature to Advance Biomedical Generalist AI [70.06771291117965]
PubMed Central Open Accessサブセットから派生したオープンソースのデータセットであるBiomedicaを紹介する。 Biomedicaには600万以上の科学論文と2400万の画像テキストペアが含まれている。私たちは、Webサーバを通じてスケーラブルなストリーミングと検索APIを提供し、AIシステムとのシームレスな統合を容易にします。
論文参考訳（メタデータ） (2025-03-26T05:56:46Z)
Decoding MIE: A Novel Dataset Approach Using Topic Extraction and Affiliation Parsing [0.0]
本研究は,医療情報学ヨーロッパ(MIE)会議の手続きから得られた新しいデータセットを紹介する。我々は,「健康技術・情報学研究」誌の4,606論文からメタデータと要約を抽出し,分析した。
論文参考訳（メタデータ） (2024-10-06T19:34:23Z)
Facilitating phenotyping from clinical texts: the medkit library [1.7924255866089314]
Phenotypingは、特定の、潜在的に複雑な、特性または状態に関連する個人を特定するアルゴリズムを適用することで構成される。 EHRの臨床的情報の多くはテキストに埋もれているため、EHRの二次的使用に依存する研究において、テキストからの表現が重要な役割を担っている。我々は,表現型パイプラインの開発,評価,再現性を促進するために,medkitというオープンソースのPythonライブラリを開発した。
論文参考訳（メタデータ） (2024-08-30T16:54:06Z)
Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文参考訳（メタデータ） (2024-04-27T05:03:42Z)
Diversifying Knowledge Enhancement of Biomedical Language Models using Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文参考訳（メタデータ） (2023-12-21T14:26:57Z)
High-throughput Biomedical Relation Extraction for Semi-Structured Web Articles Empowered by Large Language Models [1.9665865095034865]
関係抽出タスクを大言語モデルのバイナリ分類として定式化する。メインタイトルをテールエンティティとして指定し、コンテキストに明示的に組み込む。長い内容はテキストチャンクにスライスされ、埋め込みされ、追加の埋め込みモデルで検索される。
論文参考訳（メタデータ） (2023-12-13T16:43:41Z)
CARE: Extracting Experimental Findings From Clinical Literature [29.763929941107616]
本研究は,臨床所見抽出のための新しいIEデータセットであるCAREを提示する。我々は,エンティティと属性間のn-ary関係として微細な発見をキャプチャする新しいアノテーションスキーマを開発した。臨床治験と症例報告の2つの資料から,700件の要約の広範な注釈を収集した。
論文参考訳（メタデータ） (2023-11-16T10:06:19Z)
Integrating curation into scientific publishing to train AI models [1.6982459897303823]
我々は,複数モーダルデータキュレーションを学術出版プロセスに組み込んで,セグメント化された図形パネルやキャプションに注釈を付ける。 SourceData-NLPというデータセットには、620,000以上の注釈付きバイオメディカルエンティティが含まれている。我々は、名前付き認識、図形キャプションを構成パネルに分割すること、コンテキスト依存型セマンティックタスクを用いて、AIモデルをトレーニングするためのデータセットの有用性を評価する。
論文参考訳（メタデータ） (2023-10-31T13:22:38Z)
Descriptive Knowledge Graph in Biomedical Domain [26.91431888505873]
本稿では,バイオメディカルコーパスから情報文や記述文を自動的に抽出し,生成する新しいシステムを提案する。接続されていない経路を検索する従来の検索エンジンや探索システムとは異なり,本システムは記述文をグラフとして整理する。新型コロナウイルス研究における本システムの適用に着目し,薬物再資源化や文献キュレーションなどの分野における実用性について考察した。
論文参考訳（メタデータ） (2023-10-18T03:10:25Z)
DiscoverPath: A Knowledge Refinement and Retrieval System for Interdisciplinarity on Biomedical Research [96.10765714077208]
従来のキーワードベースの検索エンジンは、特定の用語に慣れていないユーザーを支援するのに不足している。本稿では, バイオメディカル研究のための知識グラフに基づく紙検索エンジンを提案し, ユーザエクスペリエンスの向上を図る。 DiscoverPathと呼ばれるこのシステムは、名前付きエンティティ認識(NER)とPOSタグを使って、記事の要約から用語や関係を抽出し、KGを作成する。
論文参考訳（メタデータ） (2023-09-04T20:52:33Z)
EBOCA: Evidences for BiOmedical Concepts Association Ontology [55.41644538483948]
本論文は,生物医学領域の概念とそれらの関連性を記述するオントロジーであるEBOCAと,それらの関連性を支持するエビデンスを提案する。 DISNETのサブセットから得られるテストデータとテキストからの自動アソシエーション抽出が変換され、実際のシナリオで使用できる知識グラフが作成されるようになった。
論文参考訳（メタデータ） (2022-08-01T18:47:03Z)
Discovering Drug-Target Interaction Knowledge from Biomedical Literature [107.98712673387031]
人体における薬物と標的(DTI)の相互作用は、生物医学や応用において重要な役割を担っている。毎年何百万もの論文がバイオメディカル分野で出回っているので、文学からDTIの知識を自動的に発見することは、業界にとって急激な需要となっている。生成的アプローチを用いて,この課題に対する最初のエンドツーエンドソリューションについて検討する。我々はDTI三重項をシーケンスとみなし、Transformerベースのモデルを使ってエンティティや関係の詳細なアノテーションを使わずに直接生成する。
論文参考訳（メタデータ） (2021-09-27T17:00:14Z)
Text Mining to Identify and Extract Novel Disease Treatments From Unstructured Datasets [56.38623317907416]
Google Cloudを使って、NPRラジオ番組のポッドキャストのエピソードを書き起こします。次に、テキストを体系的に前処理するためのパイプラインを構築します。我々のモデルは、Omeprazoleが心臓熱傷の治療に役立てることに成功しました。
論文参考訳（メタデータ） (2020-10-22T19:52:49Z)
Automatic Text Summarization of COVID-19 Medical Research Articles using BERT and GPT-2 [8.223517872575712]
我々は,既存のNLPモデルであるBERTとOpenAI GPT-2の最近の進歩を活用している。本モデルは,原文から抽出したキーワードに基づいて,抽象的かつ包括的情報を提供する。我々の研究は、要約がまだ手に入らない記事の簡潔な要約を提供することで、医療コミュニティに役立てることができる。
論文参考訳（メタデータ） (2020-06-03T00:54:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。