論文の概要: Facilitating phenotyping from clinical texts: the medkit library
- arxiv url: http://arxiv.org/abs/2409.00164v1
- Date: Fri, 30 Aug 2024 16:54:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 16:37:47.880732
- Title: Facilitating phenotyping from clinical texts: the medkit library
- Title(参考訳): 臨床文献からの表現型化:メドキット図書館
- Authors: Antoine Neuraz, Ghislain Vaillant, Camila Arias, Olivier Birot, Kim-Tam Huynh, Thibaut Fabacher, Alice Rogier, Nicolas Garcelon, Ivan Lerner, Bastien Rance, Adrien Coulet,
- Abstract要約: Phenotypingは、特定の、潜在的に複雑な、特性または状態に関連する個人を特定するアルゴリズムを適用することで構成される。
EHRの臨床的情報の多くはテキストに埋もれているため、EHRの二次的使用に依存する研究において、テキストからの表現が重要な役割を担っている。
我々は,表現型パイプラインの開発,評価,再現性を促進するために,medkitというオープンソースのPythonライブラリを開発した。
- 参考スコア(独自算出の注目度): 1.7924255866089314
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Phenotyping consists in applying algorithms to identify individuals associated with a specific, potentially complex, trait or condition, typically out of a collection of Electronic Health Records (EHRs). Because a lot of the clinical information of EHRs are lying in texts, phenotyping from text takes an important role in studies that rely on the secondary use of EHRs. However, the heterogeneity and highly specialized aspect of both the content and form of clinical texts makes this task particularly tedious, and is the source of time and cost constraints in observational studies. To facilitate the development, evaluation and reproductibility of phenotyping pipelines, we developed an open-source Python library named medkit. It enables composing data processing pipelines made of easy-to-reuse software bricks, named medkit operations. In addition to the core of the library, we share the operations and pipelines we already developed and invite the phenotyping community for their reuse and enrichment. medkit is available at https://github.com/medkit-lib/medkit
- Abstract(参考訳): Phenotypingは、通常電子健康記録(EHR)のコレクションから、特定の、潜在的に複雑な、特性または状態に関連する個人を特定するアルゴリズムを適用することで構成される。
EHRの臨床的情報の多くはテキストに埋もれているため、EHRの二次的使用に依存する研究において、テキストからの表現が重要な役割を担っている。
しかし、臨床テキストの内容と形式の両方の不均一性と高度に専門的な側面は、この作業を特に面倒なものにし、観察研究における時間とコストの制約の源となっている。
表現型パイプラインの開発,評価,再現性を向上するために,medkitというオープンソースのPythonライブラリを開発した。
medkit操作と呼ばれる、簡単に再利用可能なソフトウェアブロックで構築されたデータ処理パイプラインの構築を可能にする。
ライブラリのコアに加えて、すでに開発したオペレーションとパイプラインを共有し、再利用と充実のために表現型コミュニティを招待します。
medkitはhttps://github.com/medkit-lib/medkitで入手できる。
関連論文リスト
- Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - Knowledge-Infused Prompting: Assessing and Advancing Clinical Text Data
Generation with Large Language Models [48.07083163501746]
臨床自然言語処理には、ドメイン固有の課題に対処できる方法が必要である。
我々は,そのプロセスに知識を注入する,革新的で資源効率のよいアプローチであるClinGenを提案する。
7つのNLPタスクと16のデータセットを比較検討した結果,ClinGenはさまざまなタスクのパフォーマンスを継続的に向上させることがわかった。
論文 参考訳(メタデータ) (2023-11-01T04:37:28Z) - EasyNER: A Customizable Easy-to-Use Pipeline for Deep Learning- and
Dictionary-based Named Entity Recognition from Medical Text [32.73124984242397]
我々は、ディープラーニングと辞書に基づく名前付きエンティティ認識のための、使い易いエンドツーエンドパイプラインを開発した。
パイプラインは、大規模な医学研究論文収集(CORD-19)や生テキストにアクセスし、処理することができる。
出力は、検出されたエンティティと注釈付きテキストを含むファイルの公開可能なランクリストとグラフで構成されている。
論文 参考訳(メタデータ) (2023-04-16T15:17:56Z) - Development and validation of a natural language processing algorithm to
pseudonymize documents in the context of a clinical data warehouse [53.797797404164946]
この研究は、この領域でツールやリソースを共有する際に直面する困難を浮き彫りにしている。
臨床文献のコーパスを12種類に分類した。
私たちは、ディープラーニングモデルと手動ルールの結果をマージして、ハイブリッドシステムを構築します。
論文 参考訳(メタデータ) (2023-03-23T17:17:46Z) - TemporAI: Facilitating Machine Learning Innovation in Time Domain Tasks
for Medicine [91.3755431537592]
TemporAIは、機械学習(ML)タスクのためのオープンソースのPythonソフトウェアライブラリである。
時系列、静的、イベントモダリティのデータをサポートし、予測、因果推論、時間対イベント分析のためのインターフェースを提供する。
論文 参考訳(メタデータ) (2023-01-28T17:57:53Z) - Retrieval-Augmented and Knowledge-Grounded Language Models for Faithful Clinical Medicine [68.7814360102644]
本稿では,Re$3$Writer法を提案する。
本手法が患者の退院指示生成に有効であることを示す。
論文 参考訳(メタデータ) (2022-10-23T16:34:39Z) - EHRKit: A Python Natural Language Processing Toolkit for Electronic
Health Record Texts [12.10507006658038]
臨床テキストのためのピソンライブラリ EHRKit を作成した。
このライブラリには、MIMIC-III固有の機能とタスク固有の機能という2つの主要な部分が含まれている。
第1部では、基本的な検索、情報検索、情報抽出を含むMIMIC-III NOTEEVENTSデータにアクセスするためのインターフェースのリストを紹介する。
第2部では、エンティティ認識、要約、機械翻訳など、最大12個の非武装NLPタスクのために、多くのサードパーティライブラリを統合している。
論文 参考訳(メタデータ) (2022-04-13T18:51:01Z) - Slot Filling for Biomedical Information Extraction [0.5330240017302619]
バイオメディカルIEの課題に対してスロットフィリングアプローチを提案する。
我々は、トランフォーマベースのバイエンコーダDense Passage RetrievalをTransformerベースのリーダーモデルと結合する提案パラダイムに従う。
論文 参考訳(メタデータ) (2021-09-17T14:16:00Z) - PharmKE: Knowledge Extraction Platform for Pharmaceutical Texts using
Transfer Learning [0.0]
PharmKEは、医薬品のセマンティック分析を徹底するために、いくつかの段階を通じてディープラーニングを適用するテキスト分析プラットフォームです。
この方法論は、正確なラベル付きトレーニングとテストデータセットの作成に使用され、カスタムエンティティラベリングタスクのモデルトレーニングに使用されます。
得られた結果は、同じデータセットで訓練された微調整BERTおよびBioBERTモデルと比較されます。
論文 参考訳(メタデータ) (2021-02-25T19:36:35Z) - Text Mining to Identify and Extract Novel Disease Treatments From
Unstructured Datasets [56.38623317907416]
Google Cloudを使って、NPRラジオ番組のポッドキャストのエピソードを書き起こします。
次に、テキストを体系的に前処理するためのパイプラインを構築します。
我々のモデルは、Omeprazoleが心臓熱傷の治療に役立てることに成功しました。
論文 参考訳(メタデータ) (2020-10-22T19:52:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。