論文の概要: Text Mining to Identify and Extract Novel Disease Treatments From
Unstructured Datasets
- arxiv url: http://arxiv.org/abs/2011.07959v1
- Date: Thu, 22 Oct 2020 19:52:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 05:55:57.412157
- Title: Text Mining to Identify and Extract Novel Disease Treatments From
Unstructured Datasets
- Title(参考訳): テキストマイニングによる非構造データセットからの新規疾患治療の同定と抽出
- Authors: Rahul Yedida, Saad Mohammad Abrar, Cleber Melo-Filho, Eugene Muratov,
Rada Chirkova, Alexander Tropsha
- Abstract要約: Google Cloudを使って、NPRラジオ番組のポッドキャストのエピソードを書き起こします。
次に、テキストを体系的に前処理するためのパイプラインを構築します。
我々のモデルは、Omeprazoleが心臓熱傷の治療に役立てることに成功しました。
- 参考スコア(独自算出の注目度): 56.38623317907416
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Objective: We aim to learn potential novel cures for diseases from
unstructured text sources. More specifically, we seek to extract drug-disease
pairs of potential cures to diseases by a simple reasoning over the structure
of spoken text.
Materials and Methods: We use Google Cloud to transcribe podcast episodes of
an NPR radio show. We then build a pipeline for systematically pre-processing
the text to ensure quality input to the core classification model, which feeds
to a series of post-processing steps for obtaining filtered results. Our
classification model itself uses a language model pre-trained on PubMed text.
The modular nature of our pipeline allows for ease of future developments in
this area by substituting higher quality components at each stage of the
pipeline. As a validation measure, we use ROBOKOP, an engine over a medical
knowledge graph with only validated pathways, as a ground truth source for
checking the existence of the proposed pairs. For the proposed pairs not found
in ROBOKOP, we provide further verification using Chemotext.
Results: We found 30.4% of our proposed pairs in the ROBOKOP database. For
example, our model successfully identified that Omeprazole can help treat
heartburn.We discuss the significance of this result, showing some examples of
the proposed pairs.
Discussion and Conclusion: The agreement of our results with the existing
knowledge source indicates a step in the right direction. Given the
plug-and-play nature of our framework, it is easy to add, remove, or modify
parts to improve the model as necessary. We discuss the results showing some
examples, and note that this is a potentially new line of research that has
further scope to be explored. Although our approach was originally oriented on
radio podcast transcripts, it is input-agnostic and could be applied to any
source of textual data and to any problem of interest.
- Abstract(参考訳): 目的: 非構造化テキストソースから疾患に対する新たな治療法を探索すること。
より具体的には、音声テキストの構造に関する単純な推論により、疾患に対する薬物と酵素の対の治療法を抽出しようとする。
Materials and Methods: Google Cloudを使って、NPRラジオ番組のポッドキャストエピソードを書き起こします。
次に,テキストを体系的に前処理するパイプラインを構築し,コア分類モデルへの品質入力を保証する。
我々の分類モデルは、PubMedテキストで事前訓練された言語モデルを使用する。
パイプラインのモジュール性は、パイプラインの各段階で高品質なコンポーネントを置換することで、この分野の将来的な開発を容易にします。
検証尺度として,提案したペアの存在を確認するための基礎的真理源として,検証された経路のみを持つ医療知識グラフ上のエンジンであるRobOKOPを用いる。
ROBOKOPにない提案されたペアについては、Chemotextを用いてさらなる検証を行う。
結果: ROBOKOPデータベースで提案したペアの30.4%が見つかった。
例えば,Omeprazoleが心臓熱傷の治療に有効であることをモデルで確認し,その意義を考察し,提案したペアのいくつかの例を示した。
議論と結論: 既存の知識ソースとの結果の一致は、正しい方向への一歩を示している。
フレームワークのプラグアンドプレイの性質を考えると、必要に応じてパーツを追加、削除、修正し、モデルを改善することは簡単です。
いくつかの例を示す結果について論じるとともに、この研究はさらなる範囲を探求する新たな研究の可能性があることに留意する。
本手法はもともとラジオポッドキャストの書き起こしを指向していたが,入力に依存しず,任意のテキストデータソースや興味のある問題に適用できる。
関連論文リスト
- Facilitating phenotyping from clinical texts: the medkit library [1.7924255866089314]
Phenotypingは、特定の、潜在的に複雑な、特性または状態に関連する個人を特定するアルゴリズムを適用することで構成される。
EHRの臨床的情報の多くはテキストに埋もれているため、EHRの二次的使用に依存する研究において、テキストからの表現が重要な役割を担っている。
我々は,表現型パイプラインの開発,評価,再現性を促進するために,medkitというオープンソースのPythonライブラリを開発した。
論文 参考訳(メタデータ) (2024-08-30T16:54:06Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - Zero-shot information extraction from radiological reports using ChatGPT [19.457604666012767]
情報抽出は文字列を構造化データに変換する戦略である。
様々な下流のNLPタスクにおいて、大きな言語モデルが優れた性能を発揮するため、ゼロショット情報抽出に大規模な言語モデルを使用することが可能である。
本研究では,最もポピュラーな大規模言語モデルであるChatGPTが,放射線学的報告から有用な情報を抽出できるかどうかを検討することを目的とする。
論文 参考訳(メタデータ) (2023-09-04T07:00:26Z) - SynerGPT: In-Context Learning for Personalized Drug Synergy Prediction
and Drug Design [64.69434941796904]
本稿では,テキスト内薬物相乗学習のための新しい設定とモデルを提案する。
特定のがん細胞標的の文脈における10~20の薬物相乗関係の「個人化データセット」を作成した。
私たちの目標は、その文脈で追加の薬物シナジー関係を予測することです。
論文 参考訳(メタデータ) (2023-06-19T17:03:46Z) - Does Synthetic Data Generation of LLMs Help Clinical Text Mining? [51.205078179427645]
臨床テキストマイニングにおけるOpenAIのChatGPTの可能性を検討する。
本稿では,高品質な合成データを大量に生成する新たな学習パラダイムを提案する。
提案手法により,下流タスクの性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-03-08T03:56:31Z) - Drug Synergistic Combinations Predictions via Large-Scale Pre-Training
and Graph Structure Learning [82.93806087715507]
薬物併用療法は、より有効で安全性の低い疾患治療のための確立された戦略である。
ディープラーニングモデルは、シナジスティックな組み合わせを発見する効率的な方法として登場した。
我々のフレームワークは、他のディープラーニングベースの手法と比較して最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-01-14T15:07:43Z) - EBOCA: Evidences for BiOmedical Concepts Association Ontology [55.41644538483948]
本論文は,生物医学領域の概念とそれらの関連性を記述するオントロジーであるEBOCAと,それらの関連性を支持するエビデンスを提案する。
DISNETのサブセットから得られるテストデータとテキストからの自動アソシエーション抽出が変換され、実際のシナリオで使用できる知識グラフが作成されるようになった。
論文 参考訳(メタデータ) (2022-08-01T18:47:03Z) - Graph Enhanced Contrastive Learning for Radiology Findings Summarization [25.377658879658306]
放射線学レポートのセクションでは、この発見から最も顕著な観察を要約している。
余分な知識と元の知見の両方を活用する統一的なフレームワークを提案する。
キーワードとその関係を適切な方法で抽出し、印象生成を容易にする。
論文 参考訳(メタデータ) (2022-04-01T04:39:44Z) - Mining Adverse Drug Reactions from Unstructured Mediums at Scale [0.0]
副作用の薬物反応/事象(ADR/ADE)は、患者の健康と医療費に大きな影響を及ぼす。
ほとんどのADRは正式なチャンネルでは報告されないが、しばしば構造化されていない会話で記録される。
本研究では,非構造化自由テキスト会話におけるADRを検出する自然言語処理(NLP)ソリューションを提案する。
論文 参考訳(メタデータ) (2022-01-05T01:52:42Z) - Slot Filling for Biomedical Information Extraction [0.5330240017302619]
バイオメディカルIEの課題に対してスロットフィリングアプローチを提案する。
我々は、トランフォーマベースのバイエンコーダDense Passage RetrievalをTransformerベースのリーダーモデルと結合する提案パラダイムに従う。
論文 参考訳(メタデータ) (2021-09-17T14:16:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。