論文の概要: Text Mining to Identify and Extract Novel Disease Treatments From
Unstructured Datasets
- arxiv url: http://arxiv.org/abs/2011.07959v1
- Date: Thu, 22 Oct 2020 19:52:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 05:55:57.412157
- Title: Text Mining to Identify and Extract Novel Disease Treatments From
Unstructured Datasets
- Title(参考訳): テキストマイニングによる非構造データセットからの新規疾患治療の同定と抽出
- Authors: Rahul Yedida, Saad Mohammad Abrar, Cleber Melo-Filho, Eugene Muratov,
Rada Chirkova, Alexander Tropsha
- Abstract要約: Google Cloudを使って、NPRラジオ番組のポッドキャストのエピソードを書き起こします。
次に、テキストを体系的に前処理するためのパイプラインを構築します。
我々のモデルは、Omeprazoleが心臓熱傷の治療に役立てることに成功しました。
- 参考スコア(独自算出の注目度): 56.38623317907416
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Objective: We aim to learn potential novel cures for diseases from
unstructured text sources. More specifically, we seek to extract drug-disease
pairs of potential cures to diseases by a simple reasoning over the structure
of spoken text.
Materials and Methods: We use Google Cloud to transcribe podcast episodes of
an NPR radio show. We then build a pipeline for systematically pre-processing
the text to ensure quality input to the core classification model, which feeds
to a series of post-processing steps for obtaining filtered results. Our
classification model itself uses a language model pre-trained on PubMed text.
The modular nature of our pipeline allows for ease of future developments in
this area by substituting higher quality components at each stage of the
pipeline. As a validation measure, we use ROBOKOP, an engine over a medical
knowledge graph with only validated pathways, as a ground truth source for
checking the existence of the proposed pairs. For the proposed pairs not found
in ROBOKOP, we provide further verification using Chemotext.
Results: We found 30.4% of our proposed pairs in the ROBOKOP database. For
example, our model successfully identified that Omeprazole can help treat
heartburn.We discuss the significance of this result, showing some examples of
the proposed pairs.
Discussion and Conclusion: The agreement of our results with the existing
knowledge source indicates a step in the right direction. Given the
plug-and-play nature of our framework, it is easy to add, remove, or modify
parts to improve the model as necessary. We discuss the results showing some
examples, and note that this is a potentially new line of research that has
further scope to be explored. Although our approach was originally oriented on
radio podcast transcripts, it is input-agnostic and could be applied to any
source of textual data and to any problem of interest.
- Abstract(参考訳): 目的: 非構造化テキストソースから疾患に対する新たな治療法を探索すること。
より具体的には、音声テキストの構造に関する単純な推論により、疾患に対する薬物と酵素の対の治療法を抽出しようとする。
Materials and Methods: Google Cloudを使って、NPRラジオ番組のポッドキャストエピソードを書き起こします。
次に,テキストを体系的に前処理するパイプラインを構築し,コア分類モデルへの品質入力を保証する。
我々の分類モデルは、PubMedテキストで事前訓練された言語モデルを使用する。
パイプラインのモジュール性は、パイプラインの各段階で高品質なコンポーネントを置換することで、この分野の将来的な開発を容易にします。
検証尺度として,提案したペアの存在を確認するための基礎的真理源として,検証された経路のみを持つ医療知識グラフ上のエンジンであるRobOKOPを用いる。
ROBOKOPにない提案されたペアについては、Chemotextを用いてさらなる検証を行う。
結果: ROBOKOPデータベースで提案したペアの30.4%が見つかった。
例えば,Omeprazoleが心臓熱傷の治療に有効であることをモデルで確認し,その意義を考察し,提案したペアのいくつかの例を示した。
議論と結論: 既存の知識ソースとの結果の一致は、正しい方向への一歩を示している。
フレームワークのプラグアンドプレイの性質を考えると、必要に応じてパーツを追加、削除、修正し、モデルを改善することは簡単です。
いくつかの例を示す結果について論じるとともに、この研究はさらなる範囲を探求する新たな研究の可能性があることに留意する。
本手法はもともとラジオポッドキャストの書き起こしを指向していたが,入力に依存しず,任意のテキストデータソースや興味のある問題に適用できる。
関連論文リスト
- Does Synthetic Data Generation of LLMs Help Clinical Text Mining? [51.205078179427645]
臨床テキストマイニングにおけるOpenAIのChatGPTの可能性を検討する。
本稿では,高品質な合成データを大量に生成する新たな学習パラダイムを提案する。
提案手法により,下流タスクの性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-03-08T03:56:31Z) - BLIAM: Literature-based Data Synthesis for Synergistic Drug Combination
Prediction [13.361489059744754]
BLIAMは、下流アプリケーションに対して解釈可能で、モデルに依存しないトレーニングデータポイントを生成する。
BLIAMは、生体医学実験では測定されなかった新しい薬物や細胞株のデータポイントを合成するのにさらに用いられる。
論文 参考訳(メタデータ) (2023-02-14T06:48:52Z) - Cross-lingual Argument Mining in the Medical Domain [5.9647924003148365]
このプロジェクトは、手動による介入なしに注釈付きデータを生成する効果的な方法として、自動で英語からターゲット言語(スペイン語)にアノテーションを翻訳し、プロジェクトすることを示す。
また、スペイン語で自動生成したデータを用いて、元の英語評価設定の結果を改善する方法も示す。
論文 参考訳(メタデータ) (2023-01-25T11:21:12Z) - Drug Synergistic Combinations Predictions via Large-Scale Pre-Training
and Graph Structure Learning [82.93806087715507]
薬物併用療法は、より有効で安全性の低い疾患治療のための確立された戦略である。
ディープラーニングモデルは、シナジスティックな組み合わせを発見する効率的な方法として登場した。
我々のフレームワークは、他のディープラーニングベースの手法と比較して最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-01-14T15:07:43Z) - EBOCA: Evidences for BiOmedical Concepts Association Ontology [55.41644538483948]
本論文は,生物医学領域の概念とそれらの関連性を記述するオントロジーであるEBOCAと,それらの関連性を支持するエビデンスを提案する。
DISNETのサブセットから得られるテストデータとテキストからの自動アソシエーション抽出が変換され、実際のシナリオで使用できる知識グラフが作成されるようになった。
論文 参考訳(メタデータ) (2022-08-01T18:47:03Z) - Graph Enhanced Contrastive Learning for Radiology Findings Summarization [25.377658879658306]
放射線学レポートのセクションでは、この発見から最も顕著な観察を要約している。
余分な知識と元の知見の両方を活用する統一的なフレームワークを提案する。
キーワードとその関係を適切な方法で抽出し、印象生成を容易にする。
論文 参考訳(メタデータ) (2022-04-01T04:39:44Z) - Mining Adverse Drug Reactions from Unstructured Mediums at Scale [0.0]
副作用の薬物反応/事象(ADR/ADE)は、患者の健康と医療費に大きな影響を及ぼす。
ほとんどのADRは正式なチャンネルでは報告されないが、しばしば構造化されていない会話で記録される。
本研究では,非構造化自由テキスト会話におけるADRを検出する自然言語処理(NLP)ソリューションを提案する。
論文 参考訳(メタデータ) (2022-01-05T01:52:42Z) - Slot Filling for Biomedical Information Extraction [0.5330240017302619]
バイオメディカルIEの課題に対してスロットフィリングアプローチを提案する。
我々は、トランフォーマベースのバイエンコーダDense Passage RetrievalをTransformerベースのリーダーモデルと結合する提案パラダイムに従う。
論文 参考訳(メタデータ) (2021-09-17T14:16:00Z) - An Uncertainty-Driven GCN Refinement Strategy for Organ Segmentation [53.425900196763756]
本研究では,不確実性解析とグラフ畳み込みネットワークに基づくセグメンテーション改善手法を提案する。
半教師付きグラフ学習問題を定式化するために、特定の入力ボリュームにおける畳み込みネットワークの不確実性レベルを用いる。
本手法は膵臓で1%,脾臓で2%向上し,最先端のCRF改善法よりも優れていた。
論文 参考訳(メタデータ) (2020-12-06T18:55:07Z) - Learning Contextualized Document Representations for Healthcare Answer
Retrieval [68.02029435111193]
コンテキスト談話ベクトル(英: Contextual Discourse Vectors、CDV)は、長文からの効率的な回答検索のための分散文書表現である。
本モデルでは,階層型LSTMレイヤとマルチタスクトレーニングを併用したデュアルエンコーダアーキテクチャを用いて,臨床エンティティの位置と文書の談話に沿った側面をエンコードする。
我々の一般化モデルは、医療パスランキングにおいて、最先端のベースラインを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2020-02-03T15:47:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。