Fugu-MT 論文翻訳(概要): Text Mining to Identify and Extract Novel Disease Treatments From Unstructured Datasets

論文の概要: Text Mining to Identify and Extract Novel Disease Treatments From Unstructured Datasets

arxiv url: http://arxiv.org/abs/2011.07959v1
Date: Thu, 22 Oct 2020 19:52:49 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-04 05:55:57.412157
Title: Text Mining to Identify and Extract Novel Disease Treatments From Unstructured Datasets
Title（参考訳）: テキストマイニングによる非構造データセットからの新規疾患治療の同定と抽出
Authors: Rahul Yedida, Saad Mohammad Abrar, Cleber Melo-Filho, Eugene Muratov, Rada Chirkova, Alexander Tropsha
Abstract要約: Google Cloudを使って、NPRラジオ番組のポッドキャストのエピソードを書き起こします。次に、テキストを体系的に前処理するためのパイプラインを構築します。我々のモデルは、Omeprazoleが心臓熱傷の治療に役立てることに成功しました。
参考スコア（独自算出の注目度）: 56.38623317907416
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Objective: We aim to learn potential novel cures for diseases from unstructured text sources. More specifically, we seek to extract drug-disease pairs of potential cures to diseases by a simple reasoning over the structure of spoken text. Materials and Methods: We use Google Cloud to transcribe podcast episodes of an NPR radio show. We then build a pipeline for systematically pre-processing the text to ensure quality input to the core classification model, which feeds to a series of post-processing steps for obtaining filtered results. Our classification model itself uses a language model pre-trained on PubMed text. The modular nature of our pipeline allows for ease of future developments in this area by substituting higher quality components at each stage of the pipeline. As a validation measure, we use ROBOKOP, an engine over a medical knowledge graph with only validated pathways, as a ground truth source for checking the existence of the proposed pairs. For the proposed pairs not found in ROBOKOP, we provide further verification using Chemotext. Results: We found 30.4% of our proposed pairs in the ROBOKOP database. For example, our model successfully identified that Omeprazole can help treat heartburn.We discuss the significance of this result, showing some examples of the proposed pairs. Discussion and Conclusion: The agreement of our results with the existing knowledge source indicates a step in the right direction. Given the plug-and-play nature of our framework, it is easy to add, remove, or modify parts to improve the model as necessary. We discuss the results showing some examples, and note that this is a potentially new line of research that has further scope to be explored. Although our approach was originally oriented on radio podcast transcripts, it is input-agnostic and could be applied to any source of textual data and to any problem of interest.
Abstract（参考訳）: 目的: 非構造化テキストソースから疾患に対する新たな治療法を探索すること。より具体的には、音声テキストの構造に関する単純な推論により、疾患に対する薬物と酵素の対の治療法を抽出しようとする。 Materials and Methods: Google Cloudを使って、NPRラジオ番組のポッドキャストエピソードを書き起こします。次に,テキストを体系的に前処理するパイプラインを構築し,コア分類モデルへの品質入力を保証する。我々の分類モデルは、PubMedテキストで事前訓練された言語モデルを使用する。パイプラインのモジュール性は、パイプラインの各段階で高品質なコンポーネントを置換することで、この分野の将来的な開発を容易にします。検証尺度として,提案したペアの存在を確認するための基礎的真理源として,検証された経路のみを持つ医療知識グラフ上のエンジンであるRobOKOPを用いる。 ROBOKOPにない提案されたペアについては、Chemotextを用いてさらなる検証を行う。結果: ROBOKOPデータベースで提案したペアの30.4%が見つかった。例えば,Omeprazoleが心臓熱傷の治療に有効であることをモデルで確認し,その意義を考察し,提案したペアのいくつかの例を示した。議論と結論: 既存の知識ソースとの結果の一致は、正しい方向への一歩を示している。フレームワークのプラグアンドプレイの性質を考えると、必要に応じてパーツを追加、削除、修正し、モデルを改善することは簡単です。いくつかの例を示す結果について論じるとともに、この研究はさらなる範囲を探求する新たな研究の可能性があることに留意する。本手法はもともとラジオポッドキャストの書き起こしを指向していたが,入力に依存しず,任意のテキストデータソースや興味のある問題に適用できる。

関連論文リスト

Patient-level Information Extraction by Consistent Integration of Textual and Tabular Evidence with Bayesian Networks [4.993537302467224]
本稿では,専門家インフォームドベイズネットワークを用いたマルチモーダル患者レベルの情報抽出手法を提案する。本稿では,モデルの予測を解釈可能かつ確率的に融合させるために,一貫性ノードを付加した仮想エビデンスを提案する。提案手法の有効性をSimSUMデータセットに示す。
論文参考訳（メタデータ） (2025-11-21T08:59:42Z)
Ontology-Based Concept Distillation for Radiology Report Retrieval and Labeling [10.504309161945065]
既存のほとんどの手法は、CLIPやCXR-BERTのようなモデルからの高次元テキスト埋め込みを比較することに依存している。統一医療言語システム(Unified Medical Language System)における臨床基礎概念に基づく放射線学報告テキストの比較のための,新しいオントロジーによる代替案を提案する。本稿では,RadGraph-XLとSapBERTをベースとした拡張パイプラインを用いて,フリーテキストレポートから標準化された医療機関を抽出する。
論文参考訳（メタデータ） (2025-08-27T14:20:50Z)
A Dataset for Distilling Knowledge Priors from Literature for Therapeutic Design [16.22074029228085]
実験室で使用される化合物を記述した文献から抽出した設計問題のデータセットであるMedexを紹介した。 Medexは3230万対の自然言語事実と適切な実体表現で構成されている。
論文参考訳（メタデータ） (2025-08-14T17:59:37Z)
Facilitating phenotyping from clinical texts: the medkit library [1.7924255866089314]
Phenotypingは、特定の、潜在的に複雑な、特性または状態に関連する個人を特定するアルゴリズムを適用することで構成される。 EHRの臨床的情報の多くはテキストに埋もれているため、EHRの二次的使用に依存する研究において、テキストからの表現が重要な役割を担っている。我々は,表現型パイプラインの開発,評価,再現性を促進するために,medkitというオープンソースのPythonライブラリを開発した。
論文参考訳（メタデータ） (2024-08-30T16:54:06Z)
Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文参考訳（メタデータ） (2024-04-27T05:03:42Z)
Uncertainty-aware Medical Diagnostic Phrase Identification and Grounding [72.18719355481052]
MRG(Messical Report Grounding)と呼ばれる新しい課題について紹介する。 MRGは医療報告から診断フレーズとその対応する接地箱を直接エンドツーエンドで識別することを目的としている。マルチモーダルな大規模言語モデルを用いて診断フレーズを予測する,堅牢で信頼性の高いフレームワークである uMedGround を提案する。
論文参考訳（メタデータ） (2024-04-10T07:41:35Z)
Zero-shot information extraction from radiological reports using ChatGPT [19.457604666012767]
情報抽出は文字列を構造化データに変換する戦略である。様々な下流のNLPタスクにおいて、大きな言語モデルが優れた性能を発揮するため、ゼロショット情報抽出に大規模な言語モデルを使用することが可能である。本研究では,最もポピュラーな大規模言語モデルであるChatGPTが,放射線学的報告から有用な情報を抽出できるかどうかを検討することを目的とする。
論文参考訳（メタデータ） (2023-09-04T07:00:26Z)
SynerGPT: In-Context Learning for Personalized Drug Synergy Prediction and Drug Design [64.69434941796904]
本稿では,テキスト内薬物相乗学習のための新しい設定とモデルを提案する。特定のがん細胞標的の文脈における10～20の薬物相乗関係の「個人化データセット」を作成した。私たちの目標は、その文脈で追加の薬物シナジー関係を予測することです。
論文参考訳（メタデータ） (2023-06-19T17:03:46Z)
Does Synthetic Data Generation of LLMs Help Clinical Text Mining? [51.205078179427645]
臨床テキストマイニングにおけるOpenAIのChatGPTの可能性を検討する。本稿では,高品質な合成データを大量に生成する新たな学習パラダイムを提案する。提案手法により,下流タスクの性能が大幅に向上した。
論文参考訳（メタデータ） (2023-03-08T03:56:31Z)
Drug Synergistic Combinations Predictions via Large-Scale Pre-Training and Graph Structure Learning [82.93806087715507]
薬物併用療法は、より有効で安全性の低い疾患治療のための確立された戦略である。ディープラーニングモデルは、シナジスティックな組み合わせを発見する効率的な方法として登場した。我々のフレームワークは、他のディープラーニングベースの手法と比較して最先端の結果を達成する。
論文参考訳（メタデータ） (2023-01-14T15:07:43Z)
EBOCA: Evidences for BiOmedical Concepts Association Ontology [55.41644538483948]
本論文は,生物医学領域の概念とそれらの関連性を記述するオントロジーであるEBOCAと,それらの関連性を支持するエビデンスを提案する。 DISNETのサブセットから得られるテストデータとテキストからの自動アソシエーション抽出が変換され、実際のシナリオで使用できる知識グラフが作成されるようになった。
論文参考訳（メタデータ） (2022-08-01T18:47:03Z)
Graph Enhanced Contrastive Learning for Radiology Findings Summarization [25.377658879658306]
放射線学レポートのセクションでは、この発見から最も顕著な観察を要約している。余分な知識と元の知見の両方を活用する統一的なフレームワークを提案する。キーワードとその関係を適切な方法で抽出し、印象生成を容易にする。
論文参考訳（メタデータ） (2022-04-01T04:39:44Z)
Mining Adverse Drug Reactions from Unstructured Mediums at Scale [0.0]
副作用の薬物反応/事象(ADR/ADE)は、患者の健康と医療費に大きな影響を及ぼす。ほとんどのADRは正式なチャンネルでは報告されないが、しばしば構造化されていない会話で記録される。本研究では,非構造化自由テキスト会話におけるADRを検出する自然言語処理(NLP)ソリューションを提案する。
論文参考訳（メタデータ） (2022-01-05T01:52:42Z)
Slot Filling for Biomedical Information Extraction [0.5330240017302619]
バイオメディカルIEの課題に対してスロットフィリングアプローチを提案する。我々は、トランフォーマベースのバイエンコーダDense Passage RetrievalをTransformerベースのリーダーモデルと結合する提案パラダイムに従う。
論文参考訳（メタデータ） (2021-09-17T14:16:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。