論文の概要: Text2MDT: Extracting Medical Decision Trees from Medical Texts
- arxiv url: http://arxiv.org/abs/2401.02034v1
- Date: Thu, 4 Jan 2024 02:33:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-05 16:10:08.504444
- Title: Text2MDT: Extracting Medical Decision Trees from Medical Texts
- Title(参考訳): text2mdt: 医学テキストから医学的決定木を抽出する
- Authors: Wei Zhu and Wenfeng Li and Xing Tian and Pengfei Wang and Xiaoling
Wang and Jin Chen and Yuanbin Wu and Yuan Ni and Guotong Xie
- Abstract要約: 医療用テキストから医療用決定木(MDT)を自動的に抽出する新しいタスクであるText2MDTを提案する。
我々は、MDTの形式を標準化し、医学専門家の参加を得て、中国語で注釈付きテキスト・トゥ・MDTデータセットを作成する。
- 参考スコア(独自算出の注目度): 33.58610255918941
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge of the medical decision process, which can be modeled as medical
decision trees (MDTs), is critical to build clinical decision support systems.
However, the current MDT construction methods rely heavily on time-consuming
and laborious manual annotation. In this work, we propose a novel task,
Text2MDT, to explore the automatic extraction of MDTs from medical texts such
as medical guidelines and textbooks. We normalize the form of the MDT and
create an annotated Text-to-MDT dataset in Chinese with the participation of
medical experts. We investigate two different methods for the Text2MDT tasks:
(a) an end-to-end framework which only relies on a GPT style large language
models (LLM) instruction tuning to generate all the node information and tree
structures. (b) The pipeline framework which decomposes the Text2MDT task to
three subtasks. Experiments on our Text2MDT dataset demonstrate that: (a) the
end-to-end method basd on LLMs (7B parameters or larger) show promising
results, and successfully outperform the pipeline methods. (b) The
chain-of-thought (COT) prompting method \cite{Wei2022ChainOT} can improve the
performance of the fine-tuned LLMs on the Text2MDT test set. (c) the
lightweight pipelined method based on encoder-based pretrained models can
perform comparably with LLMs with model complexity two magnititudes smaller.
Our Text2MDT dataset is open-sourced at
\url{https://tianchi.aliyun.com/dataset/95414}, and the source codes are
open-sourced at \url{https://github.com/michael-wzhu/text2dt}.
- Abstract(参考訳): 医療決定木(MDT)としてモデル化できる医療決定プロセスの知識は,臨床意思決定支援システムの構築に不可欠である。
しかし、現在の MDT の構築方法は、時間と手間のかかるマニュアルアノテーションに大きく依存している。
本研究では,医療ガイドラインや教科書などの医療用テキストからMDTを自動的に抽出するタスクであるText2MDTを提案する。
我々はMDTの形式を標準化し、医学専門家の参加で中国語で注釈付きテキスト・トゥ・MDTデータセットを作成する。
Text2MDTタスクの2つの異なる方法について検討する。
(a) GPTスタイルの大規模言語モデル(LLM)命令チューニングのみに依存するエンドツーエンドのフレームワークで、すべてのノード情報とツリー構造を生成する。
b) Text2MDTタスクを3つのサブタスクに分解するパイプラインフレームワーク。
Text2MDTデータセットの実験では、次のように示されています。
(a) LLM(7Bパラメータ以上)をベースとしたエンドツーエンドの手法は,有望な結果を示し,パイプライン手法よりも優れていた。
b) チェーン・オブ・シークレット(COT) プロンプト法 \cite{Wei2022ChainOT} は Text2MDT テストセット上での微調整 LLM の性能を向上させることができる。
c) エンコーダに基づく事前学習モデルに基づく軽量パイプライン方式は,モデルの複雑さが2倍小さいllmと同等に動作する。
私たちのtext2mdtデータセットは、 \url{https://tianchi.aliyun.com/dataset/95414}でオープンソースであり、ソースコードは \url{https://github.com/michael-wzhu/text2dt}でオープンソースです。
関連論文リスト
- Cross-Modal Multi-Tasking for Speech-to-Text Translation via Hard
Parameter Sharing [72.56219471145232]
ハードパラメータ共有を伴うST/MTマルチタスクフレームワークを提案する。
本手法は,事前処理による音声文のモダリティギャップを低減する。
我々は,注意エンコーダ・デコーダ,コネクショニスト時間分類(CTC),トランスデューサ,共同CTC/アテンションモデルを平均+0.5BLEUで改善することを示す。
論文 参考訳(メタデータ) (2023-09-27T17:48:14Z) - Interpretable Medical Diagnostics with Structured Data Extraction by
Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。
本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。
本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-08T09:12:28Z) - LLMDet: A Third Party Large Language Models Generated Text Detection
Tool [119.0952092533317]
大規模言語モデル(LLM)は、高品質な人間によるテキストに非常に近い。
既存の検出ツールは、機械が生成したテキストと人間によるテキストしか区別できない。
本稿では,モデル固有,セキュア,効率的,拡張可能な検出ツールであるLLMDetを提案する。
論文 参考訳(メタデータ) (2023-05-24T10:45:16Z) - Demonstrate-Search-Predict: Composing retrieval and language models for
knowledge-intensive NLP [77.817293104436]
本稿では,LMとRMの間の洗練されたパイプラインにおいて,自然言語テキストを渡すことに依存するフレームワークを提案する。
我々は、オープンドメイン、マルチホップ、会話設定で質問に答えるための新しいDSPプログラムを作成した。
論文 参考訳(メタデータ) (2022-12-28T18:52:44Z) - Text2Struct: A Machine Learning Pipeline for Mining Structured Data from
Text [4.709764624933227]
本稿では,エンドツーエンドの機械学習パイプラインであるText2Structを提案する。
テキストアノテーションスキーム、データ処理のトレーニング、機械学習の実装が含まれている。
データセットを拡張し、他の機械学習モデルを調べることで、パイプラインをさらに改善することが期待されている。
論文 参考訳(メタデータ) (2022-12-18T09:31:36Z) - MURMUR: Modular Multi-Step Reasoning for Semi-Structured Data-to-Text
Generation [102.20036684996248]
多段階推論を用いた半構造化データからテキストを生成するための,ニューロシンボリックなモジュラーアプローチであるMURMURを提案する。
WebNLG や LogicNLG のような2つのデータ・テキスト生成タスクについて実験を行った。
論文 参考訳(メタデータ) (2022-12-16T17:36:23Z) - Extend and Explain: Interpreting Very Long Language Models [0.0]
本稿では,予測に寄与するテキストブロックを識別するための新しいMasked Smpling procedure (MSP)を提案する。
MSPは、以前の最先端よりも1.7倍の臨床的に有益なテキストブロックを特定し、100倍の速度で走り、重要なフレーズペアを生成することができる。
論文 参考訳(メタデータ) (2022-09-02T17:15:43Z) - What Makes Data-to-Text Generation Hard for Pretrained Language Models? [17.07349898176898]
構造化された事実や関係(D2T)の自然言語記述を表現することで、構造化された知識リポジトリのアクセシビリティが向上する。
従来の研究は、タスク固有のトレーニングデータを大幅に微調整した後、事前学習された言語モデル(PLM)が、このタスクに対して驚くほどうまく機能していることを示している。
DARTマルチドメインD2Tデータセット上で、微調整と自動回帰PLMの両方について実証的研究を行う。
論文 参考訳(メタデータ) (2022-05-23T17:58:39Z) - Neural Pipeline for Zero-Shot Data-to-Text Generation [3.42658286826597]
本稿では,汎用的なテキストベース操作に基づいて訓練された一連のモジュールを用いて,単一項目記述を変換してテキストを生成することを提案する。
WebNLGとE2Eという2つの主要な3重テキストデータセットに関する実験により、ゼロショット設定でのRDFトリプルからのD2T生成が可能になった。
論文 参考訳(メタデータ) (2022-03-30T13:14:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。