論文の概要: Enhancing Medical Specialty Assignment to Patients using NLP Techniques
- arxiv url: http://arxiv.org/abs/2312.05585v1
- Date: Sat, 9 Dec 2023 14:13:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 20:01:09.092854
- Title: Enhancing Medical Specialty Assignment to Patients using NLP Techniques
- Title(参考訳): NLP技術を用いた患者への医療専門化
- Authors: Chris Solomou
- Abstract要約: 本稿では,計算効率を向上しつつ,優れた性能を実現する方法を提案する。
具体的には、キーワードを用いて、大規模なテキストコーパスで事前訓練された言語モデルより優れたディープラーニングアーキテクチャを訓練する。
その結果,テキスト分類におけるキーワードの利用により,分類性能が著しく向上することが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The introduction of Large Language Models (LLMs), and the vast volume of
publicly available medical data, amplified the application of NLP to the
medical domain. However, LLMs are pretrained on data that are not explicitly
relevant to the domain that are applied to and are often biased towards the
original data they were pretrained upon. Even when pretrained on domainspecific
data, these models typically require time-consuming fine-tuning to achieve good
performance for a specific task. To address these limitations, we propose an
alternative approach that achieves superior performance while being
computationally efficient. Specifically, we utilize keywords to train a deep
learning architecture that outperforms a language model pretrained on a large
corpus of text. Our proposal does not require pretraining nor fine-tuning and
can be applied directly to a specific setting for performing multi-label
classification. Our objective is to automatically assign a new patient to the
specialty of the medical professional they require, using a dataset that
contains medical transcriptions and relevant keywords. To this end, we
fine-tune the PubMedBERT model on this dataset, which serves as the baseline
for our experiments. We then twice train/fine-tune a DNN and the RoBERTa
language model, using both the keywords and the full transcriptions as input.
We compare the performance of these approaches using relevant metrics. Our
results demonstrate that utilizing keywords for text classification
significantly improves classification performance, for both a basic DL
architecture and a large language model. Our approach represents a promising
and efficient alternative to traditional methods for finetuning language models
on domain-specific data and has potential applications in various medical
domains
- Abstract(参考訳): 大規模言語モデル(英語版)(llms)の導入と、広く入手可能な膨大な医療データの導入は、医療領域へのnlpの適用を増幅した。
しかし、LCMは適用されたドメインに明示的に関係しないデータに基づいて事前訓練され、事前訓練された元のデータに対してバイアスがかかることが多い。
ドメイン固有のデータで事前トレーニングされた場合でも、これらのモデルは通常、特定のタスクに優れたパフォーマンスを達成するために、時間を要する微調整を必要とする。
これらの制約に対処するため,計算効率を向上し,優れた性能を実現する方法を提案する。
具体的には,大量のテキストコーパスで事前学習された言語モデルを上回る深層学習アーキテクチャの学習にキーワードを用いる。
本提案では,事前学習や微調整は必要とせず,マルチラベル分類を行うための特定の設定に直接適用できる。
本研究の目的は,医用文字と関連するキーワードを含むデータセットを用いて,患者を専門医に自動的に割り当てることである。
この目的のために、このデータセット上でPubMedBERTモデルを微調整し、実験のベースラインとして機能します。
次に、DNNとRoBERTa言語モデルを2回トレーニングし、キーワードと完全な書き起こしの両方を入力として使用します。
これらのアプローチのパフォーマンスを関連するメトリクスで比較します。
テキスト分類におけるキーワードの利用は,基本的なDLアーキテクチャと大規模言語モデルの両方において,分類性能を著しく向上させることを示した。
このアプローチは、従来の言語モデルをドメイン固有のデータで微調整する手法に代わる有望で効率的な代替であり、様々な医療領域で応用できる可能性を持っている。
関連論文リスト
- Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - Comprehensive Study on German Language Models for Clinical and Biomedical Text Understanding [16.220303664681172]
我々は、翻訳された英語の医療データとドイツの臨床データの3Bトークンから2.4Bトークンを抽出し、いくつかのドイツの医療言語モデルを事前訓練した。
得られたモデルは、名前付きエンティティ認識(NER)、多ラベル分類、抽出質問応答など、様々なドイツの下流タスクで評価された。
本研究は, 臨床モデルとスクラッチからトレーニングした成績を一致させたり, 上回ったりする能力が, 連続事前訓練によって実証されていることを結論する。
論文 参考訳(メタデータ) (2024-04-08T17:24:04Z) - Interpretable Medical Diagnostics with Structured Data Extraction by
Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。
本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。
本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-08T09:12:28Z) - An Iterative Optimizing Framework for Radiology Report Summarization with ChatGPT [80.33783969507458]
放射線医学報告の「印象」セクションは、放射線医と他の医師とのコミュニケーションにとって重要な基盤である。
近年の研究では、大規模医療用テキストデータを用いた印象自動生成の有望な成果が得られている。
これらのモデルは、しばしば大量の医療用テキストデータを必要とし、一般化性能が劣る。
論文 参考訳(メタデータ) (2023-04-17T17:13:42Z) - Annotated Dataset Creation through General Purpose Language Models for
non-English Medical NLP [0.5482532589225552]
我々の研究では、事前訓練された言語モデルをデータ取得のトレーニングに活用することを提案する。
我々は、ドイツのテキストであるGPTNERMEDの医療用NERモデルをトレーニングするために使用するカスタムデータセットを作成します。
論文 参考訳(メタデータ) (2022-08-30T18:42:55Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - MeDAL: Medical Abbreviation Disambiguation Dataset for Natural Language
Understanding Pretraining [5.807159674193696]
略語用大容量医療用テキストデータセットであるMeDALについて述べる。
このデータセット上で共通アーキテクチャのモデルをいくつか事前トレーニングし,その事前トレーニングが下流医療タスクの微調整時のパフォーマンス向上と収束速度の向上につながることを実証的に示した。
論文 参考訳(メタデータ) (2020-12-27T17:17:39Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Domain-Specific Language Model Pretraining for Biomedical Natural
Language Processing [73.37262264915739]
バイオメディシンなどのラベルなしテキストの少ないドメインでは、スクラッチから言語モデルを事前学習することで、かなりの利益が得られることを示す。
実験の結果, ドメイン固有のプレトレーニングは, 幅広い生物医学的NLPタスクの基盤となることが明らかとなった。
論文 参考訳(メタデータ) (2020-07-31T00:04:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。