論文の概要: Leveraging Prompt-Learning for Structured Information Extraction from Crohn's Disease Radiology Reports in a Low-Resource Language
- arxiv url: http://arxiv.org/abs/2405.01682v2
- Date: Wed, 22 May 2024 09:36:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-25 05:20:55.752640
- Title: Leveraging Prompt-Learning for Structured Information Extraction from Crohn's Disease Radiology Reports in a Low-Resource Language
- Title(参考訳): 低リソース言語におけるクローン病放射線学レポートからの構造化情報抽出のためのプロンプト学習の活用
- Authors: Liam Hazan, Gili Focht, Naama Gavrielov, Roi Reichart, Talar Hagopian, Mary-Louise C. Greer, Ruth Cytter Kuint, Dan Turner, Moti Freiman,
- Abstract要約: SMP-BERTは、自由テキストラジオグラフィーレポートを自動的に構造化データに変換する新しいプロンプト学習法である。
そこで本研究では,SMP-BERTが従来の微調整法をはるかに上回った。
- 参考スコア(独自算出の注目度): 11.688665498310405
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Automatic conversion of free-text radiology reports into structured data using Natural Language Processing (NLP) techniques is crucial for analyzing diseases on a large scale. While effective for tasks in widely spoken languages like English, generative large language models (LLMs) typically underperform with less common languages and can pose potential risks to patient privacy. Fine-tuning local NLP models is hindered by the skewed nature of real-world medical datasets, where rare findings represent a significant data imbalance. We introduce SMP-BERT, a novel prompt learning method that leverages the structured nature of reports to overcome these challenges. In our studies involving a substantial collection of Crohn's disease radiology reports in Hebrew (over 8,000 patients and 10,000 reports), SMP-BERT greatly surpassed traditional fine-tuning methods in performance, notably in detecting infrequent conditions (AUC: 0.99 vs 0.94, F1: 0.84 vs 0.34). SMP-BERT empowers more accurate AI diagnostics available for low-resource languages.
- Abstract(参考訳): 自然言語処理(NLP)技術を用いた自由テキストラジオグラフィーレポートの構造化データへの自動変換は,大規模に疾患を解析するために重要である。
英語のような広く話されている言語でのタスクに効果的であるが、生成的大言語モデル(LLM)は一般的にあまり一般的でない言語でパフォーマンスが低く、患者のプライバシーに潜在的なリスクをもたらす可能性がある。
微調整されたローカルNLPモデルは、希少な発見が重要なデータ不均衡を示す現実世界の医療データセットの歪んだ性質によって妨げられている。
SMP-BERTは,これらの課題を克服するために,レポートの構造的性質を活用する新しいプロンプト学習手法である。
ヘブライ語におけるクローン病の放射線学レポート(8000人以上、10,000人以上)の収集に関する本研究では、SMP-BERTが従来の微調整法を大幅に上回り、特に頻度の低い状況(AUC: 0.99対0.94、F1: 0.84対0.34)が検出された。
SMP-BERTは、低リソース言語で利用可能なより正確なAI診断を可能にする。
関連論文リスト
- Large Language Multimodal Models for 5-Year Chronic Disease Cohort Prediction Using EHR Data [15.474201222908107]
糖尿病などの慢性疾患が世界中で致死率と死亡率の主な原因となっている。
我々は,慢性疾患リスクの予測にマルチモーダルデータを組み込んだLarge Language Multimodal Models (LLMMs) フレームワークを提案する。
本手法では, テキスト埋め込みエンコーダとマルチヘッドアテンション層を組み合わせて, 深層ニューラルネットワーク(DNN)モジュールを用いて, 血液の特徴と慢性疾患のセマンティクスを潜在空間にマージする。
論文 参考訳(メタデータ) (2024-03-02T22:33:17Z) - ChatRadio-Valuer: A Chat Large Language Model for Generalizable
Radiology Report Generation Based on Multi-institution and Multi-system Data [115.0747462486285]
ChatRadio-Valuerは、一般化可能な表現を学習する自動放射線学レポート生成のための調整されたモデルである。
本研究で利用した臨床データセットは,textbf332,673の顕著な総計を含む。
ChatRadio-Valuerは、最先端のモデル、特にChatGPT(GPT-3.5-Turbo)やGPT-4などより一貫して優れている。
論文 参考訳(メタデータ) (2023-10-08T17:23:17Z) - Multilingual Natural Language Processing Model for Radiology Reports --
The Summary is all you need! [2.4910932804601855]
マルチリンガルテキスト・トゥ・テキスト・トランスフォーマに基づくモデルを微調整することで、放射線学印象の生成を自動化した。
ブラインドテストでは、2人の放射線学者が、システム生成サマリーのうち少なくとも70%は、品質が対応する人文サマリーと一致または上回っていることを示した。
本研究は,複数の言語モデルにおいて,放射線学レポートの要約に特化している他のモデルと,特に放射線学レポートの要約に特化していないモデルとを比較検討した。
論文 参考訳(メタデータ) (2023-09-29T19:20:27Z) - Evaluating Large Language Models for Radiology Natural Language
Processing [68.98847776913381]
大規模言語モデル(LLM)の台頭は、自然言語処理(NLP)分野における重要な転換点となっている。
本研究は, 放射線学報告の解釈において, 30 個の LLM を批判的に評価することにより, このギャップを埋めることを目指している。
論文 参考訳(メタデータ) (2023-07-25T17:57:18Z) - Identifying and Extracting Rare Disease Phenotypes with Large Language
Models [12.555067118549347]
ChatGPTは、複雑な人間のプロンプトに従い、高品質な応答を生成することができる革命的な大規模言語モデルである。
従来の微調整手法と比較し,詳細な誤差解析を行った。
ChatGPTは1ショット設定で、特定の実体(まれな疾患や徴候)に対して類似または高い精度を達成した。
論文 参考訳(メタデータ) (2023-06-22T03:52:12Z) - Natural Language Processing Methods to Identify Oncology Patients at
High Risk for Acute Care with Clinical Notes [9.49721872804122]
本研究は, がん患者の急性期治療(ACU)のリスクを明らかにするために, 自然言語処理がいかに有用かを評価するものである。
構造化健康データ(SHD)を用いたリスク予測は標準となっているが、自由テキスト形式を用いた予測は複雑である。
論文 参考訳(メタデータ) (2022-09-28T06:31:19Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - COLD: A Benchmark for Chinese Offensive Language Detection [54.60909500459201]
COLDatasetは、37kの注釈付き文を持つ中国の攻撃的言語データセットである。
また、人気のある中国語モデルの出力攻撃性を研究するために、textscCOLDetectorを提案する。
我々の資源と分析は、中国のオンラインコミュニティを解毒し、生成言語モデルの安全性を評価することを目的としている。
論文 参考訳(メタデータ) (2022-01-16T11:47:23Z) - CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-15T12:25:30Z) - UNITE: Uncertainty-based Health Risk Prediction Leveraging Multi-sourced
Data [81.00385374948125]
我々はUNcertaInTyベースのhEalth Risk Prediction(UNITE)モデルを提案する。
UNITEは、複数ソースの健康データを活用した正確な疾患リスク予測と不確実性推定を提供する。
非アルコール性脂肪肝疾患(NASH)とアルツハイマー病(AD)の実態予測タスクにおけるUNITEの評価を行った。
UNITEはAD検出のF1スコアで最大0.841点、NASH検出のPR-AUCで最大0.609点を達成し、最高のベースラインで最大19%の高パフォーマンスを達成している。
論文 参考訳(メタデータ) (2020-10-22T02:28:11Z) - A Natural Language Processing Pipeline of Chinese Free-text Radiology
Reports for Liver Cancer Diagnosis [8.549162626766332]
本研究は,中国の放射線医学報告から臨床関連特徴を直接抽出するためのNLPパイプラインを設計した。
パイプラインは、名前付きエンティティ認識、同義語正規化、関係抽出から構成されていた。
肝癌診断では,無作為林が肝癌診断において最高の成績を示した。
論文 参考訳(メタデータ) (2020-04-10T09:32:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。