論文の概要: Extracting Social Support and Social Isolation Information from Clinical Psychiatry Notes: Comparing a Rule-based NLP System and a Large Language Model
- arxiv url: http://arxiv.org/abs/2403.17199v1
- Date: Mon, 25 Mar 2024 21:19:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 19:26:23.254337
- Title: Extracting Social Support and Social Isolation Information from Clinical Psychiatry Notes: Comparing a Rule-based NLP System and a Large Language Model
- Title(参考訳): 臨床精神医学ノートから社会的支援と社会的孤立情報を抽出する:ルールベースNLPシステムと大規模言語モデルの比較
- Authors: Braja Gopal Patra, Lauren A. Lepow, Praneet Kasi Reddy Jagadeesh Kumar, Veer Vekaria, Mohit Manoj Sharma, Prakash Adekkanattu, Brian Fennessy, Gavin Hynes, Isotta Landi, Jorge A. Sanchez-Ruiz, Euijung Ryu, Joanna M. Biernacka, Girish N. Nadkarni, Ardesheer Talati, Myrna Weissman, Mark Olfson, J. John Mann, Alexander W. Charney, Jyotishman Pathak,
- Abstract要約: 社会的支援と社会的孤立は健康の社会的決定要因である。
マウント・シナイ・ヘルス・システムとウェル・コーネル・メディカルの精神医学的出会いノートに注釈が付され、ゴールド・スタンダード・コーパスが確立された。
FLAN-T5-XLを用いたレキシコンと大規模言語モデル(LLM)を用いたルールベースシステム(RBS)を開発した。
- 参考スコア(独自算出の注目度): 28.806204617884898
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Background: Social support (SS) and social isolation (SI) are social determinants of health (SDOH) associated with psychiatric outcomes. In electronic health records (EHRs), individual-level SS/SI is typically documented as narrative clinical notes rather than structured coded data. Natural language processing (NLP) algorithms can automate the otherwise labor-intensive process of data extraction. Data and Methods: Psychiatric encounter notes from Mount Sinai Health System (MSHS, n=300) and Weill Cornell Medicine (WCM, n=225) were annotated and established a gold standard corpus. A rule-based system (RBS) involving lexicons and a large language model (LLM) using FLAN-T5-XL were developed to identify mentions of SS and SI and their subcategories (e.g., social network, instrumental support, and loneliness). Results: For extracting SS/SI, the RBS obtained higher macro-averaged f-scores than the LLM at both MSHS (0.89 vs. 0.65) and WCM (0.85 vs. 0.82). For extracting subcategories, the RBS also outperformed the LLM at both MSHS (0.90 vs. 0.62) and WCM (0.82 vs. 0.81). Discussion and Conclusion: Unexpectedly, the RBS outperformed the LLMs across all metrics. Intensive review demonstrates that this finding is due to the divergent approach taken by the RBS and LLM. The RBS were designed and refined to follow the same specific rules as the gold standard annotations. Conversely, the LLM were more inclusive with categorization and conformed to common English-language understanding. Both approaches offer advantages and are made available open-source for future testing.
- Abstract(参考訳): 背景: 社会的支援 (SS) と社会的孤立 (SI) は精神医学的な結果に関連する社会的健康決定因子 (SDOH) である。
電子健康記録(EHR)では、個々のレベルのSS/SIは構造化されたデータではなく、物語的な臨床記録として記録されるのが一般的である。
自然言語処理(NLP)アルゴリズムは、他の作業集約的なデータ抽出プロセスを自動化することができる。
データと方法:シナイ山健康システム(MSHS, n=300)とウェル・コーネル・メディカル(WCM, n=225)の精神科的出会いノートに注釈を付し, 金標準コーパスを確立した。
FLAN-T5-XLを用いたレキシコンと大規模言語モデル(LLM)を用いたルールベースシステム(RBS)を開発した。
結果: SS/SI抽出において, RBSはMSHS (0.89 vs. 0.65) およびWCM (0.85 vs. 0.82) において, LLMよりも高いマクロ平均Fスコアを得た。
サブカテゴリを抽出する際、RBSはMSHS(0.90 vs. 0.62)とWCM(0.82 vs. 0.81)の両方でLLMを上回った。
議論と結論: 予想外の結果、RBSはすべてのメトリクスでLLMを上回りました。
集中的なレビューでは、この発見はRBSとLLMによる散発的なアプローチによるものであることが示されている。
RBSは金の標準アノテーションと同じルールに従って設計・改良された。
逆に、LLMは分類に包括的であり、一般的な英語の理解に適合した。
どちらのアプローチも利点があり、将来のテストのためにオープンソースになっている。
関連論文リスト
- Style Outweighs Substance: Failure Modes of LLM Judges in Alignment Benchmarking [56.275521022148794]
ポストトレーニング法は、人間のペアワイズ選好とのより良い対応により、優れたアライメントを主張する。
LLM-judgeの好みは、アライメントのためのより具体的なメトリクスの進捗に変換されますか、そうでなければ、なぜそうでないのでしょうか?
その結果,(1) LLM-judge の嗜好は,安全性,世界知識,指導の具体的な尺度と相関せず,(2) LLM-judge の暗黙バイアスが強く,事実性や安全性よりもスタイルを優先し,(3) POステージではなく,訓練後の微調整段階がアライメントに最も影響していることが判明した。
論文 参考訳(メタデータ) (2024-09-23T17:58:07Z) - Can Large Language Models Logically Predict Myocardial Infarction? Evaluation based on UK Biobank Cohort [10.66506859118868]
大規模言語モデル (LLMs) は臨床的意思決定支援の分野で非常に進歩している。
本研究の目的は,急性心筋梗塞(MI)の発症リスクを論理的推論で予測できることを定量的に評価することである。
論文 参考訳(メタデータ) (2024-09-22T14:57:31Z) - Generalizable and Scalable Multistage Biomedical Concept Normalization Leveraging Large Language Models [1.1515183244376797]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて、大きな可能性と高いパフォーマンスを示している。
バイオメディカル研究でよく用いられるルールベース正規化システムと組み合わせて, プロプライエタリおよびオープンソース両方のLSMを適用した。
生物医学的要約の公開データセットから,5,523の概念用語とテキストコンテキストを評価した。
論文 参考訳(メタデータ) (2024-05-24T00:31:04Z) - BooookScore: A systematic exploration of book-length summarization in the era of LLMs [53.42917858142565]
我々は,識別されたエラータイプを一切含まない要約文の割合を計測する自動測度BooookScoreを開発した。
GPT-4 や 2 のようなクローズドソース LLM は,オープンソースモデルよりも BooookScore の高いサマリーを生成することがわかった。
論文 参考訳(メタデータ) (2023-10-01T20:46:44Z) - Effect of Intensity Standardization on Deep Learning for WML
Segmentation in Multi-Centre FLAIR MRI [0.06117371161379209]
深層学習(DL)法は、MRIにおける白質病変(WML)のセグメンテーションにおいて、トレーニングデータから、スキャナーやアウト・オブ・ディストリビューション(OOD)であるセンターのデータに適用すると、性能が低下する。
これは翻訳と広範囲な採用にとって重要であり、これは現在のモデルが新しい機関のデータに容易に適用できないためである。
FLAIR(Multi-centre Fluid-Attenuated Inversion Recovery)MRIにおけるWMLセグメンテーションの前処理ステップとしてMRIの強度標準化手法を評価した。
論文 参考訳(メタデータ) (2023-07-07T20:51:38Z) - Auditing Algorithmic Fairness in Machine Learning for Health with
Severity-Based LOGAN [70.76142503046782]
臨床予測タスクにおいて,局所バイアスを自動検出するSLOGANを用いて,機械学習ベースの医療ツールを補足することを提案する。
LOGANは、患者の重症度と過去の医療史における集団バイアス検出を文脈化することにより、既存のツールであるLOcal Group biAs detectioNに適応する。
SLOGANは, クラスタリング品質を維持しながら, 患者群の75%以上において, SLOGANよりも高い公平性を示す。
論文 参考訳(メタデータ) (2022-11-16T08:04:12Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - Multiple Sclerosis Severity Classification From Clinical Text [5.8335613930036265]
本報告では,MIMIC以外の臨床データに基づいてトレーニングした最初の公開トランスフォーマーモデルであるMS-BERTについて述べる。
次に、MS-BERTを用いて埋め込みを生成し、EDSSと関数サブスコアを予測する分類器MSBCを提案する。
最後に、Snorkelを用いてMSBCを他のモデルと組み合わせて、競合しないコンサルティングノートのスコアを生成する方法について検討する。
論文 参考訳(メタデータ) (2020-10-29T02:15:23Z) - Performance of Dual-Augmented Lagrangian Method and Common Spatial
Patterns applied in classification of Motor-Imagery BCI [68.8204255655161]
運動画像に基づく脳-コンピュータインタフェース(MI-BCI)は、神経リハビリテーションのための画期的な技術になる可能性がある。
使用する脳波信号のノイズの性質のため、信頼性の高いBCIシステムは特徴の最適化と抽出のために特別な手順を必要とする。
論文 参考訳(メタデータ) (2020-10-13T20:50:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。