論文の概要: What Do Patients Say About Their Disease Symptoms? Deep Multilabel Text
Classification With Human-in-the-Loop Curation for Automatic Labeling of
Patient Self Reports of Problems
- arxiv url: http://arxiv.org/abs/2305.04905v1
- Date: Mon, 8 May 2023 17:42:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 13:21:36.116871
- Title: What Do Patients Say About Their Disease Symptoms? Deep Multilabel Text
Classification With Human-in-the-Loop Curation for Automatic Labeling of
Patient Self Reports of Problems
- Title(参考訳): 患者は病気の症状について何と言うのか?
患者自己報告の自動ラベル付けのためのHuman-in-the-Loop CurationによるDeep Multilabelテキスト分類
- Authors: Lakshmi Arbatti, Abhishek Hosamath, Vikram Ramanarayanan and Ira
Shoulson
- Abstract要約: 最も大きなオンラインデータセットの1つは、170,141のオープンエンドのセルフレポーティングレスポンスである。
9つのキュレーターによって注釈付けされた2,341動詞を用いたベースラインデータセットを構築した。
NLP技術を用いた規則に基づく言語辞書を開発した。
- 参考スコア(独自算出の注目度): 5.557886590578069
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The USA Food and Drug Administration has accorded increasing importance to
patient-reported problems in clinical and research settings. In this paper, we
explore one of the largest online datasets comprising 170,141 open-ended
self-reported responses (called "verbatims") from patients with Parkinson's
(PwPs) to questions about what bothers them about their Parkinson's Disease and
how it affects their daily functioning, also known as the Parkinson's Disease
Patient Report of Problems. Classifying such verbatims into multiple clinically
relevant symptom categories is an important problem and requires multiple steps
- expert curation, a multi-label text classification (MLTC) approach and large
amounts of labelled training data. Further, human annotation of such large
datasets is tedious and expensive. We present a novel solution to this problem
where we build a baseline dataset using 2,341 (of the 170,141) verbatims
annotated by nine curators including clinical experts and PwPs. We develop a
rules based linguistic-dictionary using NLP techniques and graph database-based
expert phrase-query system to scale the annotation to the remaining cohort
generating the machine annotated dataset, and finally build a Keras-Tensorflow
based MLTC model for both datasets. The machine annotated model significantly
outperforms the baseline model with a F1-score of 95% across 65 symptom
categories on a held-out test set.
- Abstract(参考訳): アメリカ食品医薬品局(FDA)は、臨床および研究環境で患者が報告した問題に対する重要性を増している。
本稿では,パーキンソン病(PwPs)の患者からの170,141件の自己申告回答("verbatims"と呼ばれる)から,パーキンソン病(Parkinson's Disease)にどのような影響があるのか,そしてそれが日常機能に与える影響について質問する。
このような言葉を複数の臨床症状カテゴリに分類することは重要な問題であり、専門家のキュレーション、多ラベルテキスト分類(MLTC)アプローチ、大量のラベル付きトレーニングデータを必要とする。
さらに、このような大規模なデータセットのヒューマンアノテーションは退屈で高価です。
本稿では,臨床専門家とpwpsを含む9人のキュレーターが注釈を付け,2,341(170,141)の動詞を用いたベースラインデータセットを構築した。
NLP技術とグラフデータベースに基づく専門語句クエリーシステムを用いてルールベースの言語辞書を作成し、機械注釈付きデータセットを生成する残りのコホートにアノテーションを拡張し、最終的に両方のデータセットに対してKeras-TensorflowベースのMLTCモデルを構築する。
機械注釈付きモデルは、ホールドアウトテストセットにおいて65の症状カテゴリに対して95%のF1スコアでベースラインモデルを大幅に上回る。
関連論文リスト
- GAMMA-PD: Graph-based Analysis of Multi-Modal Motor Impairment Assessments in Parkinson's Disease [9.69595196614787]
本稿では,多モード臨床データ解析のための新しいヘテロジニアスハイパーグラフ融合フレームワークであるGAMA-PDを提案する。
GAMMA-PDは、高次情報を保存することにより、画像と非画像データを"ハイパーネットワーク"(患者集団グラフ)に統合する。
パーキンソン病における運動障害症状の予測に有意な改善が認められた。
論文 参考訳(メタデータ) (2024-10-01T15:51:33Z) - Assessing and Enhancing Large Language Models in Rare Disease Question-answering [64.32570472692187]
本稿では,レアな疾患の診断におけるLarge Language Models (LLMs) の性能を評価するために,レアな疾患問合せデータセット(ReDis-QA)を導入する。
ReDis-QAデータセットでは1360の高品質な質問応答ペアを収集し,205の稀な疾患をカバーした。
その後、いくつかのオープンソースのLCMをベンチマークし、希少疾患の診断がこれらのモデルにとって重要な課題であることを示した。
実験の結果,ReCOPは,ReDis-QAデータセット上でのLCMの精度を平均8%向上できることがわかった。
論文 参考訳(メタデータ) (2024-08-15T21:09:09Z) - Detecting the Clinical Features of Difficult-to-Treat Depression using
Synthetic Data from Large Language Models [0.20971479389679337]
我々は,日常的に収集された物語(自由テキスト)電子健康記録データを問うことができるLarge Language Model(LLM)ベースのツールの開発を目指している。
LLM生成合成データ(GPT3.5)と非最大抑圧(NMS)アルゴリズムを用いてBERTに基づくスパン抽出モデルを訓練する。
以上の結果から,20因子のセットによる臨床データによる総合成績 (0.70 F1) と重要なDTDのサブセットにおける高いパフォーマンス (0.85 F1 と 0.95 の精度) が得られた。
論文 参考訳(メタデータ) (2024-02-12T13:34:33Z) - README: Bridging Medical Jargon and Lay Understanding for Patient Education through Data-Centric NLP [9.432205523734707]
医療用語を患者に親しみやすい平易な言語に簡略化することを目的とした,レイ定義の自動生成という新たなタスクを導入する。
このデータセットは、5万以上のユニークな(医療用語、日常の定義)ペアと30万の言及からなる。
また、データフィルタリング、拡張、選択を相乗化してデータ品質を改善する、データ中心のHuman-AIパイプラインも開発しました。
論文 参考訳(メタデータ) (2023-12-24T23:01:00Z) - PULSAR: Pre-training with Extracted Healthcare Terms for Summarising
Patients' Problems and Data Augmentation with Black-box Large Language Models [25.363775123262307]
問題リストの形で患者の問題を自動的に要約することで、ステークホルダーが患者の状態を理解し、作業負荷と認知バイアスを減らすのに役立つ。
BioNLP 2023 共有タスク1Aは、入院中の提供者の進捗状況から診断と問題のリストを作成することに焦点を当てている。
1つのコンポーネントは、データ拡張のために大きな言語モデル(LLM)を使用し、もう1つは、リストとして要約された患者の問題を生成するための、新しいトレーニング済みの目標を持つ抽象的な要約 LLM である。
私たちのアプローチは、共有タスクへの全提出のうち、第2位でした。
論文 参考訳(メタデータ) (2023-06-05T10:17:50Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z) - Predicting Clinical Diagnosis from Patients Electronic Health Records
Using BERT-based Neural Networks [62.9447303059342]
医療コミュニティにおけるこの問題の重要性を示す。
本稿では,変換器 (BERT) モデルによる2方向表現の分類順序の変更について述べる。
約400万人のユニークな患者訪問からなる、大規模なロシアのEHRデータセットを使用します。
論文 参考訳(メタデータ) (2020-07-15T09:22:55Z) - Semi-supervised Medical Image Classification with Relation-driven
Self-ensembling Model [71.80319052891817]
医用画像分類のための関係駆動型半教師付きフレームワークを提案する。
これは、摂動下で与えられた入力の予測一貫性を促進することでラベルのないデータを利用する。
本手法は,シングルラベルおよびマルチラベル画像分類のシナリオにおいて,最先端の半教師付き学習手法よりも優れる。
論文 参考訳(メタデータ) (2020-05-15T06:57:54Z) - Deep Representation Learning of Electronic Health Records to Unlock
Patient Stratification at Scale [0.5498849973527224]
ヘテロジニアスEHRを処理するためのディープラーニングに基づく教師なしフレームワークを提案する。
患者層形成を効果的かつ効果的に行うことができる患者表現を導出する。
論文 参考訳(メタデータ) (2020-03-14T00:04:20Z) - DeepEnroll: Patient-Trial Matching with Deep Embedding and Entailment
Prediction [67.91606509226132]
臨床試験は医薬品開発に不可欠であるが、高価で不正確で不十分な患者募集に苦しむことが多い。
DeepEnrollは、入力基準(タブラリデータ)を一致する推論のための共有潜在空間に共同でエンコードする、クロスモーダル推論学習モデルである。
論文 参考訳(メタデータ) (2020-01-22T17:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。