論文の概要: Comparing representations of long clinical texts for the task of patient note-identification
- arxiv url: http://arxiv.org/abs/2503.24006v1
- Date: Mon, 31 Mar 2025 12:31:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:36:38.468673
- Title: Comparing representations of long clinical texts for the task of patient note-identification
- Title(参考訳): 患者ノートの特定作業における長期臨床テキストの表現の比較
- Authors: Safa Alsaidi, Marc Vincent, Olivia Boyer, Nicolas Garcelon, Miguel Couceiro, Adrien Coulet,
- Abstract要約: 患者ノートの識別には、匿名化された臨床ノートを対応する患者と正確に一致させ、関連するノートのセットで表現する。
BERTモデルを含む様々な埋め込み手法を探索し,中長期臨床テキストを効果的に処理する。
以上の結果から,BERTをベースとした埋め込みは従来型および階層型モデル,特に長期臨床ノートの処理において優れていたことが示唆された。
- 参考スコア(独自算出の注目度): 4.552065156611815
- License:
- Abstract: In this paper, we address the challenge of patient-note identification, which involves accurately matching an anonymized clinical note to its corresponding patient, represented by a set of related notes. This task has broad applications, including duplicate records detection and patient similarity analysis, which require robust patient-level representations. We explore various embedding methods, including Hierarchical Attention Networks (HAN), three-level Hierarchical Transformer Networks (HTN), LongFormer, and advanced BERT-based models, focusing on their ability to process mediumto-long clinical texts effectively. Additionally, we evaluate different pooling strategies (mean, max, and mean_max) for aggregating wordlevel embeddings into patient-level representations and we examine the impact of sliding windows on model performance. Our results indicate that BERT-based embeddings outperform traditional and hierarchical models, particularly in processing lengthy clinical notes and capturing nuanced patient representations. Among the pooling strategies, mean_max pooling consistently yields the best results, highlighting its ability to capture critical features from clinical notes. Furthermore, the reproduction of our results on both MIMIC dataset and Necker hospital data warehouse illustrates the generalizability of these approaches to real-world applications, emphasizing the importance of both embedding methods and aggregation strategies in optimizing patient-note identification and enhancing patient-level modeling.
- Abstract(参考訳): 本稿では,患者名と患者名とを正確に一致させることによる患者名同定の課題に対処する。
このタスクには、重複記録検出や患者レベルの堅牢な表現を必要とする患者類似性分析など、幅広い応用がある。
階層型注意ネットワーク(HAN)、階層型変換ネットワーク(HTN)、LongFormer(LongFormer)、高度BERTベースモデルなどの埋め込み手法について検討し、中長期臨床テキストを効果的に処理できることに焦点をあてる。
さらに,患者レベルの表現に単語レベルの埋め込みを集約するための異なるプーリング戦略(平均,最大,平均_max)を評価し,スライディングウィンドウがモデル性能に与える影響を検討した。
以上の結果から,BERTをベースとした埋め込みは従来型および階層型モデルよりも優れていることが示唆された。
プーリング戦略の中で、平均_maxプーリングは一貫して最良の結果をもたらし、臨床ノートから重要な特徴を捉える能力を強調している。
さらに,MIMICデータセットとNecker病院データウェアハウスの再現により,これらのアプローチの現実的応用への一般化が図られ,患者目同定の最適化と患者レベルのモデリングの強化において,埋め込み手法と集約戦略の両方の重要性が強調された。
関連論文リスト
- Fake It Till You Make It: Using Synthetic Data and Domain Knowledge for Improved Text-Based Learning for LGE Detection [11.532639713283226]
臨床報告からテキストを用いてLGE検出のモデルを訓練するために,ドメイン知識に根ざした戦略を用いる。
我々は、画像の向きを解剖学的に表現した方法で標準化し、空間的特徴とテキスト的特徴のより優れたアライメントを可能にする。
モデル全体の性能に対する各デザインコンポーネントの貢献を明らかにするためのアブレーション研究が実施されている。
論文 参考訳(メタデータ) (2025-02-18T15:30:48Z) - DIRI: Adversarial Patient Reidentification with Large Language Models for Evaluating Clinical Text Anonymization [13.038800602897354]
本研究は, 大規模言語モデルを用いて患者を同定し, 臨床記録の再検討を行った。
本手法は, 臨床診断書に適合する患者を同定するために, 大規模言語モデルを用いている。
ClinicalBERTが最も有効であり, マスキングでPIIが同定できたが, 臨床記録の9%は再同定された。
論文 参考訳(メタデータ) (2024-10-22T14:06:31Z) - How Deep is your Guess? A Fresh Perspective on Deep Learning for Medical Time-Series Imputation [6.547981908229007]
アーキテクチャとフレームワークのバイアスがモデルのパフォーマンスにどのように影響するかを示します。
実験では、プリプロセッシングと実装の選択に基づいて、最大20%の性能変化を示す。
我々は,現在の深層計算法と医療要件の相違点を同定する。
論文 参考訳(メタデータ) (2024-07-11T12:33:28Z) - TREEMENT: Interpretable Patient-Trial Matching via Personalized Dynamic
Tree-Based Memory Network [54.332862955411656]
臨床試験は薬物開発に不可欠であるが、しばしば高価で非効率な患者募集に苦しむ。
近年,患者と臨床試験を自動マッチングすることで患者採用を高速化する機械学習モデルが提案されている。
本稿では,TREement という名前の動的ツリーベースメモリネットワークモデルを導入する。
論文 参考訳(メタデータ) (2023-07-19T12:35:09Z) - Large Language Models for Healthcare Data Augmentation: An Example on
Patient-Trial Matching [49.78442796596806]
患者-心電図マッチング(LLM-PTM)のための革新的なプライバシ対応データ拡張手法を提案する。
本実験では, LLM-PTM法を用いて平均性能を7.32%向上させ, 新しいデータへの一般化性を12.12%向上させた。
論文 参考訳(メタデータ) (2023-03-24T03:14:00Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z) - BiteNet: Bidirectional Temporal Encoder Network to Predict Medical
Outcomes [53.163089893876645]
本稿では,患者の医療旅行におけるコンテキスト依存と時間的関係を捉える,新たな自己注意機構を提案する。
エンド・ツー・エンドの双方向時間エンコーダネットワーク(BiteNet)が患者の旅路の表現を学習する。
実世界のEHRデータセットを用いた2つの教師付き予測と2つの教師なしクラスタリングタスクにおける手法の有効性を評価した。
論文 参考訳(メタデータ) (2020-09-24T00:42:36Z) - Semi-supervised Medical Image Classification with Relation-driven
Self-ensembling Model [71.80319052891817]
医用画像分類のための関係駆動型半教師付きフレームワークを提案する。
これは、摂動下で与えられた入力の予測一貫性を促進することでラベルのないデータを利用する。
本手法は,シングルラベルおよびマルチラベル画像分類のシナリオにおいて,最先端の半教師付き学習手法よりも優れる。
論文 参考訳(メタデータ) (2020-05-15T06:57:54Z) - Deep Representation Learning of Electronic Health Records to Unlock
Patient Stratification at Scale [0.5498849973527224]
ヘテロジニアスEHRを処理するためのディープラーニングに基づく教師なしフレームワークを提案する。
患者層形成を効果的かつ効果的に行うことができる患者表現を導出する。
論文 参考訳(メタデータ) (2020-03-14T00:04:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。