論文の概要: Not What the Doctor Ordered: Surveying LLM-based De-identification and Quantifying Clinical Information Loss
- arxiv url: http://arxiv.org/abs/2509.14464v1
- Date: Wed, 17 Sep 2025 22:37:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:52.992984
- Title: Not What the Doctor Ordered: Surveying LLM-based De-identification and Quantifying Clinical Information Loss
- Title(参考訳): 医師が何を命じたのか : LLMによる非識別検査と臨床情報損失の定量化
- Authors: Kiana Aghakasiri, Noopur Zambare, JoAnn Thai, Carrie Ye, Mayur Mehta, J. Ross Mitchell, Mohamed Abdalla,
- Abstract要約: 医療環境の非識別化は、NLPの応用であり、自動化されたアルゴリズムを使用して患者の個人識別情報(時には提供者)を除去する。
近年, 生成型大規模言語モデル (LLM) の台頭に伴い, LLM を非識別に応用する論文が増えてきている。
本報告では, 従来の分類基準が誤りを捉える上で不十分であったこと, それらの誤りを定量化するための自動指標の検証が手作業で行われていないこと, など, 現状の文献における3つの重要な限界について述べる。
- 参考スコア(独自算出の注目度): 1.514900191663287
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: De-identification in the healthcare setting is an application of NLP where automated algorithms are used to remove personally identifying information of patients (and, sometimes, providers). With the recent rise of generative large language models (LLMs), there has been a corresponding rise in the number of papers that apply LLMs to de-identification. Although these approaches often report near-perfect results, significant challenges concerning reproducibility and utility of the research papers persist. This paper identifies three key limitations in the current literature: inconsistent reporting metrics hindering direct comparisons, the inadequacy of traditional classification metrics in capturing errors which LLMs may be more prone to (i.e., altering clinically relevant information), and lack of manual validation of automated metrics which aim to quantify these errors. To address these issues, we first present a survey of LLM-based de-identification research, highlighting the heterogeneity in reporting standards. Second, we evaluated a diverse set of models to quantify the extent of inappropriate removal of clinical information. Next, we conduct a manual validation of an existing evaluation metric to measure the removal of clinical information, employing clinical experts to assess their efficacy. We highlight poor performance and describe the inherent limitations of such metrics in identifying clinically significant changes. Lastly, we propose a novel methodology for the detection of clinically relevant information removal.
- Abstract(参考訳): 医療環境における非識別は、NLPの応用であり、自動化されたアルゴリズムを使用して患者の個人識別情報(時には提供者)を除去する。
近年, 生成型大規模言語モデル (LLM) の台頭に伴い, LLM を非識別に応用する論文が増えてきている。
これらのアプローチでは、ほぼ完全な結果が報告されることが多いが、再現性と研究論文の有用性に関する重要な課題が続いている。
本報告では, 直接比較を妨げる不整合報告指標, LLM が抱える誤り(臨床関連情報の変更など)を捉える上での従来の分類基準の欠如, 自動測定値の検証を手作業で行うことによる検証の欠如, の3点について述べる。
これらの問題に対処するために,我々はまずLLMに基づく非識別研究について調査を行い,報告基準の不均一性を強調した。
第2に,臨床情報の不適切な除去範囲を定量化するために,多種多様なモデルを評価した。
次に、臨床情報の除去を計測するために、既存の評価基準のマニュアル検証を行い、臨床専門家を雇い、その有効性を評価する。
臨床的に有意な変化を特定する上で,これらの指標に固有の限界について述べる。
最後に,臨床関連情報抽出のための新しい手法を提案する。
関連論文リスト
- MedErr-CT: A Visual Question Answering Benchmark for Identifying and Correcting Errors in CT Reports [4.769418278782809]
MedErr-CTは医療MLLMのCTレポートにおける誤りの特定と修正能力を評価するための新しいベンチマークである。
ベンチマークには6つのエラーカテゴリが含まれている。4つの視覚中心エラー(Omission, Insertion, Direction, Size)と2つの語彙的エラータイプ(Unit, Typo)だ。
論文 参考訳(メタデータ) (2025-06-24T00:51:03Z) - Enhancing Clinical Multiple-Choice Questions Benchmarks with Knowledge Graph Guided Distractor Generation [29.547871298286687]
本稿では,インタプリタを生成することで,臨床データセットの難易度を高める知識誘導型データ拡張フレームワークを提案する。
我々のアプローチは、医療的関連性はあるものの、実際は正しくない、気晴らしの経路-連想を特定するために、医療知識グラフ上の多段階的、意味的に情報を得たウォークである。
設計した知識グラフガイド型イントラクタ生成(KGGDG)ピップラインを6つの広く使用されている医療用QAベンチマークに適用し、最先端のLCMの精度を一貫して低下させることを示す。
論文 参考訳(メタデータ) (2025-05-31T15:51:09Z) - CaseReportBench: An LLM Benchmark Dataset for Dense Information Extraction in Clinical Case Reports [4.477840500181267]
IEMに着目したケースレポートの高密度情報抽出のためのエキスパートアノテートデータセットであるCaseReportBenchを紹介する。
我々は、カテゴリ固有のプロンプトやサブヘッダーによるデータ統合のような新しいアプローチを導入し、様々なモデルとプロンプト戦略を評価する。
臨床評価の結果,LSMは症例報告から臨床的に関連性のある詳細を抽出し,稀な疾患の診断と管理を支援することが示唆された。
論文 参考訳(メタデータ) (2025-05-22T20:21:32Z) - GEMA-Score: Granular Explainable Multi-Agent Scoring Framework for Radiology Report Evaluation [7.838068874909676]
Granular Explainable Multi-Agent Score (GEMA-Score)は、大規模言語モデルに基づくマルチエージェントワークフローを通じて、客観的および主観的評価を行う。
GEMA-Scoreは、公開データセット上での人間の専門家評価と最も高い相関を達成している。
論文 参考訳(メタデータ) (2025-03-07T11:42:22Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - Fact or Guesswork? Evaluating Large Language Models' Medical Knowledge with Structured One-Hop Judgments [108.55277188617035]
大規模言語モデル(LLM)は、様々な下流タスクドメインで広く採用されているが、実際の医学的知識を直接呼び起こし、適用する能力は、まだ探索されていない。
標準化された語彙と知識グラフの包括的なリポジトリであるUMLS(Unified Medical Language System)から派生したデータセットであるMKJ(Messical Knowledge Judgment dataset)を紹介する。
バイナリ分類フレームワークを通じて、MKJは、簡潔なワンホップ文の妥当性を評価することによって、LCMが基本的な医学的事実を把握できることを評価する。
論文 参考訳(メタデータ) (2025-02-20T05:27:51Z) - DIRI: Adversarial Patient Reidentification with Large Language Models for Evaluating Clinical Text Anonymization [13.038800602897354]
本研究は, 大規模言語モデルを用いて患者を同定し, 臨床記録の再検討を行った。
本手法は, 臨床診断書に適合する患者を同定するために, 大規模言語モデルを用いている。
ClinicalBERTが最も有効であり, マスキングでPIIが同定できたが, 臨床記録の9%は再同定された。
論文 参考訳(メタデータ) (2024-10-22T14:06:31Z) - Don't Ignore Dual Logic Ability of LLMs while Privatizing: A
Data-Intensive Analysis in Medical Domain [19.46334739319516]
本研究では, LLMの二重論理能力が, 医療領域の民営化過程における影響について検討した。
以上の結果から,LLMに汎用ドメイン二重論理データを組み込むことによって,LLMの二重論理能力が向上するだけでなく,精度も向上することが示唆された。
論文 参考訳(メタデータ) (2023-09-08T08:20:46Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - SPeC: A Soft Prompt-Based Calibration on Performance Variability of
Large Language Model in Clinical Notes Summarization [50.01382938451978]
本稿では,ソフトプロンプトを用いたモデルに依存しないパイプラインを導入し,確率に基づく要約の利点を保ちながら分散を減少させる。
実験結果から,本手法は性能を向上するだけでなく,様々な言語モデルの分散を効果的に抑制することが明らかとなった。
論文 参考訳(メタデータ) (2023-03-23T04:47:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。