論文の概要: Can Zero-Shot Commercial APIs Deliver Regulatory-Grade Clinical Text DeIdentification?
- arxiv url: http://arxiv.org/abs/2503.20794v1
- Date: Fri, 21 Mar 2025 10:05:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 18:49:11.227777
- Title: Can Zero-Shot Commercial APIs Deliver Regulatory-Grade Clinical Text DeIdentification?
- Title(参考訳): ゼロショット商用APIは規制グレード臨床テキスト識別を実現できるか?
- Authors: Veysel Kocaman, Muhammed Santas, Yigit Gul, Mehmet Butgul, David Talby,
- Abstract要約: 医療NLPは、保護された健康情報(PHI)の検出において96%のF1スコアを達成している。
固定コストのローカルデプロイメントモデルは、クラウドベースのサービスの要求毎の手数料のエスカレートを回避する。
0ショットの商用APIは、規制グレードの臨床診断に必要とされる正確性、適応性、コスト効率を満たさない。
- 参考スコア(独自算出の注目度): 4.769069757504856
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We systematically assess the performance of three leading API-based de-identification systems - Azure Health Data Services, AWS Comprehend Medical, and OpenAI GPT-4o - against our de-identification systems on a ground truth dataset of 48 clinical documents annotated by medical experts. Our analysis, conducted at both entity-level and token-level, demonstrates that our solution, Healthcare NLP, achieves the highest accuracy, with a 96% F1-score in protected health information (PHI) detection, significantly outperforming Azure (91%), AWS (83%), and GPT-4o (79%). Beyond accuracy, Healthcare NLP is also the most cost-effective solution, reducing processing costs by over 80% compared to Azure and GPT-4o. Its fixed-cost local deployment model avoids the escalating per-request fees of cloud-based services, making it a scalable and economical choice. Our results underscore a critical limitation: zero-shot commercial APIs fail to meet the accuracy, adaptability, and cost-efficiency required for regulatory-grade clinical de-identification. Healthcare NLP's superior performance, customization capabilities, and economic advantages position it as the more viable solution for healthcare organizations seeking compliance and scalability in clinical NLP workflows.
- Abstract(参考訳): Azure Health Data Services、AWS Comprehend Medical、OpenAI GPT-4oの3つの主要なAPIベースの非識別システムのパフォーマンスを、医療専門家が注釈付けした48の臨床文書の真実データセットに基づいて体系的に評価する。
私たちの分析では、エンティティレベルとトークンレベルの両方で実施され、私たちのソリューションであるHealthcare NLPが、保護された健康情報(PHI)の検出において96%のF1スコアを獲得し、Azure(91%)、AWS(83%)、GPT-4o(79%)を大きく上回っていることを実証しています。
正確性以外にも、Healthcare NLPは最もコスト効率のよいソリューションであり、AzureやGPT-4oと比較して処理コストを80%以上削減している。
固定コストのローカルデプロイメントモデルは、クラウドベースのサービスの要求毎の課金のエスカレートを回避するため、スケーラブルで経済的に選択できる。
0ショットの商用APIは、規制グレードの臨床診断に必要とされる正確性、適応性、コスト効率を満たさない。
医療NLPの優れたパフォーマンス、カスタマイズ能力、経済的優位性は、臨床NLPワークフローのコンプライアンスと拡張性を求める医療組織にとって、より実行可能なソリューションであると位置づけている。
関連論文リスト
- Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs [60.881609323604685]
ブラックボックスAPIを通じてアクセスされるLarge Language Models (LLM)は、信頼の課題をもたらす。
ユーザーは、宣伝されたモデル機能に基づいたサービスの料金を支払う。
プロバイダは、運用コストを削減するために、特定のモデルを安価で低品質の代替品に隠蔽的に置き換えることができる。
この透明性の欠如は、公正性を損なうとともに、信頼を損なうとともに、信頼性の高いベンチマークを複雑にする。
論文 参考訳(メタデータ) (2025-04-07T03:57:41Z) - Reinforcing Clinical Decision Support through Multi-Agent Systems and Ethical AI Governance [0.0]
実験結果, バイタルサイン, 臨床状況を分析するために, モジュラーエージェントを用いた新規エージェントシステムの設計を比較した。
我々は,eICUデータベースを用いて,実験室分析,バイタルのみのインタプリタ,文脈推論エージェントなどのエージェントシステムを実装した。
論文 参考訳(メタデータ) (2025-03-25T05:32:43Z) - Beyond Negation Detection: Comprehensive Assertion Detection Models for Clinical NLP [5.297964922424743]
我々は最先端のアサーション検出モデルを開発する。
我々はこれらのモデルを,クラウドベースの商用APIソリューション,レガシルールベースのNegExアプローチ,GPT-4oに対して評価する。
論文 参考訳(メタデータ) (2025-03-21T10:18:47Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - OPTIC: Optimizing Patient-Provider Triaging & Improving Communications in Clinical Operations using GPT-4 Data Labeling and Model Distillation [0.0]
本研究は, 医師の作業量削減と患者と患者とのコミュニケーション改善を目的とした, メッセージトリアージのための効率的なツールの開発を目的とする。
我々は,データラベリングにGPT-4,モデル蒸留にBERTを利用する強力なメッセージトリアージツールOPTICを開発した。
BERTモデルは、GPT-4ラベルで検証されたテストセットで88.85%の精度を達成し、感度は88.29%、特異性は89.38%、F1スコアは0.8842である。
論文 参考訳(メタデータ) (2025-02-05T05:49:34Z) - Zero-Shot ATC Coding with Large Language Models for Clinical Assessments [40.72273945475456]
解剖学的治療化学符号を処方記録に手動で割り当てることは重大なボトルネックである。
ローカル展開可能な大規模言語モデル(LLM)を用いた実践的アプローチを開発する。
GPT-4oを精度天井とし,プライバシに敏感なデプロイメントに適したオープンソースのLlamaモデルの開発に注力する。
論文 参考訳(メタデータ) (2024-12-10T18:43:02Z) - Unlocking Historical Clinical Trial Data with ALIGN: A Compositional Large Language Model System for Medical Coding [44.01429184037945]
自動ゼロショット医療符号化のための新しい合成LLMシステムであるALIGNを紹介する。
我々は、ALIGNを解剖学的治療化学(ATC)と医学史用語に調和させ、MedDRA(Medicical Dictionary for Regulatory Activity)コードに評価した。
論文 参考訳(メタデータ) (2024-11-20T09:59:12Z) - FEDMEKI: A Benchmark for Scaling Medical Foundation Models via Federated Knowledge Injection [83.54960238236548]
FEDMEKIはデータのプライバシーを守るだけでなく、医療基盤モデルの能力を高める。
FEDMEKIは、医療ファンデーションモデルに対して、直接データを公開することなく、幅広い医療知識から学ぶことを可能にする。
論文 参考訳(メタデータ) (2024-08-17T15:18:56Z) - MedAlign: A Clinician-Generated Dataset for Instruction Following with
Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。
医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。
我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文 参考訳(メタデータ) (2023-08-27T12:24:39Z) - Large Language Models for Healthcare Data Augmentation: An Example on
Patient-Trial Matching [49.78442796596806]
患者-心電図マッチング(LLM-PTM)のための革新的なプライバシ対応データ拡張手法を提案する。
本実験では, LLM-PTM法を用いて平均性能を7.32%向上させ, 新しいデータへの一般化性を12.12%向上させた。
論文 参考訳(メタデータ) (2023-03-24T03:14:00Z) - Deep Reinforcement Learning for Cost-Effective Medical Diagnosis [41.10546022107126]
強化学習を用いて、以前の観測結果に基づいて順次実験室のテストパネルを選択する動的ポリシーを探索する。
エンド・ツー・エンドのトレーニングやオンライン学習と互換性のあるセミモデルに基づく深層診断ポリシー最適化フレームワークを提案する。
SM-DDPOは、フェリチン異常検出、敗血症死亡予測、急性腎障害の診断など、様々な臨床的タスクでテストされている。
論文 参考訳(メタデータ) (2023-02-20T19:47:25Z) - Towards Reliable Medical Image Segmentation by utilizing Evidential Calibrated Uncertainty [52.03490691733464]
本稿では,医療画像セグメンテーションネットワークにシームレスに統合可能な,実装が容易な基礎モデルであるDEviSを紹介する。
主観的論理理論を利用して、医用画像分割の問題に対する確率と不確実性を明示的にモデル化する。
DeviSには不確実性を考慮したフィルタリングモジュールが組み込まれている。
論文 参考訳(メタデータ) (2023-01-01T05:02:46Z) - Improving Clinical Efficiency and Reducing Medical Errors through
NLP-enabled diagnosis of Health Conditions from Transcription Reports [0.0]
誤診率は病院における医療ミスの主な原因の1つで、全米で1200万人以上の成人に影響を及ぼしている。
本研究は,NLPに基づく4つのアルゴリズムを用いて,非構造化転写レポートに基づいて適切な健康状態を決定する。
論文 参考訳(メタデータ) (2022-06-27T06:37:15Z) - WSSS4LUAD: Grand Challenge on Weakly-supervised Tissue Semantic
Segmentation for Lung Adenocarcinoma [51.50991881342181]
この課題には10,091個のパッチレベルのアノテーションと1300万以上のラベル付きピクセルが含まれる。
第一位チームは0.8413mIoUを達成した(腫瘍:0.8389、ストーマ:0.7931、正常:0.8919)。
論文 参考訳(メタデータ) (2022-04-13T15:27:05Z) - Active learning for medical code assignment [55.99831806138029]
臨床領域における多ラベルテキスト分類におけるアクティブラーニング(AL)の有効性を示す。
MIMIC-IIIデータセットにICD-9コードを自動的に割り当てるために、よく知られたALメソッドのセットを適用します。
その結果、有益なインスタンスの選択は、大幅に減少したトレーニングセットで満足のいく分類を提供する。
論文 参考訳(メタデータ) (2021-04-12T18:11:17Z) - FLOP: Federated Learning on Medical Datasets using Partial Networks [84.54663831520853]
新型コロナウイルスの感染拡大で医療資源が不足している。
新型コロナウイルスの診断を緩和するために、さまざまなデータ駆動型ディープラーニングモデルが開発されている。
患者のプライバシー上の懸念から、データそのものはまだ乏しい。
我々は、textbfPartial Networks (FLOP) を用いた、シンプルで効果的な textbfFederated textbfL textbfon Medical データセットを提案する。
論文 参考訳(メタデータ) (2021-02-10T01:56:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。