Fugu-MT 論文翻訳(概要): Can Zero-Shot Commercial APIs Deliver Regulatory-Grade Clinical Text DeIdentification?

論文の概要: Can Zero-Shot Commercial APIs Deliver Regulatory-Grade Clinical Text DeIdentification?

arxiv url: http://arxiv.org/abs/2503.20794v1
Date: Fri, 21 Mar 2025 10:05:04 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-28 18:49:11.227777
Title: Can Zero-Shot Commercial APIs Deliver Regulatory-Grade Clinical Text DeIdentification?
Title（参考訳）: ゼロショット商用APIは規制グレード臨床テキスト識別を実現できるか?
Authors: Veysel Kocaman, Muhammed Santas, Yigit Gul, Mehmet Butgul, David Talby,
Abstract要約: 医療NLPは、保護された健康情報(PHI)の検出において96%のF1スコアを達成している。固定コストのローカルデプロイメントモデルは、クラウドベースのサービスの要求毎の手数料のエスカレートを回避する。 0ショットの商用APIは、規制グレードの臨床診断に必要とされる正確性、適応性、コスト効率を満たさない。
参考スコア（独自算出の注目度）: 4.769069757504856
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We systematically assess the performance of three leading API-based de-identification systems - Azure Health Data Services, AWS Comprehend Medical, and OpenAI GPT-4o - against our de-identification systems on a ground truth dataset of 48 clinical documents annotated by medical experts. Our analysis, conducted at both entity-level and token-level, demonstrates that our solution, Healthcare NLP, achieves the highest accuracy, with a 96% F1-score in protected health information (PHI) detection, significantly outperforming Azure (91%), AWS (83%), and GPT-4o (79%). Beyond accuracy, Healthcare NLP is also the most cost-effective solution, reducing processing costs by over 80% compared to Azure and GPT-4o. Its fixed-cost local deployment model avoids the escalating per-request fees of cloud-based services, making it a scalable and economical choice. Our results underscore a critical limitation: zero-shot commercial APIs fail to meet the accuracy, adaptability, and cost-efficiency required for regulatory-grade clinical de-identification. Healthcare NLP's superior performance, customization capabilities, and economic advantages position it as the more viable solution for healthcare organizations seeking compliance and scalability in clinical NLP workflows.
Abstract（参考訳）: Azure Health Data Services、AWS Comprehend Medical、OpenAI GPT-4oの3つの主要なAPIベースの非識別システムのパフォーマンスを、医療専門家が注釈付けした48の臨床文書の真実データセットに基づいて体系的に評価する。私たちの分析では、エンティティレベルとトークンレベルの両方で実施され、私たちのソリューションであるHealthcare NLPが、保護された健康情報(PHI)の検出において96%のF1スコアを獲得し、Azure(91%)、AWS(83%)、GPT-4o(79%)を大きく上回っていることを実証しています。正確性以外にも、Healthcare NLPは最もコスト効率のよいソリューションであり、AzureやGPT-4oと比較して処理コストを80%以上削減している。固定コストのローカルデプロイメントモデルは、クラウドベースのサービスの要求毎の課金のエスカレートを回避するため、スケーラブルで経済的に選択できる。 0ショットの商用APIは、規制グレードの臨床診断に必要とされる正確性、適応性、コスト効率を満たさない。医療NLPの優れたパフォーマンス、カスタマイズ能力、経済的優位性は、臨床NLPワークフローのコンプライアンスと拡張性を求める医療組織にとって、より実行可能なソリューションであると位置づけている。

関連論文リスト

DispatchMAS: Fusing taxonomy and artificial intelligence agents for emergency medical services [49.70819009392778]
大規模言語モデル (LLM) とマルチエージェントシステム (MAS) は、ディスパッチを増強する機会を提供する。本研究の目的は,現実的なシナリオをシミュレートする分類基盤型マルチエージェントシステムの開発と評価である。
論文参考訳（メタデータ） (2025-10-24T08:01:21Z)
Timely Clinical Diagnosis through Active Test Selection [49.091903570068155]
本稿では,現実の診断推論をよりうまくエミュレートするためのACTMED (Adaptive Clinical Test selection via Model-based Experimental Design)を提案する。 LLMは柔軟なシミュレータとして機能し、構造化されたタスク固有のトレーニングデータを必要とせずに、患者状態のもっともらしい分布を生成し、信念の更新をサポートする。我々は、実世界のデータセット上でACTMEDを評価し、診断精度、解釈可能性、リソース使用量を改善するためにテスト選択を最適化できることを示す。
論文参考訳（メタデータ） (2025-10-21T18:10:45Z)
EchoBench: Benchmarking Sycophancy in Medical Large Vision-Language Models [82.43729208063468]
医療用LVLM(Large Vision-Language Models)の最近のベンチマークでは、信頼性と安全性を見越して、リーダボードの精度を強調している。ユーザが提供した情報を非批判的に反響させる傾向のモデルについて検討する。医療用LVLMの梅毒を系統的に評価するベンチマークであるEchoBenchを紹介する。
論文参考訳（メタデータ） (2025-09-24T14:09:55Z)
An Agentic System for Rare Disease Diagnosis with Traceable Reasoning [58.78045864541539]
大型言語モデル(LLM)を用いた最初のまれな疾患診断エージェントシステムであるDeepRareを紹介する。 DeepRareは、まれな疾患の診断仮説を分類し、それぞれに透明な推論の連鎖が伴う。このシステムは2,919の疾患に対して異常な診断性能を示し、1013の疾患に対して100%の精度を達成している。
論文参考訳（メタデータ） (2025-06-25T13:42:26Z)
Can Modern NLP Systems Reliably Annotate Chest Radiography Exams? A Pre-Purchase Evaluation and Comparative Study of Solutions from AWS, Google, Azure, John Snow Labs, and Open-Source Models on an Independent Pediatric Dataset [0.0]
本研究では,エンティティ抽出とアサーション検出のための4つの臨床NLPシステムの比較を行った。 CheXpertとCheXbertの2つの専用の胸部X線写真レポートラベルが同じタスクで評価された。小児科大病院における95,008例のCXR報告について検討した。
論文参考訳（メタデータ） (2025-05-29T03:16:18Z)
A Modular Approach for Clinical SLMs Driven by Synthetic Data with Pre-Instruction Tuning, Model Merging, and Clinical-Tasks Alignment [46.776978552161395]
小型言語モデル(SLM)は、GPT-4のような大規模言語モデルに代わる費用対効果を提供する。 SLMは費用対効果のある代替手段を提供するが、その限られた能力は生物医学的な領域適応を必要とする。本研究では,SLMを高性能な臨床モデルに適用するための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-05-15T21:40:21Z)
A Clinician-Friendly Platform for Ophthalmic Image Analysis Without Technical Barriers [51.45596445363302]
GlobeReadyはクリニックフレンドリーなAIプラットフォームで、再トレーニング、微調整、技術専門知識の必要性なしに、基礎疾患の診断を可能にする。光コヒーレンス・トモグラフィー(OCT)スキャンを用いて、カラー・ファンドス写真(CPF)を用いた11のファンドス病(93.9-98.5%)と15のファンドス病(87.2-92.7%)の精度を示した。トレーニングなしのローカル機能拡張を活用することで、GlobeReadyプラットフォームは、センターや人口間のドメインシフトを効果的に軽減する。
論文参考訳（メタデータ） (2025-04-22T14:17:22Z)
Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs [60.881609323604685]
ブラックボックスAPIを通じてアクセスされるLarge Language Models (LLM)は、信頼の課題をもたらす。ユーザーは、宣伝されたモデル機能に基づいたサービスの料金を支払う。プロバイダは、運用コストを削減するために、特定のモデルを安価で低品質の代替品に隠蔽的に置き換えることができる。この透明性の欠如は、公正性を損なうとともに、信頼を損なうとともに、信頼性の高いベンチマークを複雑にする。
論文参考訳（メタデータ） (2025-04-07T03:57:41Z)
Reinforcing Clinical Decision Support through Multi-Agent Systems and Ethical AI Governance [0.0]
実験結果, バイタルサイン, 臨床状況を分析するために, モジュラーエージェントを用いた新規エージェントシステムの設計を比較した。我々は,eICUデータベースを用いて,実験室分析,バイタルのみのインタプリタ,文脈推論エージェントなどのエージェントシステムを実装した。
論文参考訳（メタデータ） (2025-03-25T05:32:43Z)
Beyond Negation Detection: Comprehensive Assertion Detection Models for Clinical NLP [5.297964922424743]
我々は最先端のアサーション検出モデルを開発する。我々はこれらのモデルを,クラウドベースの商用APIソリューション,レガシルールベースのNegExアプローチ,GPT-4oに対して評価する。
論文参考訳（メタデータ） (2025-03-21T10:18:47Z)
Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文参考訳（メタデータ） (2025-03-06T18:35:39Z)
OPTIC: Optimizing Patient-Provider Triaging & Improving Communications in Clinical Operations using GPT-4 Data Labeling and Model Distillation [0.0]
本研究は, 医師の作業量削減と患者と患者とのコミュニケーション改善を目的とした, メッセージトリアージのための効率的なツールの開発を目的とする。我々は,データラベリングにGPT-4,モデル蒸留にBERTを利用する強力なメッセージトリアージツールOPTICを開発した。 BERTモデルは、GPT-4ラベルで検証されたテストセットで88.85%の精度を達成し、感度は88.29%、特異性は89.38%、F1スコアは0.8842である。
論文参考訳（メタデータ） (2025-02-05T05:49:34Z)
Zero-Shot ATC Coding with Large Language Models for Clinical Assessments [40.72273945475456]
解剖学的治療化学符号を処方記録に手動で割り当てることは重大なボトルネックである。ローカル展開可能な大規模言語モデル(LLM)を用いた実践的アプローチを開発する。 GPT-4oを精度天井とし,プライバシに敏感なデプロイメントに適したオープンソースのLlamaモデルの開発に注力する。
論文参考訳（メタデータ） (2024-12-10T18:43:02Z)
Unlocking Historical Clinical Trial Data with ALIGN: A Compositional Large Language Model System for Medical Coding [44.01429184037945]
自動ゼロショット医療符号化のための新しい合成LLMシステムであるALIGNを紹介する。我々は、ALIGNを解剖学的治療化学(ATC)と医学史用語に調和させ、MedDRA(Medicical Dictionary for Regulatory Activity)コードに評価した。
論文参考訳（メタデータ） (2024-11-20T09:59:12Z)
FEDMEKI: A Benchmark for Scaling Medical Foundation Models via Federated Knowledge Injection [83.54960238236548]
FEDMEKIはデータのプライバシーを守るだけでなく、医療基盤モデルの能力を高める。 FEDMEKIは、医療ファンデーションモデルに対して、直接データを公開することなく、幅広い医療知識から学ぶことを可能にする。
論文参考訳（メタデータ） (2024-08-17T15:18:56Z)
MedAlign: A Clinician-Generated Dataset for Instruction Following with Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文参考訳（メタデータ） (2023-08-27T12:24:39Z)
Large Language Models for Healthcare Data Augmentation: An Example on Patient-Trial Matching [49.78442796596806]
患者-心電図マッチング(LLM-PTM)のための革新的なプライバシ対応データ拡張手法を提案する。本実験では, LLM-PTM法を用いて平均性能を7.32%向上させ, 新しいデータへの一般化性を12.12%向上させた。
論文参考訳（メタデータ） (2023-03-24T03:14:00Z)
Deep Reinforcement Learning for Cost-Effective Medical Diagnosis [41.10546022107126]
強化学習を用いて、以前の観測結果に基づいて順次実験室のテストパネルを選択する動的ポリシーを探索する。エンド・ツー・エンドのトレーニングやオンライン学習と互換性のあるセミモデルに基づく深層診断ポリシー最適化フレームワークを提案する。 SM-DDPOは、フェリチン異常検出、敗血症死亡予測、急性腎障害の診断など、様々な臨床的タスクでテストされている。
論文参考訳（メタデータ） (2023-02-20T19:47:25Z)
Towards Reliable Medical Image Segmentation by utilizing Evidential Calibrated Uncertainty [52.03490691733464]
本稿では,医療画像セグメンテーションネットワークにシームレスに統合可能な,実装が容易な基礎モデルであるDEviSを紹介する。主観的論理理論を利用して、医用画像分割の問題に対する確率と不確実性を明示的にモデル化する。 DeviSには不確実性を考慮したフィルタリングモジュールが組み込まれている。
論文参考訳（メタデータ） (2023-01-01T05:02:46Z)
Improving Clinical Efficiency and Reducing Medical Errors through NLP-enabled diagnosis of Health Conditions from Transcription Reports [0.0]
誤診率は病院における医療ミスの主な原因の1つで、全米で1200万人以上の成人に影響を及ぼしている。本研究は,NLPに基づく4つのアルゴリズムを用いて,非構造化転写レポートに基づいて適切な健康状態を決定する。
論文参考訳（メタデータ） (2022-06-27T06:37:15Z)
WSSS4LUAD: Grand Challenge on Weakly-supervised Tissue Semantic Segmentation for Lung Adenocarcinoma [51.50991881342181]
この課題には10,091個のパッチレベルのアノテーションと1300万以上のラベル付きピクセルが含まれる。第一位チームは0.8413mIoUを達成した(腫瘍:0.8389、ストーマ:0.7931、正常:0.8919)。
論文参考訳（メタデータ） (2022-04-13T15:27:05Z)
Active learning for medical code assignment [55.99831806138029]
臨床領域における多ラベルテキスト分類におけるアクティブラーニング(AL)の有効性を示す。 MIMIC-IIIデータセットにICD-9コードを自動的に割り当てるために、よく知られたALメソッドのセットを適用します。その結果、有益なインスタンスの選択は、大幅に減少したトレーニングセットで満足のいく分類を提供する。
論文参考訳（メタデータ） (2021-04-12T18:11:17Z)
FLOP: Federated Learning on Medical Datasets using Partial Networks [84.54663831520853]
新型コロナウイルスの感染拡大で医療資源が不足している。新型コロナウイルスの診断を緩和するために、さまざまなデータ駆動型ディープラーニングモデルが開発されている。患者のプライバシー上の懸念から、データそのものはまだ乏しい。我々は、textbfPartial Networks (FLOP) を用いた、シンプルで効果的な textbfFederated textbfL textbfon Medical データセットを提案する。
論文参考訳（メタデータ） (2021-02-10T01:56:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。